chatopera-insurance-industry-corpus: OpenData в области страхования для задач машинного обучения, страховая отраслевая база данных, чат-бот.

Загрузка данных

import insuranceqa_data as insuranceqa
train_data = insuranceqa.load_pairs_train()
test_data = insuranceqa.load_pairs_test()
valid_data = insuranceqa.load_pairs_valid()

# valid_data, test_data и train_data имеют одинаковые свойства
for x in test_data:
    print('index %s value: %s ++$++ %s ++$++ %s' % \
     (x['qid'], x['question'], x['utterance'], x['label']))

vocab_data = insuranceqa.load_pairs_vocab()
vocab_data['word2id']['UNKNOWN']
vocab_data['id2word'][0]
vocab_data['tf']
vocab_data['total']

Дизайн данных

vocab_data содержит word2id (dict, от слова к id), id2word (dict, от id к слову), tf (dict, статистика частоты слов) и total (общее количество слов). Здесь, идентификатор неизвестного слова — UNKNOWN, а его id равен 0.

train_data, test_data и valid_data имеют одинаковый формат данных. qid — это идентификатор вопроса, question — вопрос, utterance — ответ, а label представляет собой [1,0] для правильного ответа и [0,1] для неправильного ответа, поэтому utterance включает данные как положительных, так и отрицательных примеров. Каждый вопрос имеет 10 отрицательных примеров и 1 положительный пример.

train_data содержит 12 889 вопросов и 141 779 записей, соотношение положительных и отрицательных примеров составляет 1:10;
test_data содержит 2000 вопросов и 22 000 записей, соотношение положительных и отрицательных примеров также составляет 1:10;
valid_data содержит 2000 вопросов и 22 000 записей с соотношением положительных и отрицательных примеров 1:10.

Длина предложений:

максимальная длина валидного вопроса: 31, средняя: 5 (макс.);
максимальная длина валидного высказывания: 878 (макс.), средняя: 165 (макс);
максимальная длина тестового вопроса: 33, средняя: 5;
максимальная длина тестового высказывания: 878, средняя: 161;
максимальная длина тренировочного вопроса: 42 (макс.), средняя: 5;
максимальная длина тренировочного высказывания: 878, средняя: 162;
размер словаря: 24 997.

Проект машинного обучения

Этот корпус данных можно использовать в сочетании с открытым исходным кодом:

deep-qa-1: базовая модель;

InsuranceQA TensorFlow: CNN с TensorFlow;

n-grams-get-started: N-мерная модель;

word2vec-get-started: модель векторного представления слов.

Заявление

Заявление 1: insuranceqa-corpus-zh

Этот набор данных был создан с использованием перевода insuranceQA и выпущен под сертификатом Chunsong Public License, version 1.0. Данные предназначены только для исследовательских целей, и при публикации любых материалов в СМИ, журналах, газетах или блогах необходимо указывать источник и адрес.

InsuranceQA Corpus, Chatopera Inc., https://github.com/chatopera/insuranceqa-corpus-zh, 07 27, 2017

Любые данные, полученные на основе insuranceqa-corpus, также должны быть открыты и должны соответствовать содержанию «Заявления 1» и «Заявления 2».

Заявление 2: insuranceQA

Эти данные предоставляются исключительно в исследовательских целях. Если вы используете эти данные для публикации любого контента, пожалуйста, укажите нашу статью: Applying Deep Learning to Answer Selection: A Study and An Open Task. Minwei Feng, Bing Xiang, Michael R. Glass, Lidan Wang, Bowen Zhou @ 2015.

OSCHINA-MIRROR/chatopera-insurance-industry-corpus

Проект машинного обучения

Заявление

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/chatopera-insurance-industry-corpus .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

Проект машинного обучения

Заявление

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/chatopera-insurance-industry-corpus