Загрузка данных
import insuranceqa_data as insuranceqa
train_data = insuranceqa.load_pairs_train()
test_data = insuranceqa.load_pairs_test()
valid_data = insuranceqa.load_pairs_valid()
# valid_data, test_data и train_data имеют одинаковые свойства
for x in test_data:
print('index %s value: %s ++$++ %s ++$++ %s' % \
(x['qid'], x['question'], x['utterance'], x['label']))
vocab_data = insuranceqa.load_pairs_vocab()
vocab_data['word2id']['UNKNOWN']
vocab_data['id2word'][0]
vocab_data['tf']
vocab_data['total']
Дизайн данных
vocab_data
содержит word2id
(dict, от слова к id), id2word
(dict, от id к слову), tf
(dict, статистика частоты слов) и total
(общее количество слов). Здесь, идентификатор неизвестного слова — UNKNOWN
, а его id равен 0.
train_data
, test_data
и valid_data
имеют одинаковый формат данных. qid
— это идентификатор вопроса, question
— вопрос, utterance
— ответ, а label
представляет собой [1,0]
для правильного ответа и [0,1]
для неправильного ответа, поэтому utterance
включает данные как положительных, так и отрицательных примеров. Каждый вопрос имеет 10 отрицательных примеров и 1 положительный пример.
train_data
содержит 12 889 вопросов и 141 779 записей, соотношение положительных и отрицательных примеров составляет 1:10;test_data
содержит 2000 вопросов и 22 000 записей, соотношение положительных и отрицательных примеров также составляет 1:10;valid_data
содержит 2000 вопросов и 22 000 записей с соотношением положительных и отрицательных примеров 1:10.Длина предложений:
Этот корпус данных можно использовать в сочетании с открытым исходным кодом:
deep-qa-1: базовая модель;
InsuranceQA TensorFlow: CNN с TensorFlow;
n-grams-get-started: N-мерная модель;
word2vec-get-started: модель векторного представления слов.
Заявление 1: insuranceqa-corpus-zh
Этот набор данных был создан с использованием перевода insuranceQA и выпущен под сертификатом Chunsong Public License, version 1.0. Данные предназначены только для исследовательских целей, и при публикации любых материалов в СМИ, журналах, газетах или блогах необходимо указывать источник и адрес.
InsuranceQA Corpus, Chatopera Inc., https://github.com/chatopera/insuranceqa-corpus-zh, 07 27, 2017
Любые данные, полученные на основе insuranceqa-corpus, также должны быть открыты и должны соответствовать содержанию «Заявления 1» и «Заявления 2».
Заявление 2: insuranceQA
Эти данные предоставляются исключительно в исследовательских целях. Если вы используете эти данные для публикации любого контента, пожалуйста, укажите нашу статью: Applying Deep Learning to Answer Selection: A Study and An Open Task. Minwei Feng, Bing Xiang, Michael R. Glass, Lidan Wang, Bowen Zhou @ 2015.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )