1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/chatopera-insurance-industry-corpus

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Загрузка данных

import insuranceqa_data as insuranceqa
train_data = insuranceqa.load_pairs_train()
test_data = insuranceqa.load_pairs_test()
valid_data = insuranceqa.load_pairs_valid()

# valid_data, test_data и train_data имеют одинаковые свойства
for x in test_data:
    print('index %s value: %s ++$++ %s ++$++ %s' % \
     (x['qid'], x['question'], x['utterance'], x['label']))

vocab_data = insuranceqa.load_pairs_vocab()
vocab_data['word2id']['UNKNOWN']
vocab_data['id2word'][0]
vocab_data['tf']
vocab_data['total']

Дизайн данных

vocab_data содержит word2id (dict, от слова к id), id2word (dict, от id к слову), tf (dict, статистика частоты слов) и total (общее количество слов). Здесь, идентификатор неизвестного слова — UNKNOWN, а его id равен 0.

train_data, test_data и valid_data имеют одинаковый формат данных. qid — это идентификатор вопроса, question — вопрос, utterance — ответ, а label представляет собой [1,0] для правильного ответа и [0,1] для неправильного ответа, поэтому utterance включает данные как положительных, так и отрицательных примеров. Каждый вопрос имеет 10 отрицательных примеров и 1 положительный пример.

  • train_data содержит 12 889 вопросов и 141 779 записей, соотношение положительных и отрицательных примеров составляет 1:10;
  • test_data содержит 2000 вопросов и 22 000 записей, соотношение положительных и отрицательных примеров также составляет 1:10;
  • valid_data содержит 2000 вопросов и 22 000 записей с соотношением положительных и отрицательных примеров 1:10.

Длина предложений:

  • максимальная длина валидного вопроса: 31, средняя: 5 (макс.);
  • максимальная длина валидного высказывания: 878 (макс.), средняя: 165 (макс);
  • максимальная длина тестового вопроса: 33, средняя: 5;
  • максимальная длина тестового высказывания: 878, средняя: 161;
  • максимальная длина тренировочного вопроса: 42 (макс.), средняя: 5;
  • максимальная длина тренировочного высказывания: 878, средняя: 162;
  • размер словаря: 24 997.

Проект машинного обучения

Этот корпус данных можно использовать в сочетании с открытым исходным кодом:

deep-qa-1: базовая модель;

InsuranceQA TensorFlow: CNN с TensorFlow;

n-grams-get-started: N-мерная модель;

word2vec-get-started: модель векторного представления слов.

Заявление

Заявление 1: insuranceqa-corpus-zh

Этот набор данных был создан с использованием перевода insuranceQA и выпущен под сертификатом Chunsong Public License, version 1.0. Данные предназначены только для исследовательских целей, и при публикации любых материалов в СМИ, журналах, газетах или блогах необходимо указывать источник и адрес.

InsuranceQA Corpus, Chatopera Inc., https://github.com/chatopera/insuranceqa-corpus-zh, 07 27, 2017

Любые данные, полученные на основе insuranceqa-corpus, также должны быть открыты и должны соответствовать содержанию «Заявления 1» и «Заявления 2».

Заявление 2: insuranceQA

Эти данные предоставляются исключительно в исследовательских целях. Если вы используете эти данные для публикации любого контента, пожалуйста, укажите нашу статью: Applying Deep Learning to Answer Selection: A Study and An Open Task. Minwei Feng, Bing Xiang, Michael R. Glass, Lidan Wang, Bowen Zhou @ 2015.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

OpenData в области страхования для задач машинного обучения, страховая отраслевая база данных, чат-бот. Развернуть Свернуть
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/chatopera-insurance-industry-corpus.git
git@api.gitlife.ru:oschina-mirror/chatopera-insurance-industry-corpus.git
oschina-mirror
chatopera-insurance-industry-corpus
chatopera-insurance-industry-corpus
master