1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/rockyzheng-CoolNLTK

Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

CoolNLTK

Инструменты для текстовой классификации

Основные характеристики

  1. Поддержка нескольких моделей с унифицированным входом данных для удобства сравнения результатов
  2. Прямое использование в производстве
  3. Простота использования

Реализованные модели

  1. TextCNN
  2. TextRNN
  3. CLSTM

Обучение моделей

1. Файл обучения

Использует такой же формат входных данных как и fastText Тестовые данные можно скачать из кода fastText и скопировать в директорию . /datasets/dbpedia Для получения dbpedia.train и dbpedia.test следует запустить classification-example.sh согласно документации fastText.

Обратите внимание: метки классов начинаются с 1, чтобы избежать путаницы при паддинге нулем во время тренировки.

Пример файла:

__label__7, joseph purdy homestead
__label__13, forever young (1992 film)
__label__11, nepenthes 'boca rose'
__label__6, mv eilean bhearnaraigh

Укажите пути к файлам обучения и тестирования в train/main.sh.

TRAIN_FILE=./datasets/dbpedia/dbpedia.train
TEST_FILE=./datasets/dbpedia/dbpedia.test
# используемая модель (варианты: cnn, bilstm, clstm)
MODEL=cnn
# путь для выходных файлов
DATA_OUT_DIR=./datasets/dbpedia/
# путь для сохранения обученной модели
MODEL_OUT_DIR=./results/dbpedia/

2. Embedding

Создание данных для обучения word2vec

./main.sh pre

Обучение векторов слов

./main.sh vec

3. Map file

Этап создания необходимых маппинговых файлов

./main.sh map
```### 4. Tfrecord
Создание файлов tfrecord
```bash
./main.sh data

5. Обучение модели

Обучение выбранной модели

./main.sh train

6. Экспорт модели

Экспорт модели в pb файл, который может использоваться языками Java и Go

./main.sh export

Использование модели

Пример использования находится в predict.py, где читаются экспортированные модели и созданный файл vocab.json. Модели TextRNN, TextCNN и CLSTM могут использовать этот модуль.

В планах

  • Переработка кода с учётом последних версий TensorFlow
  • Изменение формата файлов tfrecord для генерации множества файлов вместо одного
  • Добавление TensorBoard
  • Реализация дополнительных моделей, включая HAM и RCNN
  1. HAM
  2. RCNN
  3. Recurrent Entity Network
  4. Динамическая сеть памяти

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Automatic Text Categorization by deep learning Развернуть Свернуть
MIT
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/rockyzheng-CoolNLTK.git
git@api.gitlife.ru:oschina-mirror/rockyzheng-CoolNLTK.git
oschina-mirror
rockyzheng-CoolNLTK
rockyzheng-CoolNLTK
master