CoolNLTK

Инструменты для текстовой классификации

Основные характеристики

Поддержка нескольких моделей с унифицированным входом данных для удобства сравнения результатов
Прямое использование в производстве
Простота использования

Реализованные модели

Обучение моделей

1. Файл обучения

Использует такой же формат входных данных как и fastText Тестовые данные можно скачать из кода fastText и скопировать в директорию . /datasets/dbpedia Для получения dbpedia.train и dbpedia.test следует запустить classification-example.sh согласно документации fastText.

Обратите внимание: метки классов начинаются с 1, чтобы избежать путаницы при паддинге нулем во время тренировки.

Пример файла:

__label__7, joseph purdy homestead
__label__13, forever young (1992 film)
__label__11, nepenthes 'boca rose'
__label__6, mv eilean bhearnaraigh

Укажите пути к файлам обучения и тестирования в train/main.sh.

TRAIN_FILE=./datasets/dbpedia/dbpedia.train
TEST_FILE=./datasets/dbpedia/dbpedia.test
# используемая модель (варианты: cnn, bilstm, clstm)
MODEL=cnn
# путь для выходных файлов
DATA_OUT_DIR=./datasets/dbpedia/
# путь для сохранения обученной модели
MODEL_OUT_DIR=./results/dbpedia/

2. Embedding

Создание данных для обучения word2vec

./main.sh pre

Обучение векторов слов

./main.sh vec

3. Map file

Этап создания необходимых маппинговых файлов

./main.sh map
```### 4. Tfrecord
Создание файлов tfrecord
```bash
./main.sh data

5. Обучение модели

Обучение выбранной модели

./main.sh train

6. Экспорт модели

Экспорт модели в pb файл, который может использоваться языками Java и Go

./main.sh export

Использование модели

Пример использования находится в predict.py, где читаются экспортированные модели и созданный файл vocab.json. Модели TextRNN, TextCNN и CLSTM могут использовать этот модуль.

В планах

Переработка кода с учётом последних версий TensorFlow
Изменение формата файлов tfrecord для генерации множества файлов вместо одного
Добавление TensorBoard
Реализация дополнительных моделей, включая HAM и RCNN

HAM
RCNN
Recurrent Entity Network
Динамическая сеть памяти

OSCHINA-MIRROR/rockyzheng-CoolNLTK

CoolNLTK

Основные характеристики

Реализованные модели

Обучение моделей

1. Файл обучения

2. Embedding

3. Map file

5. Обучение модели

6. Экспорт модели

Использование модели

В планах

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/rockyzheng-CoolNLTK .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

CoolNLTK

Основные характеристики

Реализованные модели

Обучение моделей

1. Файл обучения

2. Embedding

3. Map file

5. Обучение модели

6. Экспорт модели

Использование модели

В планах

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/rockyzheng-CoolNLTK