Инструменты для текстовой классификации
Использует такой же формат входных данных как и fastText
Тестовые данные можно скачать из кода fastText и скопировать в директорию . /datasets/dbpedia
Для получения dbpedia.train
и dbpedia.test
следует запустить classification-example.sh
согласно документации fastText.
Обратите внимание: метки классов начинаются с 1, чтобы избежать путаницы при паддинге нулем во время тренировки.
Пример файла:
__label__7, joseph purdy homestead
__label__13, forever young (1992 film)
__label__11, nepenthes 'boca rose'
__label__6, mv eilean bhearnaraigh
Укажите пути к файлам обучения и тестирования в train/main.sh
.
TRAIN_FILE=./datasets/dbpedia/dbpedia.train
TEST_FILE=./datasets/dbpedia/dbpedia.test
# используемая модель (варианты: cnn, bilstm, clstm)
MODEL=cnn
# путь для выходных файлов
DATA_OUT_DIR=./datasets/dbpedia/
# путь для сохранения обученной модели
MODEL_OUT_DIR=./results/dbpedia/
Создание данных для обучения word2vec
./main.sh pre
Обучение векторов слов
./main.sh vec
Этап создания необходимых маппинговых файлов
./main.sh map
```### 4. Tfrecord
Создание файлов tfrecord
```bash
./main.sh data
Обучение выбранной модели
./main.sh train
Экспорт модели в pb файл, который может использоваться языками Java и Go
./main.sh export
Пример использования находится в predict.py
, где читаются экспортированные модели и созданный файл vocab.json
.
Модели TextRNN, TextCNN и CLSTM могут использовать этот модуль.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )