Весенние цветы распускаются, осенний ветер дует и зимнее солнце садится
Инкрементальное обучение Мы также предоставляем интерфейс для инкрементального обучения, пользователи могут использовать свои собственные данные для инкрементального обучения. Сначала необходимо преобразовать данные в формат ввода модели, и все файлы данных должны быть закодированы в формате «UTF-8»:
Обучение сегментации
Как и большинство открытых наборов данных для сегментации, используется пробел в качестве разделителя слов, как показано ниже:
LAC — это отличный инструмент для сегментации.
Байду — высокотехнологичная компания.
Весенние цветы распускаются, осенний ветер дует и зимнее солнце садится.
from LAC import LAC
# Выбор использования модели сегментации
lac = LAC(mode = 'seg')
# Обучение и тестирование набора данных, формат согласован
train_file = "./data/seg_train.tsv"
test_file = "./data/seg_test.tsv"
lac.train(model_save_dir='./my_seg_model/',train_data=train_file, test_data=test_file)
# Использование собственной обученной модели
my_lac = LAC(model_path='my_seg_model')
Анализ лексики
На основе данных сегментации каждое слово помечается его частью речи или категорией сущности в форме «/type». Стоит отметить, что в настоящее время поддерживается только маркировка с использованием системы тегов, которая согласуется с нашими данными. В будущем мы также планируем поддерживать новые системы тегов.
LAC/nz — это/v отличный/a инструмент/n для/p сегментации/n. /w
Байду/ORG — высокотехнологичная/a компания/n. /w
Весенние/TIME цветы/n распускаются/v, осенний/TIME ветер/n дует/v и/c зимнее/TIME солнце/n садится/v. /w
from LAC import LAC
# Выбор использования стандартной модели анализа лексики
lac = LAC()
# Обучение и тестирование набора данных, формат согласован
train_file = "./data/lac_train.tsv"
test_file = "./data/lac_test.tsv"
lac.train(model_save_dir='./my_lac_model/',train_data=train_file, test_data=test_file)
# Использование собственной обученной модели
my_lac = LAC(model_path='my_lac_model')
.
├── python # Python调用的脚本
├── c++ # C++调用的代码
├── java # Java调用的代码
├── Android # Android调用的示例
├── README.md # Данный файл
└── CMakeList.txt # Компиляция C++ и Java вызовов
Цитирование LAC в научных работах Если вы используете LAC в своих научных исследованиях, пожалуйста, добавьте следующую ссылку. Мы очень рады, что LAC может помочь вашей научной работе.
@article{jiao2018LAC,
title={Chinese Lexical Analysis with Deep Bi-GRU-CRF Network},
author={Jiao, Zhenyu and Sun, Shuqi and Sun, Ke},
journal={arXiv preprint arXiv:1807.01882},
year={2018},
url={https://arxiv.org/abs/1807.01882}
}
Мы приветствуем разработчиков, которые вносят свой вклад в LAC. Если вы разработали новую функцию или обнаружили ошибку, пожалуйста, отправьте запрос на вытягивание (Pull request) или сообщение о проблеме (Issue) на Github.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )