1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/chenzanlee-ansj_seg

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Ansj 中文分词

==================

1.X Build Status Gitter

Использование

Резюме

Это реализация китайского сегментации на основе n-Gram + CRF + HMM на Java.

Скорость сегментации достигает примерно 200 000 слов в секунду (протестировано на Mac Air), а точность может достигать более 96%.

В настоящее время реализованы следующие функции: китайская сегментация, распознавание китайских имён, пользовательский словарь, извлечение ключевых слов, автоматическое резюме, маркировка ключевых слов и т. д.

Может применяться в области обработки естественного языка и подходит для проектов с высокими требованиями к сегментации.

Maven

<dependency>
    <groupId>org.ansj</groupId>
    <artifactId>ansj_seg</artifactId>
    <version>5.1.1</version>
</dependency>

Вызов demo Если вы впервые загружаете программу и хотите только протестировать её, вы можете вызвать этот простой интерфейс:

String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ;
System.out.println(ToAnalysis.parse(str));

Результат:

欢迎/v,使用/v,ansj/en,_,seg/en,,,(,ansj/en,中文/nz,分词/n,),在/p,这里/r,如果/c,你/r,遇到/v,什么/r,问题/n,都/d,可以/v,联系/v,我/r,./m,我/r,一定/d,尽我所能/l,./m,帮助/v,大家/r,./m,ansj/en,_,seg/en,更快/d,,,更/d,准/a,,,更/d,自由/a,!

Присоединяйтесь к нам Я долго думал, помогать или нет. Я решил написать это, и если вам интересно, вы можете связаться со мной.

  • Дополнить документацию, добавить примеры вызовов и пояснения.
  • Добавить некоторые регулярные распознавания, например, распознавание номера удостоверения личности (https://github.com/NLPchina/ansj_seg/blob/master/src/main/java/org/ansj/recognition/impl/IDCardRecognition.java). В настоящее время не завершены такие задачи, как распознавание времени, IP-адресов, адресов электронной почты, веб-сайтов, частей речи и т.д.
  • Предоставить более оптимизированную модель CRF. Заменить стандартную модель ansj.
  • Дополнить тестовые случаи, многие места не полностью протестированы. Если вам интересно, помогите!
  • Перестроить модель распознавания имён. Добавить модели распознавания организаций и т.п.
  • Включить синтаксический анализ.
  • Реализовать сегментацию с использованием LSTM.
  • И многое другое...

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Описание недоступно Развернуть Свернуть
Apache-2.0
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/chenzanlee-ansj_seg.git
git@api.gitlife.ru:oschina-mirror/chenzanlee-ansj_seg.git
oschina-mirror
chenzanlee-ansj_seg
chenzanlee-ansj_seg
master