Ansj 中文分词
==================
Использование
Резюме
Это реализация китайского сегментации на основе n-Gram + CRF + HMM на Java.
Скорость сегментации достигает примерно 200 000 слов в секунду (протестировано на Mac Air), а точность может достигать более 96%.
В настоящее время реализованы следующие функции: китайская сегментация, распознавание китайских имён, пользовательский словарь, извлечение ключевых слов, автоматическое резюме, маркировка ключевых слов и т. д.
Может применяться в области обработки естественного языка и подходит для проектов с высокими требованиями к сегментации.
Maven
<dependency>
<groupId>org.ansj</groupId>
<artifactId>ansj_seg</artifactId>
<version>5.1.1</version>
</dependency>
Вызов demo Если вы впервые загружаете программу и хотите только протестировать её, вы можете вызвать этот простой интерфейс:
String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ;
System.out.println(ToAnalysis.parse(str));
Результат:
欢迎/v,使用/v,ansj/en,_,seg/en,,,(,ansj/en,中文/nz,分词/n,),在/p,这里/r,如果/c,你/r,遇到/v,什么/r,问题/n,都/d,可以/v,联系/v,我/r,./m,我/r,一定/d,尽我所能/l,./m,帮助/v,大家/r,./m,ansj/en,_,seg/en,更快/d,,,更/d,准/a,,,更/d,自由/a,!
Присоединяйтесь к нам Я долго думал, помогать или нет. Я решил написать это, и если вам интересно, вы можете связаться со мной.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )