На основе ik-analyzer, который является токенизатором, была реализована совместимость с различными версиями lucene. Домашняя страница проекта ik-analyzer находится по адресу: https://code.google.com/archive/p/ik-analyzer/.
**Анализ лексики китайского языка (LAC)**
Разбиение текста на китайском языке на отдельные слова (Word Segmentation) — это процесс разделения непрерывного естественного языкового текста на последовательность слов, которые имеют смысловую обоснованность...
Прежде всего, благодарим автора jieba fxsjy за его бескорыстный вклад. Без него мы бы не познакомились с алгоритмом сегментации слов jieba и у нас не было бы текущей версии на Java.
Superword — это проект с открытым исходным кодом на Java, посвящённый изучению анализа английских слов и дополнительного чтения.
Эта площадка является зеркальным сайтом проекта Superword на GitHub и используется только для резервного копирования данных.
Модуль для сегментации естественного языка, предназначенный для сегментации больших объёмов китайских текстов, наследует различные инструменты сегментации.
Java открытый проект cws_evaluation: оценка результатов работы китайского токенизатора. Этот сайт является зеркальным сайтом cws_evaluation на GitHub, используется только для резервного копирования.