Оригинальный проект доступен по адресу https://code.google.com/p/paoding/
Паодинговый нож для китайского сегментирования характеризуется высокой производительностью и гибкостью. Введены метафоры, полностью объектно-ориентированное проектирование, передовой подход.
Высокая производительность: на компьютере с процессором PIII, 1 ГБ оперативной памяти, за секунду можно точно сегментировать 1 миллион символов.
Используется база словарей без ограничения количества для эффективного сегментирования текста, что позволяет классифицировать слова по категориям.
Способность корректно анализировать неизвестные слова.
Значительный вклад, который очень мотивирует.
Примеры сегментации:
TokenStream ts = analyzer.tokenStream("text", new StringReader(text));
// Добавление утилиты обратите внимание: следующие строки отличаются от версий Lucene 2.x
CharTermAttribute offAtt = (CharTermAttribute) ts.addAttribute(CharTermAttribute.class);
// Цикл вывода результатов сегментации и положения слов
while (ts.incrementToken()) {
System.out.print(offAtt.toString() + "\t");
}
Проект может быть скомпилирован с использованием Maven по умолчанию.
Если используется Ant, зависимости должны быть помещены в каталог {pro_workspace}/target/dependency/
. Затем можно использовать ant для компиляции.
Результаты компиляции хранятся в каталоге {pro_workspace}/target/dist/{версия}/
.Можно использовать команду mvn dependency:copy-dependencies
для копирования зависимостей в {pro_workspace}/target/dependency/
, а затем использовать Ant для компиляции.
Для Solr 4.x и выше можно прямым образом конфигурировать Analyzer Lucene. Конфигурация пример:
<fieldType name="text_general" class="solr.TextField">
<analyzer class="net.paoding.analysis.analyzer.PaodingAnalyzer" />
</fieldType>
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )