1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/zhzhenqin-paoding-analysis

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
В этом репозитории не указан файл с открытой лицензией (LICENSE). При использовании обратитесь к конкретному описанию проекта и его зависимостям в коде.
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Paoding 分词器 основан на Lucene 4.x

Оригинальный проект доступен по адресу https://code.google.com/p/paoding/

Краткое описание Paoding Analysis

Паодинговый нож для китайского сегментирования характеризуется высокой производительностью и гибкостью. Введены метафоры, полностью объектно-ориентированное проектирование, передовой подход.

Высокая производительность: на компьютере с процессором PIII, 1 ГБ оперативной памяти, за секунду можно точно сегментировать 1 миллион символов.

Используется база словарей без ограничения количества для эффективного сегментирования текста, что позволяет классифицировать слова по категориям.

Способность корректно анализировать неизвестные слова.

Значительный вклад, который очень мотивирует.


Примеры сегментации:

TokenStream ts = analyzer.tokenStream("text", new StringReader(text));
// Добавление утилиты обратите внимание: следующие строки отличаются от версий Lucene 2.x
CharTermAttribute offAtt = (CharTermAttribute) ts.addAttribute(CharTermAttribute.class);
// Цикл вывода результатов сегментации и положения слов
while (ts.incrementToken()) {
    System.out.print(offAtt.toString() + "\t");
}

Инструкции по компиляции

Проект может быть скомпилирован с использованием Maven по умолчанию.

Если используется Ant, зависимости должны быть помещены в каталог {pro_workspace}/target/dependency/. Затем можно использовать ant для компиляции. Результаты компиляции хранятся в каталоге {pro_workspace}/target/dist/{версия}/.Можно использовать команду mvn dependency:copy-dependencies для копирования зависимостей в {pro_workspace}/target/dependency/, а затем использовать Ant для компиляции.

Инструкции по использованию Solr 4.x

Для Solr 4.x и выше можно прямым образом конфигурировать Analyzer Lucene. Конфигурация пример:

<fieldType name="text_general" class="solr.TextField">
  <analyzer class="net.paoding.analysis.analyzer.PaodingAnalyzer" />
</fieldType>

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Paoding — это токенизатор, основанный на Lucene 4.x. Развернуть Свернуть
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/zhzhenqin-paoding-analysis.git
git@api.gitlife.ru:oschina-mirror/zhzhenqin-paoding-analysis.git
oschina-mirror
zhzhenqin-paoding-analysis
zhzhenqin-paoding-analysis
master