1. mmseg4j — это китайский токенизатор, разработанный на основе алгоритма MMSeg Чи-Хао Цая (Chih-Hao Tsai) (http://technology.chtsai.org/mmseg/). Он реализован с использованием анализатора lucene и TokenizerFactory для solr, что упрощает его использование в Lucene и Solr.
2. Алгоритм MMSeg имеет два метода токенизации: Simple и Complex. Оба метода основаны на прямом сопоставлении. В методе Complex добавлено четыре правила. По словам разработчиков, точность распознавания слов достигает 98,41%. mmseg4j реализует оба метода токенизации.
Подробности о функциях, реализованных в mmseg4j, можно найти по адресу: http://mmseg4j.googlecode.com/svn/trunk/CHANGES.txt.
3. В пакете com.chenlb.mmseg4j.example представлены примеры трёх видов токенизации.
4. Пакет com.chenlb.mmseg4j.analysis расширяет анализатор lucene. MMSegAnalyzer использует метод max-word по умолчанию для токенизации.
5. Пакет com.chenlb.mmseg4j.solr расширяет TokenizerFactory в solr. В schema.xml в solr можно определить тип поля следующим образом:
<fieldType name="textComplex" class="solr.TextField" >
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
</analyzer>
</fieldType>
<fieldType name="textMaxWord" class="solr.TextField" >
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>
</analyzer>
</fieldType>
<fieldType name="textSimple" class="solr.TextField" >
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="n:/OpenSource/apache-solr-1.3.0/example/solr/my_dic"/>
</analyzer>
</fieldType>
Здесь dicPath указывает путь к словарю (каждый MMSegTokenizerFactory может указывать на разные каталоги), а mode определяет режим токенизации (simple|complex|max-word, по умолчанию используется max-word).
6. Для запуска программы необходимо указать словарь с помощью свойства mmseg.dic.path. Словарь можно разместить в каталоге classpath или в текущем каталоге в подкаталоге data. Если используется пакет mmseg4j-*-with-dic.jar, то указывать каталог словаря не обязательно (хотя это возможно).
Для запуска программы можно использовать следующие команды:
java -jar mmseg4j-core-1.9.0.jar
или
java -cp .;mmseg4j-core-1.9.0.jar -Dmmseg.dic.path=./other-dic com.chenlb.mmseg4j.example.Simple
или
java -cp .;mmseg4j-core-1.9.0.jar com.chenlb.mmseg4j.example.MaxWord
7. Программа обрабатывает некоторые символы, такие как английские, русские, греческие буквы и цифры (включая ①㈠⒈). Однако она не обрабатывает маленькие цифры, например, римские цифры I, II, III рассматриваются как отдельные слова, так как они не найдены в словаре chars.dic.
8. Словарь состоит из следующих файлов:
9. MMseg4jHandler позволяет контролировать загрузку и проверку словаря в solr через URL. Параметры включают:
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )