1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/lovert-analyzer-pinyin

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
В этом репозитории не указан файл с открытой лицензией (LICENSE). При использовании обратитесь к конкретному описанию проекта и его зависимостям в коде.
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
ReadMe.md

##SOLR 4.7.2 плагин: использование и подробности

Конфигурация schema.xml в Solr

	<!---->
		<fieldType name="text_pinyin" class="solr.TextField" positionIncrementGap="100">
	      <analyzer type="index">
		<tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory" useSmart="false"/>
		<filter class="org.apache.lucene.analysis.pinyin.solr4.PinyinTokenFilterFactory" pinyinAll="false" shortPinyin="true"  minTermLength="1" />
		<!-- В этом примере мы будем использовать синонимы только во время запроса
		<filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
		-->
			<!--
		<filter class="org.apache.lucene.analysis.pinyin.solr4.PinyinNGramTokenFilterFactory" nGramChinese="true" nGramNumber="true"/>
			-->
	      </analyzer>
		  
	      <analyzer type="query">
		<tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory" useSmart="false"/>
		<filter class="org.apache.lucene.analysis.pinyin.solr4.PinyinTokenFilterFactory" pinyinAll="false"  shortPinyin="true" minTermLength="1" />
		<!-- В этом примере мы будем использовать синонимы только во время запроса
		<filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
		-->
			<!--
		<filter class="org.apache.lucene.analysis.pinyin.solr4.PinyinNGramTokenFilterFactory" nGramChinese="true" nGramNumber="true"/>
			-->
	      </analyzer>
	    </fieldType>

Значение параметров конфигурации

  • shortPinyin: включает или отключает упрощённое написание иероглифов (пиньинь). По умолчанию упрощённое написание не используется (значение равно false). Если вы хотите включить упрощённое написание, установите значение pinyinAll равным false.

  • pinyinAll: включает или отключает полное и упрощённое написание иероглифов. По умолчанию используется полное написание с добавлением упрощённого написания (значение равно true).

  • minTermLength: минимальная длина иероглифа для преобразования в пиньинь. По умолчанию равна 2.

  • isContainerNumber: если слово содержит число, то будет ли оно также содержать число в преобразовании в пиньинь? По умолчанию содержит (значение равно true).

  • outChinese: выводить ли иероглифы? По умолчанию выводит (значение равно true).

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Используя IK-токенизатор, были расширены версии solr4.7.2 и lucene4.7.2, применяя метод сегментации слов на основе пиньинь. Используется IK2012FF и JDK1.6. Развернуть Свернуть
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/lovert-analyzer-pinyin.git
git@api.gitlife.ru:oschina-mirror/lovert-analyzer-pinyin.git
oschina-mirror
lovert-analyzer-pinyin
lovert-analyzer-pinyin
master