OSCHINA-MIRROR/mirrors-CoreNLP

Stanford CoreNLP

Stanford CoreNLP предоставляет набор инструментов для анализа естественного языка, написанных на Java. Он может принимать текст на естественном языке и выдавать базовые формы слов, их части речи, информацию о том, являются ли они названиями компаний, людей и т. д., нормализовать и интерпретировать даты, время и числовые значения, разметить структуру предложений в терминах синтаксических фраз или зависимостей и указать, какие именные группы относятся к одним и тем же объектам. Первоначально он был разработан для английского языка, но теперь также обеспечивает различный уровень поддержки для (современного стандартного) арабского, (материкового) китайского, французского, немецкого, венгерского, итальянского и испанского языков.

Stanford CoreNLP представляет собой интегрированную среду, которая позволяет очень легко применять множество инструментов анализа языка к фрагменту текста. Начиная с простого текста, вы можете запустить все инструменты всего двумя строками кода. Его анализ предоставляет основные строительные блоки для приложений более высокого уровня и понимания текста в конкретной предметной области. Stanford CoreNLP — это набор стабильных и хорошо протестированных инструментов обработки естественного языка, широко используемых различными группами в академических кругах, промышленности и правительстве. В инструментах по-разному используются компоненты, основанные на правилах, вероятностном машинном обучении и глубоком обучении.

Код Stanford CoreNLP написан на Java и лицензирован под Стандартной общественной лицензией GNU (версия 2 или выше). Обратите внимание, что это полная GPL, которая допускает множество бесплатных использований, но не её использование в проприетарном программном обеспечении, которое вы распространяете среди других.

Инструкции по сборке

Несколько раз в год мы выпускаем новую версию программного обеспечения, соответствующую стабильному коммиту.

В период между выпусками всегда можно использовать последнюю разрабатываемую версию нашего кода.

Вот несколько полезных инструкций по использованию последнего кода:

Предоставленная сборка. Иногда мы предоставляем обновлённые jar-файлы, содержащие последнюю версию кода. На данный момент последняя выпущенная версия кода является нашим самым последним выпущенным jar-файлом, хотя вы всегда можете собрать самую последнюю версию из GitHub HEAD самостоятельно.
Сборка с помощью Ant.
1. Убедитесь, что у вас установлен Ant, подробности здесь: http://ant.apache.org/.
2. Скомпилируйте код с помощью этой команды: cd CoreNLP ; ant.
3. Затем выполните эту команду, чтобы создать jar с последней версией кода: cd CoreNLP/classes ; jar -cf ../stanford-corenlp.jar edu.
4. Это создаст новый jar под названием stanford-corenlp.jar в папке CoreNLP, который содержит последний код.
5. Зависимости, которые работают с последним кодом, находятся в CoreNLP/lib и CoreNLP/liblocal, поэтому обязательно включите их в свой CLASSPATH.
6. При использовании последней версии кода обязательно загрузите последние версии моделей corenlp-models, english-models и english-models-kbp и включите их в ваш CLASSPATH. Если вы обрабатываете языки, отличные от английского, обязательно загрузите последнюю версию jar моделей для интересующего вас языка.
Сборка с Maven.
1. Убедитесь, что у вас установлен Maven, подробности здесь: https://maven.apache.org/.
2. Если вы запустите эту команду в каталоге CoreNLP: mvn package, она должна запустить... Тесты и создайте этот jar-файл: CoreNLP/target/stanford-corenlp-4.5.4.jar

При использовании последней версии кода обязательно загрузите последние версии corenlp-models, [english-extra-models] (http://nlp.stanford.edu/software/stanford-english-extra-corenlp-models-current.jar) и [english-kbp-models] (http://nlp.stanford.edu/software/stanford-english-kbp-corenlp-models-current.jar) и включите их в свой CLASSPATH. Если вы обрабатываете языки, отличные от английского, обязательно скачайте последнюю версию jar-файла моделей для интересующего вас языка.
Если вы хотите использовать Stanford CoreNLP как часть проекта Maven, вам необходимо установить jar-файлы моделей в репозиторий Maven. Ниже приведён пример команды для установки испанского jar-файла. Для других языков просто измените название языка в команде. Чтобы установить stanford-corenlp-models-current.jar, вам нужно будет установить -Dclassifier=models. Вот пример команды для испанского:

mvn install:install-file -Dfile=/location/of/stanford-spanish-corenlp-models-current.jar -DgroupId=edu.stanford.nlp -DartifactId=stanford-corenlp -Dversion=4.5.4 -Dclassifier=models-spanish -Dpackaging=jar

Модели

Модели jar, соответствующие последнему коду, можно найти в таблице ниже.

Некоторые из более крупных (английских) моделей, такие как парсер сдвига-сокращения и WikiDict, не распространяются с нашим стандартным jar-файлом моделей. Они требуют загрузки английских (дополнительных) и английских (kbp) jar-файлов. Ресурсы для других языков требуют использования соответствующего jar-файла моделей.

Лучший способ получить модели — использовать git-lfs и клонировать их с Hugging Face Hub.

Например, чтобы получить французские модели, выполните следующие команды:

# Убедитесь, что у вас установлен git-lfs (https://git-lfs.github.com/)
git lfs install

git clone https://huggingface.co/stanfordnlp/corenlp-french

Jars можно напрямую загрузить по ссылкам ниже или со страницы Hugging Face Hub.

Язык	Модель Jar	Последнее обновление
Арабский	скачать (HF Hub)	4.5.6
Китайский	скачать (HF Hub)	4.5.6
Английский (дополнительный)	скачать (HF Hub)	4.5.6
Английский (KBP)	скачать (HF Hub)	4.5.6
Французский	скачать (HF Hub)	4.5.6
Немецкий	скачать (HF Hub)	4.5.6
Венгерский	скачать (HF Hub)	4.5.6
Итальянский	скачать (HF Hub)	4.5.6
Испанский	скачать (HF Hub)	4.5.6

Спасибо Hugging Face за помощь с хостингом!

Установка через Gradle

Если вы не знаете Gradle, обратитесь к официальному сайту: https://gradle.org