Stanford CoreNLP
Stanford CoreNLP предоставляет набор инструментов для анализа естественного языка, написанных на Java. Он может принимать текст на естественном языке и выдавать базовые формы слов, их части речи, информацию о том, являются ли они названиями компаний, людей и т. д., нормализовать и интерпретировать даты, время и числовые значения, разметить структуру предложений в терминах синтаксических фраз или зависимостей и указать, какие именные группы относятся к одним и тем же объектам. Первоначально он был разработан для английского языка, но теперь также обеспечивает различный уровень поддержки для (современного стандартного) арабского, (материкового) китайского, французского, немецкого, венгерского, итальянского и испанского языков.
Stanford CoreNLP представляет собой интегрированную среду, которая позволяет очень легко применять множество инструментов анализа языка к фрагменту текста. Начиная с простого текста, вы можете запустить все инструменты всего двумя строками кода. Его анализ предоставляет основные строительные блоки для приложений более высокого уровня и понимания текста в конкретной предметной области. Stanford CoreNLP — это набор стабильных и хорошо протестированных инструментов обработки естественного языка, широко используемых различными группами в академических кругах, промышленности и правительстве. В инструментах по-разному используются компоненты, основанные на правилах, вероятностном машинном обучении и глубоком обучении.
Код Stanford CoreNLP написан на Java и лицензирован под Стандартной общественной лицензией GNU (версия 2 или выше). Обратите внимание, что это полная GPL, которая допускает множество бесплатных использований, но не её использование в проприетарном программном обеспечении, которое вы распространяете среди других.
Инструкции по сборке
Несколько раз в год мы выпускаем новую версию программного обеспечения, соответствующую стабильному коммиту.
В период между выпусками всегда можно использовать последнюю разрабатываемую версию нашего кода.
Вот несколько полезных инструкций по использованию последнего кода:
Предоставленная сборка. Иногда мы предоставляем обновлённые jar-файлы, содержащие последнюю версию кода. На данный момент последняя выпущенная версия кода является нашим самым последним выпущенным jar-файлом, хотя вы всегда можете собрать самую последнюю версию из GitHub HEAD самостоятельно.
Сборка с помощью Ant.
cd CoreNLP ; ant
.cd CoreNLP/classes ; jar -cf ../stanford-corenlp.jar edu
.Сборка с Maven.
mvn package
, она должна запустить... Тесты и создайте этот jar-файл: CoreNLP/target/stanford-corenlp-4.5.4.jar
При использовании последней версии кода обязательно загрузите последние версии corenlp-models, [english-extra-models] (http://nlp.stanford.edu/software/stanford-english-extra-corenlp-models-current.jar) и [english-kbp-models] (http://nlp.stanford.edu/software/stanford-english-kbp-corenlp-models-current.jar) и включите их в свой CLASSPATH. Если вы обрабатываете языки, отличные от английского, обязательно скачайте последнюю версию jar-файла моделей для интересующего вас языка.
Если вы хотите использовать Stanford CoreNLP как часть проекта Maven, вам необходимо установить jar-файлы моделей в репозиторий Maven. Ниже приведён пример команды для установки испанского jar-файла. Для других языков просто измените название языка в команде. Чтобы установить stanford-corenlp-models-current.jar
, вам нужно будет установить -Dclassifier=models
. Вот пример команды для испанского:
mvn install:install-file -Dfile=/location/of/stanford-spanish-corenlp-models-current.jar -DgroupId=edu.stanford.nlp -DartifactId=stanford-corenlp -Dversion=4.5.4 -Dclassifier=models-spanish -Dpackaging=jar
Модели jar, соответствующие последнему коду, можно найти в таблице ниже.
Некоторые из более крупных (английских) моделей, такие как парсер сдвига-сокращения и WikiDict, не распространяются с нашим стандартным jar-файлом моделей. Они требуют загрузки английских (дополнительных) и английских (kbp) jar-файлов. Ресурсы для других языков требуют использования соответствующего jar-файла моделей.
Лучший способ получить модели — использовать git-lfs и клонировать их с Hugging Face Hub.
Например, чтобы получить французские модели, выполните следующие команды:
# Убедитесь, что у вас установлен git-lfs (https://git-lfs.github.com/)
git lfs install
git clone https://huggingface.co/stanfordnlp/corenlp-french
Jars можно напрямую загрузить по ссылкам ниже или со страницы Hugging Face Hub.
Язык | Модель Jar | Последнее обновление |
---|---|---|
Арабский | скачать (HF Hub) | 4.5.6 |
Китайский | скачать (HF Hub) | 4.5.6 |
Английский (дополнительный) | скачать (HF Hub) | 4.5.6 |
Английский (KBP) | скачать (HF Hub) | 4.5.6 |
Французский | скачать (HF Hub) | 4.5.6 |
Немецкий | скачать (HF Hub) | 4.5.6 |
Венгерский | скачать (HF Hub) | 4.5.6 |
Итальянский | скачать (HF Hub) | 4.5.6 |
Испанский | скачать (HF Hub) | 4.5.6 |
Спасибо Hugging Face за помощь с хостингом!
Если вы не знаете Gradle, обратитесь к официальному сайту: https://gradle.org
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )