gitclebeg-nlp-sentiment: Используя технологии обработки естественного языка, провести анализ эмоций.

Инструмент анализа эмоций на основе естественного языка

Внимание:

В файле pom.xml ссылка на core jar невозможна для скачивания с центрального репозитория, он уже встроен в каталог libs, а в pom.xml можно использовать только абсолютный путь, обратите внимание на это.

В файле pom.xml может потребоваться ручная загрузка jar HanLP, затем добавьте его в Maven репозиторий.

Описание программы

Программа зависит от файла data.zip и dictionary.zip в директории data, который следует распаковать в текущую директорию.

Концепция дизайна

Фокусируется на определённой области, такой как военные, экономика, правительство и т.д., используя данные Интернета.

Сначала обучается бинарный классификатор между специализированной областью и другими областями.

Затем новый образец проверяется на принадлежность к данной области.

Обучается классификатор эмоций, чтобы определить является ли данный образец положительной или отрицательной информацией относительно этой области.

Новое описание 4: разделение процесса обучения модели и применения модели, выделение некоторых тестовых примеров.

Добавлен NGramClassifierTrainer для обучения классификатора на основе признаков NGram.
Добавлена конфигурационная модель классификации: ClassModelConfiguration### Новое описание 3: добавление текстового классификатора на основе признаков TF-IDF (словарные векторы).
Главная программа: DfIdfClassifier.java
Эффективность:

Категория	Положительные	Отрицательные
Государство	233	46
Другие	110	390
-------------
Общее количество правильных ответов: 623
Общее количество: 779

Новое описание 2: добавление текстового классификатора на основе признаков N-Gram (словарные векторы), цель которого — найти связанные с областью тексты, а затем определить положительные или отрицательные эмоции в этих текстах.

Тестовый корпус: data/text_classification.zip Распакуйте его.
Программа: NGramClassifier.java
Эффективность:

Общая точность = 0.9550706033376123
Интервал доверия 95% = 0.9550706033376123 ± 0.014546897368198444
Матрица путаницы
референтная \ ответная

  			 государство, другие

государство 271, 8
другие 27, 473

Новое описание 1: 10 апреля 2015 года был проведен тест без использования китайского токенизатора, а также тест после удаления стоп-слов из текста.

Учтите: иногда использование китайского токенизатора может привести к худшему результату, поэтому обязательно проведите тест.1. Выявлено, что использование NLPTokenizer HanLP даёт наибольшую точность, но скорость работы снижена.

При использовании стандартного токенизатора HanLP точность немного ниже, но скорость выше.
После удаления стоп-слов точность снижается ещё больше.
Использование Jieba Tokenizer показало плохие результаты и медленную работу.### 1. Эмоциональный анализ на основе словарей и модели Байеса Главный модуль: eshore.cn.it.sentiment.Sentiment Этот класс использует положительные и отрицательные слова из файла data/Sentiment_Dictionary для создания модели.Тестирование: eshore.cn.it.sentiment.SentimentTest С помощью этого класса можно протестировать эмоциональный анализ блогов в папках из каталога data/500trainblogxml.

2. Прямое использование модуля анализа лингвистических данных LingPipe для тестирования эмоционального анализа

Программа запускается через: eshore.cn.it.sentiment.ChinesePolarityBasic Программа обучается на данных из каталога: data/polarity_corpus/hotel_reviews/train2 Затем автоматически проверяет данные из каталога: data/polarity_corpus/hotel_reviews/test2 Итоговый результат тестирования программы:

# Количество тестовых случаев = 4000
# Верных ответов = 3541
% Верных ответов = 88.525%

OSCHINA-MIRROR/gitclebeg-nlp-sentiment

Инструмент анализа эмоций на основе естественного языка

Внимание:

Описание программы

Концепция дизайна

Новое описание 4: разделение процесса обучения модели и применения модели, выделение некоторых тестовых примеров.

Новое описание 1: 10 апреля 2015 года был проведен тест без использования китайского токенизатора, а также тест после удаления стоп-слов из текста.

2. Прямое использование модуля анализа лингвистических данных LingPipe для тестирования эмоционального анализа

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/gitclebeg-nlp-sentiment .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

Инструмент анализа эмоций на основе естественного языка

Внимание:

Описание программы

Концепция дизайна

Новое описание 4: разделение процесса обучения модели и применения модели, выделение некоторых тестовых примеров.

Новое описание 1: 10 апреля 2015 года был проведен тест без использования китайского токенизатора, а также тест после удаления стоп-слов из текста.

2. Прямое использование модуля анализа лингвистических данных LingPipe для тестирования эмоционального анализа

Комментарии ( 0 )

Введение

Обновления

Участники

Недавние действия

OSCHINA-MIRROR/gitclebeg-nlp-sentiment