1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/gitclebeg-nlp-sentiment

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
В этом репозитории не указан файл с открытой лицензией (LICENSE). При использовании обратитесь к конкретному описанию проекта и его зависимостям в коде.
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Инструмент анализа эмоций на основе естественного языка

Внимание:

  1. В файле pom.xml ссылка на core jar невозможна для скачивания с центрального репозитория, он уже встроен в каталог libs, а в pom.xml можно использовать только абсолютный путь, обратите внимание на это.
  2. В файле pom.xml может потребоваться ручная загрузка jar HanLP, затем добавьте его в Maven репозиторий.

Описание программы

Программа зависит от файла data.zip и dictionary.zip в директории data, который следует распаковать в текущую директорию.

Концепция дизайна

Фокусируется на определённой области, такой как военные, экономика, правительство и т.д., используя данные Интернета.

  1. Сначала обучается бинарный классификатор между специализированной областью и другими областями.
  2. Затем новый образец проверяется на принадлежность к данной области.
  3. Обучается классификатор эмоций, чтобы определить является ли данный образец положительной или отрицательной информацией относительно этой области.

Новое описание 4: разделение процесса обучения модели и применения модели, выделение некоторых тестовых примеров.

  1. Добавлен NGramClassifierTrainer для обучения классификатора на основе признаков NGram.
  2. Добавлена конфигурационная модель классификации: ClassModelConfiguration### Новое описание 3: добавление текстового классификатора на основе признаков TF-IDF (словарные векторы).
  3. Главная программа: DfIdfClassifier.java
  4. Эффективность:
Категория Положительные Отрицательные
Государство 233 46
Другие 110 390
-------------
Общее количество правильных ответов: 623
Общее количество: 779

Новое описание 2: добавление текстового классификатора на основе признаков N-Gram (словарные векторы), цель которого — найти связанные с областью тексты, а затем определить положительные или отрицательные эмоции в этих текстах.

  1. Тестовый корпус: data/text_classification.zip Распакуйте его.
  2. Программа: NGramClassifier.java
  3. Эффективность:
  • Общая точность = 0.9550706033376123
  • Интервал доверия 95% = 0.9550706033376123 ± 0.014546897368198444
  • Матрица путаницы
  • референтная \ ответная
  •   			 государство, другие
  • государство 271, 8
  • другие 27, 473

Новое описание 1: 10 апреля 2015 года был проведен тест без использования китайского токенизатора, а также тест после удаления стоп-слов из текста.

Учтите: иногда использование китайского токенизатора может привести к худшему результату, поэтому обязательно проведите тест.1. Выявлено, что использование NLPTokenizer HanLP даёт наибольшую точность, но скорость работы снижена.

  1. При использовании стандартного токенизатора HanLP точность немного ниже, но скорость выше.
  2. После удаления стоп-слов точность снижается ещё больше.
  3. Использование Jieba Tokenizer показало плохие результаты и медленную работу.### 1. Эмоциональный анализ на основе словарей и модели Байеса Главный модуль: eshore.cn.it.sentiment.Sentiment Этот класс использует положительные и отрицательные слова из файла data/Sentiment_Dictionary для создания модели.Тестирование: eshore.cn.it.sentiment.SentimentTest С помощью этого класса можно протестировать эмоциональный анализ блогов в папках из каталога data/500trainblogxml.

2. Прямое использование модуля анализа лингвистических данных LingPipe для тестирования эмоционального анализа

Программа запускается через: eshore.cn.it.sentiment.ChinesePolarityBasic Программа обучается на данных из каталога: data/polarity_corpus/hotel_reviews/train2 Затем автоматически проверяет данные из каталога: data/polarity_corpus/hotel_reviews/test2 Итоговый результат тестирования программы:

# Количество тестовых случаев = 4000
# Верных ответов = 3541
% Верных ответов = 88.525%

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Используя технологии обработки естественного языка, провести анализ эмоций. Развернуть Свернуть
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/gitclebeg-nlp-sentiment.git
git@api.gitlife.ru:oschina-mirror/gitclebeg-nlp-sentiment.git
oschina-mirror
gitclebeg-nlp-sentiment
gitclebeg-nlp-sentiment
master