Python 3.6 — создание системы с базовыми функциями NLP (Windows exe). Система включает следующие функции: токенизацию, определение частей речи, выявление ключевых слов, классификацию текста; поскольку система должна быть собрана в виде exe, все необходимые функции были объединены в одном Python файле (файл окна), а также были сохранены только те функции, которые требуются для использования системы. Это позволяет легко собирать систему, то есть, например, процесс создания вектора слов, пакетирования, обучения модели и некоторых промежуточных шагов, которые используют множество библиотек.
Для работы этой системы требуется наличие данных, поэтому обязательно поместите используемые данные вместе с exe в одну директорию, иначе она не будет работать.
Система реализует:
Токенизация: использование jieba для китайской токенизации (удаление стоп-слов, точный режим);
Определение частей речи: использование пакета posseg из библиотеки jieba для определения частей речи;
Выявление ключевых слов: на основе LDA модели, сочетающей tf-idf, выбираются шесть наиболее подходящих слов;Классификация текста: выполнение токенизации для данных Fudan, создание вектора слов, пакетирование (модель пакета слов), последующее обучение на тренировочных данных, многократная настройка параметров, конкретные параметры указаны в комментариях и коде, затем выбор соответствующих тестовых данных для тестирования, используется алгоритм полиномиального наивного Байеса из библиотеки sklearn
.
Шаги использования: открыть проект, открыть папку dist
, запустить ui.exe
.
Использование PyInstaller для сборки через командную строку
Этот проект уже импортирован в GitHub Занимает один день~
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Опубликовать ( 0 )