1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/apple12345656-tf-idf-keyword

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
README.md 1.6 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
gitlife-traslator Отправлено 26.11.2024 21:51 d210a22

Извлечение ключевых слов на китайском языке на основе TF-IDF

Требования

По умолчанию используется Python 3, требуется поддержка токенизатора Jieba.

$ pip install jieba

Генерация IDF (обратной частоты документа)

Использование:

$ python gen_idf.py -i <inputdir> -o <outputfile>
  • -i <inputdir> — каталог корпуса текстов, программа просканирует все файлы в каталоге.
  • -o <outputfile> — сохранение IDF в указанный файл.

Извлечение ключевых слов TF-IDF

Использование:

$ python tfidf.py -i <idffile> -d <document> -t <topK>
  • -i <idffile> — путь к файлу IDF.
  • -d <document> — путь к документу, который необходимо обработать.
  • -t <topK> — возврат topK результатов.

Пример

$ python tfidf.py -i idf.txt -d test.txt -t 20

Результат:


处理器
服务器
系统核心
封装
系列
插槽
核心
主频
产品
伊斯坦布尔
英特尔
功耗
多处理器
低仅
折合
浮点运算
性能
构建
吹起

Примечание: IDF.txt, предоставленный в этом репозитории, был обучен на новостном наборе данных группы NLP из Университета Цинхуа.

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/apple12345656-tf-idf-keyword.git
git@api.gitlife.ru:oschina-mirror/apple12345656-tf-idf-keyword.git
oschina-mirror
apple12345656-tf-idf-keyword
apple12345656-tf-idf-keyword
master