Извлечение ключевых слов на китайском языке на основе TF-IDF

Требования

По умолчанию используется Python 3, требуется поддержка токенизатора Jieba.

$ pip install jieba

Использование:

$ python gen_idf.py -i <inputdir> -o <outputfile>

-i <inputdir> — каталог корпуса текстов, программа просканирует все файлы в каталоге.
-o <outputfile> — сохранение IDF в указанный файл.

Использование:

$ python tfidf.py -i <idffile> -d <document> -t <topK>

$ python tfidf.py -i idf.txt -d test.txt -t 20

Результат:

核
处理器
服务器
系统核心
封装
系列
插槽
核心
主频
产品
伊斯坦布尔
英特尔
功耗
多处理器
低仅
折合
浮点运算
性能
构建
吹起

Примечание: IDF.txt, предоставленный в этом репозитории, был обучен на новостном наборе данных группы NLP из Университета Цинхуа.