По умолчанию используется Python 3, требуется поддержка токенизатора Jieba.
$ pip install jieba
Использование:
$ python gen_idf.py -i <inputdir> -o <outputfile>
-i <inputdir>
— каталог корпуса текстов, программа просканирует все файлы в каталоге.-o <outputfile>
— сохранение IDF в указанный файл.Использование:
$ python tfidf.py -i <idffile> -d <document> -t <topK>
-i <idffile>
— путь к файлу IDF.-d <document>
— путь к документу, который необходимо обработать.-t <topK>
— возврат topK результатов.$ python tfidf.py -i idf.txt -d test.txt -t 20
Результат:
核
处理器
服务器
系统核心
封装
系列
插槽
核心
主频
产品
伊斯坦布尔
英特尔
功耗
多处理器
低仅
折合
浮点运算
性能
构建
吹起
Примечание: IDF.txt, предоставленный в этом репозитории, был обучен на новостном наборе данных группы NLP из Университета Цинхуа.
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )