1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/apple12345656-tf-idf-keyword

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Извлечение ключевых слов на китайском языке на основе TF-IDF

Требования

По умолчанию используется Python 3, требуется поддержка токенизатора Jieba.

$ pip install jieba

Генерация IDF (обратной частоты документа)

Использование:

$ python gen_idf.py -i <inputdir> -o <outputfile>
  • -i <inputdir> — каталог корпуса текстов, программа просканирует все файлы в каталоге.
  • -o <outputfile> — сохранение IDF в указанный файл.

Извлечение ключевых слов TF-IDF

Использование:

$ python tfidf.py -i <idffile> -d <document> -t <topK>
  • -i <idffile> — путь к файлу IDF.
  • -d <document> — путь к документу, который необходимо обработать.
  • -t <topK> — возврат topK результатов.

Пример

$ python tfidf.py -i idf.txt -d test.txt -t 20

Результат:


处理器
服务器
系统核心
封装
系列
插槽
核心
主频
产品
伊斯坦布尔
英特尔
功耗
多处理器
低仅
折合
浮点运算
性能
构建
吹起

Примечание: IDF.txt, предоставленный в этом репозитории, был обучен на новостном наборе данных группы NLP из Университета Цинхуа.

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Извлечение ключевых слов на основе TF-IDF из конкретного корпуса. Развернуть Свернуть
MIT
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/apple12345656-tf-idf-keyword.git
git@api.gitlife.ru:oschina-mirror/apple12345656-tf-idf-keyword.git
oschina-mirror
apple12345656-tf-idf-keyword
apple12345656-tf-idf-keyword
master