1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/jtyoui-snsg

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
В этом репозитории не указан файл с открытой лицензией (LICENSE). При использовании обратитесь к конкретному описанию проекта и его зависимостям в коде.
Клонировать/Скачать
README.md 2 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
gitlife-traslator Отправлено 28.11.2024 16:04 e7e02e9

Неологизм

Это неконтролируемый тренировочный текстовый словарь с сегментацией

Тренировочный код (текст в формате UTF-8)

if __name__ == '__main__':
    neologism_words = analysis(file='西游记.txt', thread_num=10, flag=True)
    for k, v in neologism_words.items():
        print('key:{0} number:{1} frequency:{2} cond:{3} free:{4}'.format(k, v[0], v[1], v[2], v[3]))

Параметры интерфейса

def analysis(file, thread_num=10, split_num=4, frequency=0.0001, cond=10, free=0.1, flag=False): """ :param file: обучающий текст :param thread_num: количество потоков :param split_num: число совпадений :param frequency: частота :param cond: степень конденсации :param free: степень свободы :param flag: логическое условие, по умолчанию «или», достаточно выполнения одного условия для фильтрации :return: готовый словарь """

Часть скриншота данных новостей от краулера (примерно 100 М чистого текста)

Результаты обучения на политических новостях

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/jtyoui-snsg.git
git@api.gitlife.ru:oschina-mirror/jtyoui-snsg.git
oschina-mirror
jtyoui-snsg
jtyoui-snsg
master