Строки с 1 по 31:
Скорость сегментации: 4 символа в миллисекунду.
Процент идеально сегментированных строк: 26,72%.
Процент строк с ошибками сегментации: 73,27%.
Общее количество строк: 2 533 709.
Количество идеально сегментированных строк: 930 069.
Количество строк с ошибками сегментации: 1 603 640.
Строка 32:
Время оценки: 41 минута 42 секунды 725 миллисекунд.
Ключевые моменты:
Сегментатор Stanford (Пекинский университет):
Скорость сегментации: 0,14 символов в миллисекунду.
Процент идеально сегментированных строк: 58,29%.
Процент строк с ошибками сегментации: 41,7%.
Общее количество строк: 2 533 709.
Количество идеально сегментированных строк: 1 477 034.
Количество строк с ошибками сегментации: 1 056 675.
Процент идеально сегментированных слов: 51,36%.
Процент слов с ошибками сегментации: 48,63%.
Общее количество слов: 28 374 490.
Идеальное количество слов: 14 574 120.
Ошибочное количество слов: 13 800 370.
Сегментатор Stanford (Chinese Treebank):
Скорость сегментации: 0,13 символов в миллисекунду.
Процент идеально сегментированных строк: 55,45%.
Процент строк с ошибками сегментации: 44,54%.
Общее количество строк: 2 533 709.
Количество идеально сегментированных строк: 1 404 968.
Количество строк с ошибками сегментации: 1 128 741.
Процент идеально сегментированных слов: 47,27%.
Процент слов с ошибками сегментации: 52,72%.
Общее количество слов: 28 374 490.
Идеальное количество слов: 13 414 926.
Ошибочное количество слов: 14 959 564. Символы/миллисекунды
Количество строк без ошибок: 14,19%. Количество строк с ошибками: 85,8%. Общее количество строк: 2533158. Количество идеальных строк: 359637. Количество ошибочных строк: 2173521.
Процент слов без ошибок: 7,72%. Процент слов с ошибками: 92,27%. Общее количество слов: 28373102. Идеальное количество слов: 2191349. Ошибочное количество слов: 26181753.
Paoding MOST_WORDS_MODE:
Скорость сегментации: 1338,9246 символов/миллисекунда.
Количество строк без ошибок: 11,6%. Количество строк с ошибками: 88,39%. Общее количество строк: 2533158. Идеальных строк: 294011. Ошибочные строки: 2239147.
Процент слов без ошибок: 5,92%. Процент слов с ошибками: 94,07%. Общее количество слов: 28373102. Идеальные слова: 1680261. Ошибочные слова: 26692841.
Разделитель | Результат сегментации |
---|---|
Полный алгоритм сегментации | Я люблю Чу Ли Мо |
Алгоритм двустороннего максимального и минимального соответствия | Я люблю Чу Ли Мо |
Алгоритм максимального значения N-грамм | Я люблю Чу Ли Мо |
Прямой алгоритм максимального соответствия | Я люблю Чу Ли Мо |
Двусторонний алгоритм максимального соответствия | Я люблю Чу Ли Мо |
Минимальный алгоритм количества слов | Я люблю Чу Ли Мо |
Обратный алгоритм максимального соответствия | Я люблю Чу Ли Мо |
Наименьший алгоритм прямого соответствия | Я люблю Чу Ли Мо |
Двусторонний наименьший алгоритм соответствия | Я люблю Чу Ли Мо |
Обратно-наименьший алгоритм соответствия | Я люблю Чу Ли Мо |
Разделитель | Результаты сегментации |
---|---|
Сегментация китайского дерева Stanford | Я люблю Чу Ли Мо |
Сегментация Пекинского университета Stanford | Я люблю Чу Ли Мо |
Базовый анализ Ansj | Я люблю Чу Ли Мо |
Анализ индекса Ansj | Я люблю Чу Ли Мо |
Тоанализ Ansj | Я люблю Чу Ли Мо |
NLP-анализ Ansj | Я люблю Чу Ли Мо |
Стандартная сегментация HanLP | Я люблю Чу Ли Мо |
N-кратчайший путь сегментации HanLP | Я люблю Чу Ли Мо |
Индекс сегментации HanLP | Я люблю Чу Ли Мо |
Кратчайший путь сегментации HanLP | Я люблю Чу Ли Мо |
Сверхбыстрая сегментация словаря HanLP | Я люблю Чу Ли Мо |
Разделитель | Результаты сегментации |
---|---|
Smartcn | Я люблю Чу Ли Мо |
FudanNLP | Я люблю Чу Ли Мо |
SEARCH Jieba | Я люблю Чу Ли Мо |
INDEX Jieba | Я люблю Чу Ли Мо |
Простой режим Jcseg | Я люблю Чу Ли Мо |
Сложный режим Jcseg | Я люблю Чу Ли Мо |
SimpleSeg MMSeg4j | Я люблю Чу Ли Мо |
ComplexSeg MMSeg4j | Я люблю Чу Ли Мо |
MaxWordSeg MMSeg4j | Я люблю Чу Ли Мо |
Интеллектуальная сегментация IKAnalyzer | Я люблю Чу Ли Мо |
Детальная сегментация IKAnalyzer | Я люблю Чу Ли Мо |
Разделитель | Результаты сегментации |
---|---|
Полный алгоритм сегментации | Объединить в молекулу |
Алгоритм двустороннего максимального и минимального соответствия | Объединить в молекулу |
Алгоритм максимального значения N-грамм | Объединить в молекулу |
Прямой алгоритм максимального соответствия | Объединить в составную молекулу |
Двусторонний алгоритм максимального соответствия | Объединить в молекулу |
Минимальный алгоритм количества слов | Объединить в молекулу |
Обратный алгоритм максимального соответствия | Объединить в составную молекулу |
Наименьший прямой алгоритм соответствия | Объединить в составную молекулу |
Двусторонний наименьший алгоритм соответствия | Объединить в молекулу |
Обратно-наименьший алгоритм соответствия | Объединить в составную молекулу |
Разделитель | Результаты сегментации |
---|---|
Сегментация китайского дерева Stanford | Объединить в молекулу |
Сегментация Пекинского университета Stanford | Объединить в молекулу |
Базовый анализ Ansj | Объединить в молекулу |
Анализ индекса Ansj | Объедить в молекулу |
Тоанализ Ansj | Объединить в молекулу |
NLP-анализ Ansj | Объединить в молекулу |
Стандартная сегментация HanLP | Объединить в молекулу |
N-кратчайший путь сегментации HanLP | Объединить в молекулу |
Индекс сегментации HanLP | Объединить в молекулу |
Кратчайший путь сегментации HanLP | Объединить в молекулу |
Сверхбыстрая сегментация словаря HanLP | Объединить в составную молекулу |
Разделитель | Результаты сегментации |
---|---|
Smartcn | Объединить в молекулу |
FudanNLP | Объединить в молекулу |
SEARCH Jieba | Объединить в молекулу |
INDEX Jieba | Объединить в молекулу |
Простой режим Jcseg | Объединить в составную молекулу |
Сложный режим Jcseg | Объединить в молекулу |
SimpleSeg MMSeg4j | Объединить в составную молекулу |
ComplexSeg MMSeg4j | Объединить в молекулу |
MaxWordSeg MMSeg4j | Объединить в составную молекулу |
Интеллектуальная сегментация IKAnalyzer | Объединить в молекулу |
Детальная сегментация IKAnalyzer | Объединить в составную молекулу |
HanLP сверхбыстрый словарь сегментации: скорость сегментации 5030,1978 символов/миллисекунд.
MaxWordSeg MMSeg4j: скорость сегментации 2454,494 символов/миллисекунд.
SimpleSeg MMSeg4j: скорость сегментации 2184,697 символов/миллисекунд.
Алгоритм обратного наименьшего соответствия word: скорость сегментации 1407,4127 символов/миллисекунд.
Алгоритм прямого наименьшего соответствия word: скорость сегментации 1234,6848 символов/миллисекунд.
ComplexSeg MMSeg4j: скорость сегментации 1184,436 символов/миллисекунд.
Простой режим Jcseg: скорость сегментации 1023,73364 символов/миллисекунд.
Базовый анализ Ansj: скорость сегментации 906,4427 символов/миллисекунд.
Алгоритм двустороннего наименьшего соответствия word: скорость сегментации 833,2229 символов/миллисекунд.
SEARCH Jieba: скорость сегментации 831,52246 символов/миллисекунд.
Алгоритм обратного максимального соответствия word: скорость сегментации 808,4246 символов/миллисекунд.
Детальная сегментация IKAnalyzer: скорость сегментации 735,4621 символов/миллисекунд.
Индекс сегментации HanLP: скорость сегментации 664,67535 символов/миллисекунд.
Прямой алгоритм максимального соответствия word: скорость сегментации 573,46375 символов/миллисекунд.
Двусторонний алгоритм максимального соответствия word: скорость сегментации 539,6636 символов/миллисекунд.
INDEX Jieba: скорость сегментации 507,40472 символов/миллисекунд.
Алгоритм двустороннего максимального и минимального соответствия word: скорость сегментации 505,20273 символов/миллисекунд.
Интеллектуальная сегментация IKAnalyzer: скорость сегментации 483,90262 символов/миллисекунд. 19. HanLP, стандартный токенайзер: скорость токенизации: 461,43375 символов/миллисекунду.
Ansj IndexAnalysis, токенайзер для индексации: скорость токенизации: 446,76096 символов/миллисекунду.
word-токенайзер, алгоритм минимального количества слов: скорость токенизации: 444,56738 символов/миллисекунду.
Ansj ToAnalysis, точная токенизация: скорость токенизации: 440,2442 символов/миллисекунду.
word-токенайзер, максимальный Ngram-алгоритм: скорость токенизации: 419,61484 символов/миллисекунду.
smartcn: скорость токенизации: 419,39886 символов/миллисекунду.
Jcseg, сложный режим: скорость токенизации: 391,21075 символов/миллисекунду.
HanLP-токенайзер, токенизация по кратчайшему пути: скорость токенизации: 288,55948 символов/миллисекунду.
HanLP-токенайзер, NLP-токенизация: скорость токенизации: 251,66522 символов/миллисекунду.
Ansj NlpAnalysis, NLP-токенизация: скорость токенизации: 174,01068 символов/миллисекунду.
word-токенайзер, полный токенайзинг: скорость токенизации: 146,16898 символов/миллисекунду.
FudanNLP: скорость токенизации: 111,7975 символов/миллисекунду.
HanLP-токенайзер, N-кратчайший путь: скорость токенизации: 67,67644 символов/миллисекунду.
Поддерживаемые токенайзеры:
Word-токенайзер (https://github.com/ysc/word).
Ansj-токенайзер (https://github.com/ansjsun/ansj_seg).
MMSEG4J-токенайзер (http://code.google.com/p/mmseg4j/).
IK-Analyzer-токенайзер (http://code.google.com/p/ik-analyzer/).
JCSEG-токенайзер (https://code.google.com/p/jcseg/).
FUDANNLP-токенайзер (https://code.google.com/p/fudannlp/).
SmartCN-токенайзер (http://lucene.apache.org/core/5_1_0/analyzers-smartcn/org/apache/lucene/analysis/cn/smart/SmartChineseAnalyzer.html).
Jieba-токенайзер (https://github.com/huaban/jieba-analysis).
Stanford-токенайзер (http://nlp.stanford.edu/software/segmenter.shtml).
HanLP-токенайзер (https://github.com/hankcs/HanLP).
Вы можете оставить комментарий после Вход в систему
Неприемлемый контент может быть отображен здесь и не будет показан на странице. Вы можете проверить и изменить его с помощью соответствующей функции редактирования.
Если вы подтверждаете, что содержание не содержит непристойной лексики/перенаправления на рекламу/насилия/вульгарной порнографии/нарушений/пиратства/ложного/незначительного или незаконного контента, связанного с национальными законами и предписаниями, вы можете нажать «Отправить» для подачи апелляции, и мы обработаем ее как можно скорее.
Комментарии ( 0 )