1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/ysc-cws_evaluation

Присоединиться к Gitlife
Откройте для себя и примите участие в публичных проектах с открытым исходным кодом с участием более 10 миллионов разработчиков. Приватные репозитории также полностью бесплатны :)
Присоединиться бесплатно
Клонировать/Скачать
Внести вклад в разработку кода
Синхронизировать код
Отмена
Подсказка: Поскольку Git не поддерживает пустые директории, создание директории приведёт к созданию пустого файла .keep.
Loading...
README.md

Строки с 1 по 31:

Скорость сегментации: 4 символа в миллисекунду.

Процент идеально сегментированных строк: 26,72%.

Процент строк с ошибками сегментации: 73,27%.

Общее количество строк: 2 533 709.

Количество идеально сегментированных строк: 930 069.

Количество строк с ошибками сегментации: 1 603 640.

Строка 32:

Время оценки: 41 минута 42 секунды 725 миллисекунд.

Ключевые моменты:

  • Относительно скорости сегментации данные не являются абсолютными, так как при каждом тестировании могут быть некоторые расхождения. Процент идеально сегментированных строк является фиксированным показателем. Поэтому строки отсортированы по проценту идеально сегментированных строк.
  • В этом отчёте не рассматриваются данные для сегментаторов Stanford и Paoding.
  • Текущая версия кода больше не содержит сегментатор Paoding, поскольку он не поддерживается уже 7 лет.
  • Версия сегментатора Stanford была обновлена до 3.5.2. Скорость работы более медленных сегментаторов не позволяет дождаться завершения оценки, поэтому они используются только для сравнения интерактивных эффектов.
  • Ниже приведены данные оценки для сегментаторов Paoding версии 2.0.4-beta и Stanford версии 3.3.1.

Сегментатор Stanford (Пекинский университет):

Скорость сегментации: 0,14 символов в миллисекунду.

Процент идеально сегментированных строк: 58,29%.

Процент строк с ошибками сегментации: 41,7%.

Общее количество строк: 2 533 709.

Количество идеально сегментированных строк: 1 477 034.

Количество строк с ошибками сегментации: 1 056 675.

Процент идеально сегментированных слов: 51,36%.

Процент слов с ошибками сегментации: 48,63%.

Общее количество слов: 28 374 490.

Идеальное количество слов: 14 574 120.

Ошибочное количество слов: 13 800 370.

Сегментатор Stanford (Chinese Treebank):

Скорость сегментации: 0,13 символов в миллисекунду.

Процент идеально сегментированных строк: 55,45%.

Процент строк с ошибками сегментации: 44,54%.

Общее количество строк: 2 533 709.

Количество идеально сегментированных строк: 1 404 968.

Количество строк с ошибками сегментации: 1 128 741.

Процент идеально сегментированных слов: 47,27%.

Процент слов с ошибками сегментации: 52,72%.

Общее количество слов: 28 374 490.

Идеальное количество слов: 13 414 926.

Ошибочное количество слов: 14 959 564. Символы/миллисекунды

Количество строк без ошибок: 14,19%. Количество строк с ошибками: 85,8%. Общее количество строк: 2533158. Количество идеальных строк: 359637. Количество ошибочных строк: 2173521.

Процент слов без ошибок: 7,72%. Процент слов с ошибками: 92,27%. Общее количество слов: 28373102. Идеальное количество слов: 2191349. Ошибочное количество слов: 26181753.

Paoding MOST_WORDS_MODE:

Скорость сегментации: 1338,9246 символов/миллисекунда.

Количество строк без ошибок: 11,6%. Количество строк с ошибками: 88,39%. Общее количество строк: 2533158. Идеальных строк: 294011. Ошибочные строки: 2239147.

Процент слов без ошибок: 5,92%. Процент слов с ошибками: 94,07%. Общее количество слов: 28373102. Идеальные слова: 1680261. Ошибочные слова: 26692841.

Сравнение результатов

Пример 1: «Я люблю Чу Ли Мо»

Разделитель Результат сегментации
Полный алгоритм сегментации Я люблю Чу Ли Мо
Алгоритм двустороннего максимального и минимального соответствия Я люблю Чу Ли Мо
Алгоритм максимального значения N-грамм Я люблю Чу Ли Мо
Прямой алгоритм максимального соответствия Я люблю Чу Ли Мо
Двусторонний алгоритм максимального соответствия Я люблю Чу Ли Мо
Минимальный алгоритм количества слов Я люблю Чу Ли Мо
Обратный алгоритм максимального соответствия Я люблю Чу Ли Мо
Наименьший алгоритм прямого соответствия Я люблю Чу Ли Мо
Двусторонний наименьший алгоритм соответствия Я люблю Чу Ли Мо
Обратно-наименьший алгоритм соответствия Я люблю Чу Ли Мо
Разделитель Результаты сегментации
Сегментация китайского дерева Stanford Я люблю Чу Ли Мо
Сегментация Пекинского университета Stanford Я люблю Чу Ли Мо
Базовый анализ Ansj Я люблю Чу Ли Мо
Анализ индекса Ansj Я люблю Чу Ли Мо
Тоанализ Ansj Я люблю Чу Ли Мо
NLP-анализ Ansj Я люблю Чу Ли Мо
Стандартная сегментация HanLP Я люблю Чу Ли Мо
N-кратчайший путь сегментации HanLP Я люблю Чу Ли Мо
Индекс сегментации HanLP Я люблю Чу Ли Мо
Кратчайший путь сегментации HanLP Я люблю Чу Ли Мо
Сверхбыстрая сегментация словаря HanLP Я люблю Чу Ли Мо
Разделитель Результаты сегментации
Smartcn Я люблю Чу Ли Мо
FudanNLP Я люблю Чу Ли Мо
SEARCH Jieba Я люблю Чу Ли Мо
INDEX Jieba Я люблю Чу Ли Мо
Простой режим Jcseg Я люблю Чу Ли Мо
Сложный режим Jcseg Я люблю Чу Ли Мо
SimpleSeg MMSeg4j Я люблю Чу Ли Мо
ComplexSeg MMSeg4j Я люблю Чу Ли Мо
MaxWordSeg MMSeg4j Я люблю Чу Ли Мо
Интеллектуальная сегментация IKAnalyzer Я люблю Чу Ли Мо
Детальная сегментация IKAnalyzer Я люблю Чу Ли Мо

Пример 2: «Объединить в молекулу»

Разделитель Результаты сегментации
Полный алгоритм сегментации Объединить в молекулу
Алгоритм двустороннего максимального и минимального соответствия Объединить в молекулу
Алгоритм максимального значения N-грамм Объединить в молекулу
Прямой алгоритм максимального соответствия Объединить в составную молекулу
Двусторонний алгоритм максимального соответствия Объединить в молекулу
Минимальный алгоритм количества слов Объединить в молекулу
Обратный алгоритм максимального соответствия Объединить в составную молекулу
Наименьший прямой алгоритм соответствия Объединить в составную молекулу
Двусторонний наименьший алгоритм соответствия Объединить в молекулу
Обратно-наименьший алгоритм соответствия Объединить в составную молекулу
Разделитель Результаты сегментации
Сегментация китайского дерева Stanford Объединить в молекулу
Сегментация Пекинского университета Stanford Объединить в молекулу
Базовый анализ Ansj Объединить в молекулу
Анализ индекса Ansj Объедить в молекулу
Тоанализ Ansj Объединить в молекулу
NLP-анализ Ansj Объединить в молекулу
Стандартная сегментация HanLP Объединить в молекулу
N-кратчайший путь сегментации HanLP Объединить в молекулу
Индекс сегментации HanLP Объединить в молекулу
Кратчайший путь сегментации HanLP Объединить в молекулу
Сверхбыстрая сегментация словаря HanLP Объединить в составную молекулу
Разделитель Результаты сегментации
Smartcn Объединить в молекулу
FudanNLP Объединить в молекулу
SEARCH Jieba Объединить в молекулу
INDEX Jieba Объединить в молекулу
Простой режим Jcseg Объединить в составную молекулу
Сложный режим Jcseg Объединить в молекулу
SimpleSeg MMSeg4j Объединить в составную молекулу
ComplexSeg MMSeg4j Объединить в молекулу
MaxWordSeg MMSeg4j Объединить в составную молекулу
Интеллектуальная сегментация IKAnalyzer Объединить в молекулу
Детальная сегментация IKAnalyzer Объединить в составную молекулу

Скорость сравнения

  1. HanLP сверхбыстрый словарь сегментации: скорость сегментации 5030,1978 символов/миллисекунд.

  2. MaxWordSeg MMSeg4j: скорость сегментации 2454,494 символов/миллисекунд.

  3. SimpleSeg MMSeg4j: скорость сегментации 2184,697 символов/миллисекунд.

  4. Алгоритм обратного наименьшего соответствия word: скорость сегментации 1407,4127 символов/миллисекунд.

  5. Алгоритм прямого наименьшего соответствия word: скорость сегментации 1234,6848 символов/миллисекунд.

  6. ComplexSeg MMSeg4j: скорость сегментации 1184,436 символов/миллисекунд.

  7. Простой режим Jcseg: скорость сегментации 1023,73364 символов/миллисекунд.

  8. Базовый анализ Ansj: скорость сегментации 906,4427 символов/миллисекунд.

  9. Алгоритм двустороннего наименьшего соответствия word: скорость сегментации 833,2229 символов/миллисекунд.

  10. SEARCH Jieba: скорость сегментации 831,52246 символов/миллисекунд.

  11. Алгоритм обратного максимального соответствия word: скорость сегментации 808,4246 символов/миллисекунд.

  12. Детальная сегментация IKAnalyzer: скорость сегментации 735,4621 символов/миллисекунд.

  13. Индекс сегментации HanLP: скорость сегментации 664,67535 символов/миллисекунд.

  14. Прямой алгоритм максимального соответствия word: скорость сегментации 573,46375 символов/миллисекунд.

  15. Двусторонний алгоритм максимального соответствия word: скорость сегментации 539,6636 символов/миллисекунд.

  16. INDEX Jieba: скорость сегментации 507,40472 символов/миллисекунд.

  17. Алгоритм двустороннего максимального и минимального соответствия word: скорость сегментации 505,20273 символов/миллисекунд.

  18. Интеллектуальная сегментация IKAnalyzer: скорость сегментации 483,90262 символов/миллисекунд. 19. HanLP, стандартный токенайзер: скорость токенизации: 461,43375 символов/миллисекунду.

  19. Ansj IndexAnalysis, токенайзер для индексации: скорость токенизации: 446,76096 символов/миллисекунду.

  20. word-токенайзер, алгоритм минимального количества слов: скорость токенизации: 444,56738 символов/миллисекунду.

  21. Ansj ToAnalysis, точная токенизация: скорость токенизации: 440,2442 символов/миллисекунду.

  22. word-токенайзер, максимальный Ngram-алгоритм: скорость токенизации: 419,61484 символов/миллисекунду.

  23. smartcn: скорость токенизации: 419,39886 символов/миллисекунду.

  24. Jcseg, сложный режим: скорость токенизации: 391,21075 символов/миллисекунду.

  25. HanLP-токенайзер, токенизация по кратчайшему пути: скорость токенизации: 288,55948 символов/миллисекунду.

  26. HanLP-токенайзер, NLP-токенизация: скорость токенизации: 251,66522 символов/миллисекунду.

  27. Ansj NlpAnalysis, NLP-токенизация: скорость токенизации: 174,01068 символов/миллисекунду.

  28. word-токенайзер, полный токенайзинг: скорость токенизации: 146,16898 символов/миллисекунду.

  29. FudanNLP: скорость токенизации: 111,7975 символов/миллисекунду.

  30. HanLP-токенайзер, N-кратчайший путь: скорость токенизации: 67,67644 символов/миллисекунду.

Поддерживаемые токенайзеры:

  1. Word-токенайзер (https://github.com/ysc/word).

  2. Ansj-токенайзер (https://github.com/ansjsun/ansj_seg).

  3. MMSEG4J-токенайзер (http://code.google.com/p/mmseg4j/).

  4. IK-Analyzer-токенайзер (http://code.google.com/p/ik-analyzer/).

  5. JCSEG-токенайзер (https://code.google.com/p/jcseg/).

  6. FUDANNLP-токенайзер (https://code.google.com/p/fudannlp/).

  7. SmartCN-токенайзер (http://lucene.apache.org/core/5_1_0/analyzers-smartcn/org/apache/lucene/analysis/cn/smart/SmartChineseAnalyzer.html).

  8. Jieba-токенайзер (https://github.com/huaban/jieba-analysis).

  9. Stanford-токенайзер (http://nlp.stanford.edu/software/segmenter.shtml).

  10. HanLP-токенайзер (https://github.com/hankcs/HanLP).

Комментарии ( 0 )

Вы можете оставить комментарий после Вход в систему

Введение

Java открытый проект cws_evaluation: оценка результатов работы китайского токенизатора. Этот сайт является зеркальным сайтом cws_evaluation на GitHub, используется только для резервного копирования. Развернуть Свернуть
Apache-2.0
Отмена

Обновления

Пока нет обновлений

Участники

все

Недавние действия

Загрузить больше
Больше нет результатов для загрузки
1
https://api.gitlife.ru/oschina-mirror/ysc-cws_evaluation.git
git@api.gitlife.ru:oschina-mirror/ysc-cws_evaluation.git
oschina-mirror
ysc-cws_evaluation
ysc-cws_evaluation
master