Некоторые алгоритмы, используемые с данными структурами в NLP

Алгоритм KMP

Это алгоритм для поиска подстроки в строке: определение, содержится ли одна строка в другой.

Чтобы определить, содержится ли одна строка в другой, обычно сравниваются символы по одному, и если не совпадают, то сдвигаются на один символ и продолжается сравнение. Это, конечно, самый простой и медленный способ. Есть ли более эффективные способы сравнения?

Конечно, есть. Алгоритм KMP является одним из таких способов.

Первый символ совпадает, если не совпадает, сдвигаем на один символ, если совпадает, продолжаем проверку следующего символа.
Если несколько символов совпадают, а затем не совпадают, то в отличие от простого сдвига на один символ, алгоритм KMP сдвигает на количество совпадающих символов минус соответствующее значение частичного совпадения.

Как рассчитывается значение частичного совпадения?

Для этого нужно понять два понятия: "префикс" и "суффикс". "Префикс" - это все комбинации символов, кроме последнего, в строке; "суффикс" - это все комбинации символов, кроме первого, в строке.

"Значение частичного совпадения" - это длина наибольшего общего префикса и суффикса.> Подробное объяснение можно найти в блоге великого специалиста Руань Ифэнга: Алгоритм KMP для поиска подстроки, где все объяснено очень доступно. Рекомендую прочитать все его блоги последовательно.

OSCHINA-MIRROR/willalex-nlp-journey

Некоторые алгоритмы, используемые с данными структурами в NLP

Алгоритм KMP

Опубликовать ( 0 )

Введение

Обновления

Участники

Язык

Недавние действия

OSCHINA-MIRROR/willalex-nlp-journey .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

Некоторые алгоритмы, используемые с данными структурами в NLP

Алгоритм KMP

Опубликовать ( 0 )

Введение

Обновления

Участники

Язык

Недавние действия

OSCHINA-MIRROR/willalex-nlp-journey