1 В избранное 0 Ответвления 0

OSCHINA-MIRROR/willalex-nlp-journey

В этом репозитории не указан файл с открытой лицензией (LICENSE). При использовании обратитесь к конкретному описанию проекта и его зависимостям в коде.
Клонировать/Скачать
basic.md 4.2 КБ
Копировать Редактировать Web IDE Исходные данные Просмотреть построчно История
Отправлено 02.06.2025 10:16 35e70af

Основные понятия

Сбор и систематизация некоторых базовых понятий

Машинное обучение

Алгоритмы машинного обучения — это алгоритмы, способные обучаться на данных. Mitchell (1997) определяет машинное обучение следующим образом: "Компьютерная программа считается способной обучаться на опыте E для задачи T и метрики P, если её производительность по метрике P для задачи T улучшается с опытом E."

Основной проблемой машинного обучения является необходимость того, чтобы алгоритмы могли хорошо работать на новых, ранее не наблюдавшихся входных данных, а не только на обучающей выборке. Способность хорошо работать на новых входных данных называется обобщением (generalization).

Вот факторы, определяющие качество алгоритма машинного обучения:

  1. Снижение ошибки обучения.
  2. Сокращение разницы между ошибкой обучения и ошибкой тестирования.

Эти факторы соответствуют двум основным проблемам машинного обучения: недообучению (underfitting) и переобучению (overfitting).

Предобученные моделиПри обучении модели с небольшим количеством данных, параметры модели могут быть недостаточно хорошими. В этом случае можно использовать большое количество данных для обучения сети, чтобы она обучилась на этих данных и сохранила параметры сети. Затем можно использовать ту же структуру сети, инициализировать параметры с уже обученными параметрами, а параметры верхних уровней инициализировать случайным образом, и обучать модель на небольшом наборе данных. Обученные параметры можно оставить неизменными, то есть "замороженными" (frozen), или продолжать их обучение, то есть "тонко настраивать" (fine-tuning). Самый распространённый пример использования этого подхода — в обработке изображений.Преимущества: ускорение процесса обучения; решение проблемы обучения с небольшим набором данных; нахождение хороших начальных параметров.

Автoregressive языковые модели

До появления ELMO и BERT, обычно подразумеваемые языковые модели были автoregressive, то есть они предсказывали следующее слово на основе предыдущего контекста, то есть выполняли задачу слева направо. Или наоборот, предсказывали предыдущее слово на основе последующего контекста. Такие модели языка называются автoregressive. GPT является типичным примером автoregressive модели.

Схема свёрточной сети

conv

Ссылки

features

Опубликовать ( 0 )

Вы можете оставить комментарий после Вход в систему

1
https://api.gitlife.ru/oschina-mirror/willalex-nlp-journey.git
git@api.gitlife.ru:oschina-mirror/willalex-nlp-journey.git
oschina-mirror
willalex-nlp-journey
willalex-nlp-journey
master