Содержание

Глава 1. Математические основы

1 Связь между скалярами, векторами и тензорами
2 Различия между тензорами и матрицами
3 Результат умножения матрицы на вектор
4 Нормы векторов и матриц
5 Как определить положительно определенную матрицу
6 Вычисление производных и частных производных
7 Различия между производной и частной производной
8 Собственные значения и собственные векторы
9 Связь между сингулярными значениями и собственными значениями
10 Почему в машинном обучении используют вероятности
11 Различия между переменной и случайной переменной
12 Обычные вероятностные распределения
13 Примеры условной вероятности
14 Связь между совместной и маргинальной вероятностью
15 Цепной закон условной вероятности
16 Независимость и условная независимость
17 Сводка ожидаемого значения, дисперсии, ковариации и коэффициента корреляции

Глава 2. Основы машинного обучения

1 Схемы различных алгоритмов
2 Супервайзированное обучение, непосредственное обучение, полусупервайзированное обучение, слабосупервайзированное обучение
3 Шаги супервайзированного обучения
4 Множественное обучение
5 Различия между классификационными сетями и регрессией
6 Что такое нейронная сеть
7 Преимущества и недостатки часто используемых классификационных алгоритмов8 Может ли точность хорошо оценивать классификационные алгоритмы?
9 Методы оценки классификационных алгоритмов
10 Какой классификатор является лучшим
11 Связь больших данных и глубокого обучения
12 Понимание локального и глобального оптимума
13 Понимание логистической регрессии
14 Различия между логистической регрессией и наивным Байесом
15 Почему требуется функция стоимости
16 Принцип действия функции стоимости
17 Почему функция стоимости должна быть неотрицательной
18 Обычные функции стоимости
19 Почему используется кросс-энтропия вместо квадратичной функции стоимости
20 Что такое функция потерь
21 Обычные функции потерь
22 Почему логистическая регрессия использует логарифмическую функцию потерь
23 Почему в машинном обучении требуется градиентный спуск
24 Недостатки градиентного спуска
25 Понимание градиентного спуска
24 Описание алгоритма градиентного спуска
25 Как оптимизировать градиентный спуск
26 Сравнение производительности различных методов градиентного спуска
27 Графическое объяснение вычисления производной графа
28 Суммарное понимание линейного дискриминантного анализа (LDA)
29 Графическое объяснение основной идеи LDA
30 Принципы двузначного LDA алгоритма
30 Суммарное описание процесса LDA алгоритма
31 Различия между LDA и PCA32 Преимущества и недостатки LDA
33 Сводка основных идей метода главных компонент (PCA) 42
34 Иллюстрация основных идей PCA 42
35 Рассуждение о PCA-алгоритме 43
36 Сводка алгоритма PCA 44
37 Основные преимущества и недостатки PCA 45
38 Необходимость и цели уменьшения размерности 45
39 Каковы различия между KPCA и PCA? 46
40 Оценка модели 47
1. 1 Обычные методы оценки модели? 47
1. 2 Опытная ошибка и ошибка переобучения 47
1. 3 Иллюстрация недообучения и переобучения 48
1. 4 Как решить проблемы недообучения и переобучения? 49
1. 5 Основные функции кросс-валидации? 50
1. 6 K-кратная кросс-валидация? 50
1. 7 Таблица ошибок 50
1. 8 Ошибка и точность 51
1. 9 Точность и полнота 51
1. 10 ROC и AUC 52
1. 11 Как построить кривую ROC? 53
1. 12 Как вычислить TPR и FPR? 54
1. 13 Как вычислить AUC? 56
1. 14 Почему используют ROC и AUC для оценки классификаторов? 56
1. 15 Прямолинейное понимание AUC 56
1. 16 Стоимостно-чувствительная ошибка и кривая стоимости 57
1. 17 Сравнительные методы проверки моделей 59
1. 18 Смещение и разброс 59
1. 19 Почему используют стандартное отклонение? 60
1. 20 Идея точечной оценки 61
1. 21 Правила качества точечной оценки? 61
1. 22 Связь точечной оценки, интервальной оценки и центральной предельной теоремы? 62
1. 23 Причины возникновения несбалансированности классов? 62
1. 24 Сравнение методов борьбы с несбалансированностью классов? 6324 Обычные методы решения проблемы несбалансированности классов 62
41 Деревья решений 64
1. 1 Основные принципы деревьев решений 64
1. 2 Три ключевых элемента деревьев решений? 64
1. 3 Основные алгоритмы обучения деревьев решений 65
1. 4 Преимущества и недостатки алгоритма деревьев решений 65
1. 5 Понятие энтропии и её понимание 66
1. 6 Понимание информации о приросте 66
1. 7 Роль и стратегии обрезки? 67
41 Поддержка векторных машин 67
1. 1 Что такое поддержка векторные машины 67
1. 2 Проблемы, решаемые поддержкой векторных машин? 68
1. 3 Роль ядерной функции? 69
1. 4 Двойственная задача 69
1. 5 Понимание поддержки векторной регрессии 69
1. 6 Понимание SVM (ядерная функция) 69
1. 7 Какие обычные ядерные функции существуют? 69
1. 8 Мягкое ограничение и регуляризация 73
1. 9 Основные характеристики и недостатки SVM? 73
42 Байесовская классификация 74
1. 1 Иллюстрация максимального правдоподобия 74
1. 2 Каковы различия между наивным байесовским классификатором и общим байесовским классификатором? 76
1. 3 Наивный и полунавивный байесовский классификаторы 76
1. 4 Три типичные структуры байесовской сети 76
1. 5 Что такое байесовская ошибка? 76
1. 6 Что такое оптимальная байесовская ошибка? 76
43 Алгоритм EM для решения задач и реализации процесса 7628 Почему возникает проблема "проклятия размерности"? 78
29 Как избежать проблемы "проклятия размерности"? 82
30 Что такое кластеризация и уменьшение размерности? Каковы их различия и связи?
31 Какие различия между GBDT и случайным лесом?
32 Сравнение четырех методов кластеризации## Глава 3. Основы глубокого обучения
3.1 Основные концепции
3.1.1 Какие составляющие нейронной сети?
3.1.2 Какие часто используемые модели структуры нейронной сети?
3.1.3 Как выбрать платформу для разработки глубокого обучения?
3.1.4 Почему используются глубокие представления?
3.1.5 Почему глубокие нейронные сети трудно обучать?
3.1.6 Каковы различия между глубоким обучением и машинным обучением?
3.2 Операции и вычисления сети
3.2.1 Что такое прямое распространение и обратное распространение?
3.2.2 Как вычисляется выход нейронной сети?
3.2.3 Как вычисляется выходное значение сверточной нейронной сети?
3.2.4 Как вычисляется выходное значение слоя пулинга?
3.2.5 Примерное понимание обратного распространения
3.3 Сверхпараметры
3.3.1 Что такое сверхпараметры?
3.3.2 Как найти оптимальное значение сверхпараметров?
3.3.3 Общий процесс поиска сверхпараметров?
3.4 Активационные функции
3.4.1 Почему нужны нелинейные активационные функции?
3.4.2 Какие часто используемые активационные функции и их графики?
3.4.3 Как вычисляются производные от активационных функций?
3.4.4 Какие свойства имеют активационные функции?
3.4.5 Как выбрать активационную функцию?
3.4.6 Каковы преимущества использования активационной функции ReLU?
3.4.7 Когда можно использовать линейную активационную функцию?
3.4.8 Как понять, что ReLU (при x < 0) является нелинейной активационной функцией?
1. 9 Как применяется функция Softmax для многоклассовой классификации?
5 Размер батча
1. 1 Почему нужен размер батча?
1. 2 Выбор значения размера батча
1. 3 Какие преимущества при увеличении размера батча в разумных пределах?
1. 4 Какие недостатки при необоснованном увеличении размера батча?
1. 5 Как влияет на результаты обучения регулирование размера батча?
6 Нормализация
1. 1 Что такое нормализация?
1. 2 Почему нужна нормализация?
1. 3 Почему нормализация повышает скорость нахождения оптимального решения?
1. 4 3D-графическое объяснение не нормализованного
1. 5 Какие типы нормализации существуют?
1. 6 Какова роль локальной реактивной нормализации?
1. 7 Понимание формулы локальной реактивной нормализации
1. 8 Что такое нормализация по батчу (Batch Normalization)?
1. 9 Преимущества алгоритма нормализации по батчу (BN)
1. 10 Процесс алгоритма нормализации по батчу (BN)
1. 11 Нормализация по батчу и групповая нормализация
1. 12 Нормализация весов и нормализация по батчу
7 Предварительное обучение и мелкое настраивание (fine tuning)
1. 1 Почему предварительное обучение без надзора помогает глубокому обучению?
1. 2 Что такое мелкое настраивание модели (fine tuning)?
1. 3 Подстраиваются ли параметры сети во время тонкой настройки?4 Три состояния модели тонкой настройки 122
8 Инициализация весов и смещений 122
1. 1 Все инициализируются нулем 122
1. 2 Все инициализируются одним и тем же значением 123
1. 3 Инициализация небольшими случайными числами 124
1. 4 Корректировка дисперсии 1/√n 125
1. 5 Режим редкой инициализации (Sparse Initialization) 125
1. 6 Инициализация смещений 125
9 Softmax 126
1. 1 Определение и функции Softmax 126
1. 2 Деривация Softmax 126
10 Понимание принципа и функции One Hot Encoding 126
11 Какие оптимизаторы обычно используются 127
12 Серия вопросов о Dropout 128
1. 1 Выбор коэффициента Dropout 128
27 Серия вопросов о Padding 128

Глава 4 Классические сети 129

1 LeNet5 129
1. 1 Структура модели 129
1. 2 Структура модели 129
1. 3 Характеристики модели 131
2 AlexNet 131
1. 1 Структура модели 131
1. 2 Интерпретация модели 131
1. 3 Характеристики модели 135
3 Визуализация ZFNet-деконволюции 135
1. 1 Основные идеи и процессы 135
1. 2 Конволюция и деконволюция 136
1. 3 Визуализация конволюции 137
1. 4 Сравнение ZFNet и AlexNet 139
4 VGG 140
1. 1 Структура модели 140
1. 2 Характеристики модели 140
5 Network in Network 141
1. 1 Структура модели 141
1. 2 Инновации модели 141
6 GoogleNet 143
1. 1 Структура модели 143
1. 2 Структура Inception 145
1. 3 Структурные уровни модели 146
7 Серия Inception 148
1. 1 Inception v1 148
1. 2 Inception v2 1503 Inception v3 153
1. 4 Inception V4 155
1. 5 Inception-ResNet-v2 157
8 ResNet и его варианты 158
1. 1 Пересмотр ResNet 159
1. 2 Блоки с пропусками 160
1. 3 Архитектура ResNet 162
1. 4 Варианты блоков с пропусками 162
1. 5 ResNeXt 162
1. 6 Плотно соединенные CNN 164
1. 7 ResNet как комбинация малых сетей 165
1. 8 Характеристики путей в ResNet 166
9 Почему современные CNN модели обычно настраиваются на основе GoogleNet, VGGNet или AlexNet? 167

Глава 5 Сверточные нейронные сети (CNN) 170

1 Составные слои сверточной нейронной сети 170
2 Как конволюция обнаруживает информацию о краях? 171
2 Несколько базовых определений конволюции? 174
1. 1 Размер ядра конволюции 174
1. 2 Шаг конволюции 174
1. 3 Заполнение краев 174
1. 4 Входные и выходные каналы 174
3 Классификация типов сверточных сетей? 174
1. 1 Обычная конволюция 174
1. 2 Расширенная конволюция 175
1. 3 Транспонированная конволюция 176
1. 4 Разделяемая конволюция 177
3 Графическое объяснение 12 типов 2D конволюций? 178
4 Какая разница между 2D и 3D конволюциями? 181
1. 1 2D свёртка 181
1. 2 3D свёртка 182
5 Какие методы пулинга существуют? 183
1. 1 Общий пулинг (General Pooling) 183
1. 2 Накладывающийся пулинг (OverlappingPooling) 184
1. 3 Пространственный пирамидальный пулинг (Spatial Pyramid Pooling) 184
6 Зачем нужна 1x1 свёртка? 186
7 В чём разница между свёртными и пулинговыми слоями? 187
5.8 Нужно ли увеличивать размер свёртного ядра? 189
9 Может ли каждый свёртный слой использовать только один размер свёртного ядра? 189
10 Как уменьшить количество параметров в свёртном слое? 190
11 При свёртке обязательно нужно учитывать каналы и области одновременно? 191
12 Чем полезна широкая свёртка? 192
1. 1 Узкая и широкая свёртка 192
1. 2 Почему используется широкая свёртка? 192
13 Глубина выхода свёртного слоя равна количеству какого-либо компонента? 192
14 Как определить глубину выхода свёртного слоя? 193
15 Где обычно применяется активационная функция в свёрточной нейронной сети? 194
16 Как понять, что максимальный пулинг уменьшает размер на несколько процентов? 194
17 Понимание свёртки и десявёртки изображений 194
1. 1 Свёртка изображений 194
1. 2 Десявёртка изображений 196
18 Как вычисляется размер изображения после различных свёрток? 198
1. 1 Типы свёрток 198
1. 2 Формулы вычисления 199
19 Суммарное влияние шага, заполнения и связи между входом и выходом? 199
1. 1 Без заполнения нулями, шаг равен единице 200
1. 2 Заполнение нулями, шаг равен единице 200
1. 3 Без заполнения, шаг не равен единице 202
1. 4 Заполнение нулями, шаг не равен единице 202
20 Понимание десявёртки и эффекта шахматной доски 204
1. 1 Почему возникает эффект шахматной доски? 2042 Какие методы могут избежать эффекта шахматной доски? 205
21 Основные вычислительные барьеры для CNN? 207
22 Экспериментальные настройки параметров для CNN? 207
23 Способы повышения обобщающей способности? 208
1. 1 Основные методы 208
1. 2 Экспериментальные доказательства 208
24 Связь и различия между использованием CNN в CV и NLP? 213
1. 1 Связь 213
1. 2 Различия 213
25 Способы выявления общих черт в CNN? 213
1. 1 Локальное соединение 213
1. 2 Сопоставление весов 214
1. 3 Пулинговые операции 215
26 Различия между полной свёрткой и Local-Conv? 215
27 Примеры применения Local-Conv? 215
28 Краткая история развития свёрточных нейронных сетей 216

Шестая глава Циклические нейронные сети (RNN) 218

1 В чём отличие RNN от FNN? 218
2 Какие основные характеристики RNN? 218
3 Для чего используются RNN? 219
4 Какие типичные применения RNN в NLP? 220
5 В чём отличие обучения RNN от традиционного обучения ANN? 220
6 Какие расширения и улучшения RNN существуют? 221
1. 1 Простая RNN (SRN) 221
1. 2 Би-направленная RNN 221

Глава 7 Обнаружение объектов 228

1 Обнаружение объектов на основе кандидатских областей 228
1. 1 Слайдинг-окно обнаружения 228
1. 2 Выборочный поиск 229
1. 3 R-CNN 230
1. 4 Обратная регрессия границ объектов 230
1. 5 Fast R-CNN 231
1. 6 ROI-пулинг 233
1. 7 Faster R-CNN 233
1. 8 Кандидатские области сети 2349 Выполнение метода R-CNN 236
  7.2 Облачные полносвязные нейронные сети (R-FCN) 237
  7.3 Однократные обнаружители объектов 240
  7.3.1 Однократные обнаружители 241
  7.3.2 Слайдинг-окно для предсказания 241
  7.3.3 SSD 243
  7.4 Серия YOLO 244
  7.4.1 Введение YOLOv1 244
  7.4.2 Преимущества и недостатки модели YOLOv1 252
  7.4.3 YOLOv2 253
  7.4.4 Стратегии улучшения YOLOv2 254
  7.4.5 Обучение YOLOv2 261
  7.4.6 YOLO9000 261
  7.4.7 YOLOv3 263
  7.4.8 Улучшения YOLOv3 264

Глава 8 Разделение изображений 269

8.1 Недостатки традиционных методов разделения на основе CNN 269
8.1 FCN 269
8.1.1 Что изменилось в FCN 269
8.1.2 Структура сети FCN 270
8.1.3 Примеры полносвязных сетей 271
8.1.4 Почему CNN имеет трудности с классификацией на уровне пикселей 271
8.1.5 Как полносвязные и сверточные слои могут быть взаимно преобразованы 272
8.1.6 Почему входные изображения FCN могут быть любого размера 272
8.1.7 Какие преимущества имеют преобразованные веса полносвязных слоев в фильтры сверточных слоев 273
8.1.8 Понимание деконволюции 275
8.1.9 Скок-структура 276
8.1.10 Обучение модели 277
8.1.11 Недостатки FCN 280
8.2 U-Net 280
8.3 SegNet 282
8.4 Пустотные свертки (Dilated Convolutions) 283
8.4 RefineNet 285
8.5 PSPNet 286
8.6 Серия DeepLab 288
8.6.1 DeepLabv1 288
8.6.2 DeepLabv2 289
8.6.3 DeepLabv3 289
8.6.4 DeepLabv3+ 290
8.7 Mask-R-CNN 293
8.7.1 Схема сети Mask-RCNN 293
8.7.2 Структура RCNN для обнаружения людей 293
8.7.3 Технические особенности Mask-RCNN 294
8.8 Применение CNN в слабо-надзорном обучении для разделения изображений 295
8.1 Пометка схемой 295
8.2 Метка уровня изображения 297
8.3 DeepLab+bounding box+image-level labels 298
8.4 Объединенная структура 299

Глава 9 Усилитель обучения 301

9.1 Основные характеристики усилителя обучения? 301
9.2 Примеры применения усилителя обучения 302
9.3 Отличия усилителя обучения от надзора и без надзора обучения 303
9.4 Основные алгоритмы усилителя обучения? 305

Глава 5 Глубокая миграционная усилительная модель обучения

5.1 Глубокая миграционная усилительная модель обучения алгоритм 305
5.2 Слоистая глубокая усилительная модель обучения алгоритм 306
5.3 Глубокая модель обучения с памятью алгоритм 306
5.4 Многоагентная глубокая усилительная модель обучения алгоритм 307
5.5 Заключение по глубокой усилительной модели обучения 307## Глава 10 Миграционное обучение
10.1 Что такое миграционное обучение? 309
10.2 Что такое многозадачное обучение? 309
10.3 Значение многозадачного обучения 309
10.4 Что такое конечное-конечное глубокое обучение? 311
10.5 Примеры конечного-конечного глубокого обучения 311
10.6 Вызовы конечного-конечного глубокого обучения 311
10.7 Преимущества и недостатки конечного-конечного глубокого обучения 312## Глава 13 Оптимизационные алгоритмы
13.1 Какова разница между CPU и GPU? 314
13.2 Как решить проблему малого количества обучающих образцов? 315
13.3 Какие наборы образцов не подходят для глубокого обучения? 315
13.4 Могут ли быть найдены алгоритмы лучше известных? 316
13.5 Что такое сопряженность и как она связана с переобучением? 316
13.6 Как применяются обобщенные линейные модели в глубоком обучении? 316
13.7 Причины исчезновения градиента 317
13.8 Методы инициализации весов 317
13.9 Как избежать локальных оптимумов в гибридных оптимизационных алгоритмах? 318
13.10 Как улучшить метод градиентного спуска в задачах выпуклого программирования для предотвращения попадания в локальные оптимумы? 319
13.11 Обычные функции потерь? 319
13.14 Как проводится выбор признаков (feature selection)? 321
13.14.1 Как учитывать выбор признаков 321
13.14.2 Классификация методов выбора признаков 321
13.14.3 Цели выбора признаков 322
13.15 Причины исчезновения/взрывания градиента и способы их решения 322
13.15.1 Почему используется правило обновления градиента? 322
13.15.2 Причины исчезновения/взрывания градиента? 323
13.15.3 Способы решения проблемы исчезновения/взрывания градиента 324
13.16 Почему глубокое обучение не использует второго порядка оптимизации? 325
13.17 Как оптимизировать вашу систему глубокого обучения? 326
13.18 Почему следует установить единственный численный показатель качества? 326
13.19 Удовлетворение и оптимизация метрик (Satisficing and optimizing metrics) 327
13.20 Как разделить обучающую/развивающую/тестовую выборки? 328
13.21 Как определить размер развивающей/тестовой выборки? 329
13.22 Когда следует изменить развивающую/тестовую выборку и метрики? 329
13.23 Значение установки метрик оценки 330
13.24 Что такое избежимая дисперсия? 331
13.25 Что такое ошибка TOP5? 331
13.26 Что такое ошибка на уровне человека? 332
13.27 Связь между избежимой дисперсией и основными ошибками 332
13.28 Как выбрать избежимую дисперсию и бейзисовскую ошибку? 332
13.29 Как уменьшить дисперсию? 333
13.30 Лучшее оценочное значение бейзисовской ошибки 333
13.31 Приведите несколько примеров, когда машинное обучение превосходит отдельного человека. 334
13.32 Как улучшить вашу модель? 334
13.33 Понимание анализа ошибок 335
13.34 Почему стоит потратить время на просмотр помеченных как ошибочных данных? 336
13.35 Значение быстрого создания начальной системы? 336
13.36 Почему следует обучать и тестировать на разных разбиениях? 337
13.37 Как решить проблему несоответствия данных? 338
13.38 Внимание при градиентном тестировании? 340
13.39 Что такое стохастический градиентный спуск? 341
13.40 Что такое батч-градиентный спуск? 341
13.41 Что такое мини-батч-градиентный спуск? 34142 Как настроить мини-батч-градиентный спуск? 342
13. 43 Проблема локального оптимума 343
13. 44 Какие подходы к улучшению производительности алгоритма? 346

14 Глава Оптимизация гиперпараметров 358

1 Отладка процесса 358
2 Какие гиперпараметры существуют? 359
3 Как выбрать значения для отладки? 359
4 Как выбрать подходящий диапазон для гиперпараметров? 359
5 Как искать гиперпараметры? 359

15 Глава Регуляризация 361

1 Что такое регуляризация? 361
2 Каковы принципы регуляризации? 361
3 Почему нужна регуляризация? 361
4 Почему регуляризация полезна для предотвращения переобучения? 361
5 Почему регуляризация снижает дисперсию? 362
6 Понимание L2 регуляризации 362
7 Понимание регуляризации dropout 362
8 Какие методы регуляризации dropout существуют? 362
9 Как реализовать регуляризацию dropout 363
10 Python реализация регуляризации dropout 363
11 Какая разница между L2 регуляризацией и dropout? 363
12 Какие недостатки у dropout? 363
13 Другие методы регуляризации? 364

OSCHINA-MIRROR/snow2zhou-DeepLearning-500-questions

Содержание

Глава 1. Математические основы

Глава 2. Основы машинного обучения

Глава 4 Классические сети 129

Глава 5 Сверточные нейронные сети (CNN) 170

Шестая глава Циклические нейронные сети (RNN) 218

Глава 7 Обнаружение объектов 228

Глава 8 Разделение изображений 269

Глава 9 Усилитель обучения 301

Глава 5 Глубокая миграционная усилительная модель обучения

14 Глава Оптимизация гиперпараметров 358

15 Глава Регуляризация 361

Список литературы 366

Опубликовать ( 0 )

Введение

Обновления

Участники

Язык

Недавние действия

OSCHINA-MIRROR/snow2zhou-DeepLearning-500-questions .gitee-modal { min-width: 500px !important; } .gitee-modal .close { right: 0.6rem !important; }

Содержание

Глава 1. Математические основы

Глава 2. Основы машинного обучения

Глава 4 Классические сети 129

Глава 5 Сверточные нейронные сети (CNN) 170

Шестая глава Циклические нейронные сети (RNN) 218

Глава 7 Обнаружение объектов 228

Глава 8 Разделение изображений 269

Глава 9 Усилитель обучения 301

Глава 5 Глубокая миграционная усилительная модель обучения

14 Глава Оптимизация гиперпараметров 358

15 Глава Регуляризация 361

Список литературы 366

Опубликовать ( 0 )

Введение

Обновления

Участники

Язык

Недавние действия

OSCHINA-MIRROR/snow2zhou-DeepLearning-500-questions