12785031.html

На JD в наличии в 100+ книжных магазинах.

500 вопросов по глубокому обучению — энциклопедия для собеседований AI-инженеров (издательство Бовэ Шипинь), главный редактор Тан Цзиюй, редакторы Гуо Цзычжоу, Ли Чжан, Дин Суньюй

Краткое содержание

Книга систематически описывает основные теории, алгоритмы и применения глубокого обучения. Всего в книге 14 глав. В первых трех главах рассматриваются математические основы, основы машинного обучения и основы глубокого обучения. Четвертая по седьмую главы посвящены классическим сетям и часто используемым сетям CNN, RNN, GAN и другим структурам в области компьютерного зрения. Восьмая и девятая главы посвящены применению глубокого обучения в области компьютерного зрения — обнаружению объектов и сегментации изображений. Десятая по четырнадцатую главы охватывают основные методы оптимизации и подходы в области компьютерного зрения, включая переносное обучение, архитектуры сетей и обучение, оптимизацию сетей, настройку гиперпараметров и сжатие и ускорение моделей. Книга представляет собой свод опыта многих первых лиц научных исследований и инженеров, направленный на развитие способностей читателей к выявлению, решению и расширению проблем.Содержание книги основано на знаниях, сформированных редакторами в процессе обучения, а также на типовых задачах и вопросах, встречающихся на вступительных экзаменах и собеседованиях в различных компаниях. Книга может быть полезна для исследователей и преподавателей в области компьютерной науки, информатики, искусственного интеллекта, управления и техники электроники в университетах и академиях. Она также может быть полезна для студентов и аспирантов, а также для начинающих и среднего уровня исследователей и инженеров в области глубокого обучения и компьютерного зрения. Особенно рекомендуется для кандидатов, которые хотят устранить пробелы в знаниях, и для интервьюеров, которые ищут кандидатов на эти должности.

Краткая биография автора

Тан Цзиюй, главный редакторТан Цзиюй является совместным докторантом Южного национального университета и Харбинского инженерного университета (в процессе обучения), ныне работает техническим директором компании Ханвей Интеллектуальное Медицинское Оборудование, членом экспертного совета Индустриального управления Шэньчжэня, внешним преподавателем магистратуры Южного национального университета и Калифорнийского университета в Сан-Франциско, заместителем директора совместной лаборатории Южного национального университета и Ханвей Интеллектуальное Медицинское Оборудование, внешним техническим экспертом Beijing Tan Gong Institute. Ранее работал в Институте информационных технологий Китайской академии наук, Калифорнийском университете в Сан-Франциско, лаборатории роботов и искусственного интеллекта Foxconn, а также в компании SF Express. Основные направления его исследований включают интеллектуальное восприятие и управление, реальное время интеллекта и компьютерное зрение. Он является руководителем или соавтором более чем 20 проектов, включая проекты Национального научного фонда Китая, провинциальных ключевых исследовательских программ и программ стратегического развития Шэньчжэня. Он опубликовал более 20 статей в журналах SCI/EI, подал более 40 патентных заявок и получил золотую медаль национального конкурса изобретений.

Гу Цзычжоу – заместитель главного редактора.Доктор наук по специальности «Компьютерные науки» из Университета Сichuan, магистр Университета Sichuan по специальности «Автоматизация». Основные направления исследований: AI-чипы, глубокое обучение, обнаружение поведения, распознавание лиц.

Ли Цзянь – заместитель главного редактора

Доктор наук по специальности «Компьютерные науки» из Технического университета Tongji, доцент и научный руководитель магистрантов Университета сельского хозяйства и лесного хозяйства Zhejiang. Основные направления исследований: системы рекомендаций, обучение ранжированию, выпуклая оптимизация и другие области машинного обучения. Автор более 10 статей в журналах SCI, лауреат второй премии科技进步二等奖 (Премия за науку и технологию провинции Чжэцзян).

Дэнь Суньюй – заместитель главного редактораДоктор наук из Университета Тохоку, профессор и заведующий кафедрой автоматизации Инженерно-физического факультета Университета Сычуань, директор ключевого лабораторного центра информационных и автоматизированных технологий Сычуаньской провинции. Основные направления исследований: теория продвинутого управления и алгоритмы искусственного интеллекта, встраиваемые вычисления и реальные системы интеллекта, технологии интеллектуального восприятия и управления роботами и интеллектуального оборудования, измерения и контроль промышленных процессов и интеллектуальные сети вещей. За последние 5 лет возглавил более 30 исследовательских проектов, включая ключевые проекты по развитию страны, гранты и проекты Государственной сети, общая сумма финансирования которых превышает 220 миллионов юаней. Автор более 100 статей, из которых около 40 опубликованы в журналах SCI/EI, одна статья входит в список ESI высокоцитируемых статей. Участник написания трёх монографий (в том числе одной на английском языке) и учебного пособия для программы «Девять пятилетних планов».Ван Цзиньдун – приглашённый член редакционной коллегии

Доктор наук из Института вычислительной техники Китайской академии наук, исследователь в области машинного обучения в Microsoft Research Asia. Основные направления исследований: переносное обучение и машинное обучение. Автор более 20 статей в авторитетных международных журналах и конференциях, таких как IJCAI, CVPR, ICDM, UbiComp, ACM MM, PERCOM, IJCNN, PRICAI, IEEE TNNLS, NEUNET, PRL, PMCJ, IMWUT, IJMLC, ICME, ACM TIST, лауреат нескольких премий «Лучшая статья». Автор книги «Краткое руководство по переносному обучению».

Ван Чаофэн

Магистр Университета Шанхай, инженер-алгоритмист по компьютерному зрению компании Baidu, специализируется на изображении, глубоком обучении и других направлениях. Многократный победитель в национальных и международных соревнованиях по компьютерному зрению.

Гуо Сяочжун

Магистр Китайской академии наук, инженер-алгоритмист компании iQiyi, специализируется на изображении, глубоком обучении и других направлениях. Победитель в соревновании «2017 Huawei Software Elite Challenge».

Хуан Вэй

Магистр Университета Южного Китая, инженер-алгоритмист компании SF Express, специализируется на компьютерном зрении и обработке естественного языка. Автор статей в международных журналах и конференциях, победитель в национальных и международных соревнованиях. Амуси (Amusi)Магистр Шанхайского университета, основатель платформы CVer (платформа для обмена знаниями и обучения в области компьютерного зрения).

Лян Ванвэй

Магистр Военно-технического университета имени Дэн Сяopingа, старший алгоритмист компании Shanghai Hanwei Intelligent Medical Technology, член совместной лаборатории Южного национального университета и Hanwei Intelligent Medical, специализирующийся на исследованиях в области машинного зрения, изображения и глубокого обучения. Автор учебного пособия "Основы изображения в высшем образовании" для пятого пятилетнего плана. Автор статей в журналах IEEE TCSVT и COGN COMPUT. Обладатель премии за лучшую магистерскую работу в провинции Хунань и в армии.

Чень Лин

Студент-аспирант Школы авиации и ракетостроения Пекинского университета, специализируется на разработке интеллектуального управления и принятия решений для дронов, а также на биологически вдохновленных вычислениях.

Содержание

Глава 1. Математические основы 1

1.1 Векторы и матрицы 1

1.1.1 Скаляры, векторы, матрицы и тензоры 1

1.1.2 Различие между тензорами и матрицами 2

1.1.3 Результат умножения матрицы на вектор 2

1.1.4 Нормы векторов и матриц 2

1.1.5 Проверка положительной определенности матрицы 4

1.2 Производные и частные производные 5

1.2.1 Вычисление производных и частных производных 5#### 1.2.2 Различие между производными и частичными производными 6

1.3 Собственные значения и собственные векторы 6

1.3.1 Собственные значения и собственные векторы 6

1.3.2 Связь между сингулярными значениями и собственными значениями 6

1.4 Вероятностные распределения и случайные переменные 7

1.4.1 Почему в машинном обучении используют вероятности 7

1.4.2 Различие между переменными и случайными переменными 7

1.4.3 Связь между случайными переменными и вероятностными распределениями 8

1.4.4 Дискретные случайные переменные и функции массы вероятности 8

1.4.5 Непрерывные случайные переменные и функции плотности вероятности 8

1.4.6 Примеры понимания условной вероятности 9

1.4.7 Различие и связь между совместной и маргинальной вероятностью 9

1.4.8 Цепной закон условной вероятности 10

1.4.9 Независимость и условная независимость 10

1.5 Обычные вероятностные распределения 11

1.5.1 Распределение Бернулли 11

1.5.2 Нормальное распределение 11

1.5.3 Когда использовать нормальное распределение 12

1.5.4 Экспоненциальное распределение 12

1.5.5 Распределение Лапласа 13

1.5.6 Распределение Дирака и эмпирическое распределение 13

1.6 Ожидание, дисперсия, ковариация, коэффициент корреляции 13

1.6.1 Ожидание 13

1.6.2 Дисперсия 14#### 1.6.3 Ковариация 14

1.6.4 Коэффициент корреляции 15

Глава 2. Основы машинного обучения 16

2.1 Основные понятия 16

2.1.1 Основы машинного обучения 16

2.1.2 Что такое нейронные сети 16

2.1.3 Схемы различных алгоритмов 17

2.1.4 Вычисление производных в вычислительных графиках 17

2.1.5 Понимание локального и глобального оптимумов 18

2.1.6 Связь между большим объемом данных и глубоким обучением 19

2.2 Методы обучения машинного обучения 20

2.2.1 Надзорное обучение 20

2.2.2 Ненадзорное обучение 20

2.2.3 Полунадзорное обучение 20

2.2.4 Услабленное надзорное обучение 20

2.2.5 Шаги построения надзорных моделей обучения 21

2.3 Классификационные алгоритмы 22

2.3.1 Преимущества и недостатки часто используемых классификационных алгоритмов 22

2.3.2 Методы оценки классификационных алгоритмов 23

2.3.3 Может ли точность хорошо оценивать классификационные алгоритмы 25

2.3.4 Какой классификатор является лучшим 26

2.4 Логистическая регрессия 26

2.4.1 Виды регрессии 26

2.4.2 Пригодность логистической регрессии 27

2.4.3 Различия между логистической регрессией и наивным Байесом 27

2.4.4 Различия между линейной регрессией и логистической регрессией 27

2.5 Функции потерь 28

2.5.1 Почему нужны функции потерь 28

2.5.2 Принцип действия функций потерь 28

2.5.3 Обычные функции потерь 302.5.4 Почему функции потерь должны быть неотрицательными 31

2.5.5 Почему используется кросс-энтропия вместо квадратичной функции потерь 31

2.6 Функции потерь 32

2.6.1 Что такое функции потерь 32

2.6.2 Обычные функции потерь 32

2.6.3 Почему логистическая регрессия использует логарифмическую функцию потерь 34

2.6.4 Как логарифмическая функция потерь измеряет потери 34

2.7 Метод градиентного спуска 35

2.7.1 Цель метода градиентного спуска 36

2.7.2 Интуитивное понимание метода градиентного спуска 36

2.7.3 Описание алгоритма метода градиентного спуска 37

2.7.4 Недостатки метода градиентного спуска 38

2.7.5 Как оптимизировать метод градиентного спуска 38

2.7.6 Различия между стохастическим градиентным спуском и батч-градиентным спуском 38

2.7.7 Сравнение производительности различных методов градиентного спуска 40

2.8 Линейный дискриминантный анализ 40

2.8.1 Суммарное понимание идеи LDA 40

2.8.2 Иллюстрация основной идеи LDA 41

2.8.3 Алгоритм двухклассового LDA 41

2.8.4 Суммарное описание алгоритма LDA 42

2.8.5 Сходства и различия между LDA и PCA 43

2.8.6 Преимущества и недостатки LDA 43

2.9 Основной компонентный анализ 43

2.9.1 Иллюстрация основной идеи PCA 43

2.9.2 Рассуждение алгоритма PCA 44

2.9.3 Суммарное описание алгоритма PCA 45

2.9.4 Суммарное понимание идеи PCA 46

2.9.5 Преимущества и недостатки алгоритма PCA 462.9.6 Необходимость и цель уменьшения размерности 46

2.9.7 Различия между KPCA и PCA 47

2.10 Оценка моделей 47

2.10.1 Обычные методы оценки моделей 48

2.10.2 Различия и связи между ошибкой, смещением и разбросом 48

2.10.3 Почему используется стандартное отклонение 49

2.10.4 Эмпирическая ошибка и обобщающая ошибка 50

2.10.5 Иллюстрация недообучения и переобучения 50

2.10.6 Как решать проблемы недообучения и переобучения 52

2.10.7 Основные функции кросс-валидации 52

2.10.8 Понимание K-кратной кросс-валидации 53

2.10.9 Понимание матрицы путаницы 53

2.10.10 Понимание точности и полноты 53

2.10.11 Понимание ROC и AUC 54

2.10.12 Как строить кривую ROC 55

2.10.13 Как вычислять TPR и FPR 56

2.10.14 Как вычислять AUC 58

2.10.15 Интуитивное понимание AUC 58

2.10.16 Оценка классификаторов с помощью ROC 60

2.10.17 Стоимостно-чувствительная ошибка и кривая стоимости 60

2.10.18 Сравнительные методы проверки 61

2.11 Деревья решений 61

2.11.1 Основные принципы деревьев решений 62

2.11.2 Процесс генерации деревьев решений 62

2.11.3 Основные шаги алгоритма обучения деревьев решений 62

2.11.4 Преимущества и недостатки алгоритма деревьев решений 63

2.11.5 Связь между деревьями решений и энтропией 63

2.11.6 Концепция и определение энтропии 63

2.11.7 Понимание информации о приросте 64

2.11.8 Связь между энтропией, условной энтропией и информацией о приросте в деревьях решений 642.11.9 Роль и стратегии обрезки в алгоритме деревьев решений 65

2.12 Метод опорных векторов (SVM) 65

2.12.1 Что такое SVM 65

2.12.2 Проблемы, которые может решить SVM 66

2.12.3 Характеристики и роль ядерных функций 67

2.12.4 Почему в SVM вводится двойственная задача 67

2.12.5 Понимание двойственной задачи в SVM 67

2.12.6 Обычные ядерные функции 69

2.12.7 Основные характеристики SVM 69

2.12.8 Основные недостатки SVM 70

2.12.9 Сходства и различия между логистической регрессией и SVM 70

2.13 Байесовские классификаторы 72

2.13.1 Основные принципы байесовских классификаторов 72

2.13.2 Навесной байесовский классификатор 72

2.13.3 Примеры понимания навесного байесовского классификатора 73

2.13.4 Полунавесной байесовский классификатор 75

2.13.5 Связь и различия между максимальной правдоподобной оценкой и байесовской оценкой 75

2.13.6 Принцип максимальной правдоподобной оценки 76

2.13.7 Графическое представление максимальной правдоподобной оценки 76

2.14 Алгоритм EM 77

2.14.1 Основные идеи алгоритма EM 77

2.14.2 Деривация алгоритма EM 77

2.14.3 Графическое представление алгоритма EM 78

2.14.4 Поток работы алгоритма EM 79

2.15 Уменьшение размерности и кластеризация 79

2.15.1 Графическое представление причины возникновения проблемы избыточной размерности 79

2.15.2 Как избежать проблемы избыточной размерности 83

2.15.3 Кластеризация и уменьшение размерности 832.15.4 Метрики для оценки преимуществ и недостатков кластеризационных алгоритмов 84

2.15.5 Кластеризация и классификация 85

2.15.6 Сравнение производительности кластеризационных алгоритмов 85

2.15.7 Сравнение четырех распространенных методов кластеризации 85

Глава 3 Основы глубокого обучения 89

3.1 Основные понятия 89

3.1.1 Типы нейронных сетей 89

3.1.2 Обычные модели структуры нейронных сетей 92

3.1.3 Различия и связи между глубоким обучением и машинным обучением 93

3.1.4 Почему используются глубокие представления 93

3.1.5 Классификация архитектур глубокого обучения 94

3.1.6 Как выбрать платформу разработки глубокого обучения 94

3.2 Вычисления в нейронных сетях 95

3.2.1 Прямое распространение и обратное распространение 95

3.2.2 Как вычисляется выход нейронной сети 96

3.2.3 Как вычисляется выходное значение сверточной нейронной сети 97

3.2.4 Как вычисляется выходное значение слоя пулинга 100

3.2.5 Пример обратного распространения 101

3.2.6 Значение глубины в нейронных сетях 104

3.3 Активационные функции 104

3.3.1 Почему нужны активационные функции 104

3.3.2 Почему активационные функции должны быть нелинейными 105

3.3.3 Обычные активационные функции и их графики 105

3.3.4 Вычисление производных для часто используемых активационных функций 107

3.3.5 Какие свойства имеют активационные функции 1083.3.6 Как выбрать активационную функцию 108

3.3.7 Почему tanh сходится быстрее, чем sigmoid 109

3.3.8 Преимущества активационной функции ReLU 109

3.3.9 Понимание редкого активного состояния функции ReLU 109

3.3.10 Когда можно использовать линейную активационную функцию 109

3.3.11 Определение и роль функции softmax 110

3.3.12 Применение функции softmax к многоклассовой классификации 110

3.4 Параметр батча 112

3.4.1 Почему нужен параметр батча 112

3.4.2 Как выбрать значение параметра батча 112

3.4.3 Влияние регулировки параметра батча на результат обучения 113

3.4.4 Преимущества увеличения параметра батча в разумных пределах 113

3.4.5 Недостатки необоснованного увеличения параметра батча 114

3.5 Нормализация 114

3.5.1 Понимание смысла нормализации 114

3.5.2 Связь и различие между нормализацией и стандартизацией 114

3.5.3 Почему нужна нормализация или стандартизация 115

3.5.4 Иллюстрация необходимости нормализации 115

3.5.5 Почему нормализация ускоряет поиск оптимального решения 115

3.5.6 Какие типы нормализации существуют 116

3.5.7 Зачем нужна локальная нормализация отклика 116

3.5.8 Принцип локальной нормализации отклика 117

3.5.9 Что такое нормализация по батчу 118

3.5.10 Преимущества нормализации по батчу 118

3.5.11 Алгоритм нормализации по батчу 118

3.5.12 Сравнение нормализации по батчу и групповой нормализации 1193.5.13 Сравнение нормализации весов и нормализации по батчу 119

3.5.14 Применение нормализации по батчу 120

3.5.15 Сравнение BN, LN, IN и GN 120

3.6 ИНИЦИАЛИЗАЦИЯ ПАРАМЕТРОВ 121

3.6.1 Условия для инициализации параметров 121

3.6.2 Некоторые распространенные методы инициализации 121

3.6.3 Проблемы, возникающие при инициализации нулями 121

3.6.4 Инициализация всех параметров одинаковым значением 122

3.6.5 Инициализация небольшими случайными числами 123

3.6.6 Использование калибровки дисперсии 123

3.7 ПРЕДВОССТАНОВЛЕНИЕ И МИКРОНАЖ 123

3.7.1 Что такое предвосстановление и микронаж 123

3.7.2 Зачем нужны предвосстановление и микронаж 124

3.7.3 Передача предвосстановленной модели 124

3.7.4 Предвосстановление и перенос обучения 125

3.7.5 Обновляются ли параметры сети при микронаже 125

3.7.6 Три состояния микронаженной модели 125

3.7.7 Почему глубокие нейронные сети трудно обучить 125

3.8 СУПЕРПАРАМЕТРЫ 127

3.8.1 Какие суперпараметры существуют 127

3.8.2 Связь между параметрами и моделью 127

3.8.3 Различие между параметрами и суперпараметрами 127

3.8.4 Как найти оптимальное значение суперпараметров 128

3.8.5 Общий процесс поиска суперпараметров 128

3.9 СКОРОСТЬ ОБУЧЕНИЯ 129

3.9.1 Зачем нужна скорость обучения 129

3.9.2 Обычные параметры затухания скорости обучения 129

3.9.3 Некоторые распространенные методы затухания скорости обучения 1293.10 РЕГУЛЯРИЗАЦИЯ 133

3.10.1 Зачем нужна регуляризация 133

3.10.2 Общие методы регуляризации 133

3.10.3 Графическое объяснение L1 и L2 регуляризации 134

3.10.4 Конкретный механизм работы Dropout 135

3.10.5 Почему Dropout может решать проблему переобучения 137

3.10.6 Недостатки Dropout