Примеры практического применения

Примеры практического применения.

Х. Бринк, Д. Ричардс, М. Феверолф «Машинное обучение» Питер, 2017 год, 336 стр. (60,9 мб. pdf)

Книга знакомит с последовательностью действий при машинном обучении, техникой масштабирования моделей и извлечения характерных признаков из текста, изображений, статистических данных (временных рядов). Она разделена на две части: первая — это введение в ML (Machine Learning), моделирование, прогнозирование и основы проектирования признаков в машинном обучении, вторая — примеры практического применения моделей машинного обучения. Каждый этап создания и использования моделей машинного обучения иллюстрируется примерами, различной сложности. При этом используется язык программирования Python, а также библиотеки pandas и scikit-learn. Книга адресована программистам и аналитикам работающим над решением реальных практических задач. ISBN: 978-5-496-02989-6

Оглавление книги

Содержание.

Часть 1. Последовательность действий при машинном обучении

Глава 1. Что такое машинное обучение? 24

1.1. Как обучаются машины 25
1.2. Принятие решений на основе данных 30
1.2.1. Традиционные подходы 32
1.2.2. Подх од с машинным обучением 36
1.2.3. Пять преимуществ машинного обучения 42
1.2.4. Сложности 43
1.3. Рабочий процесс: от данных до внедрения 44
1.3.1. Сбор и подготовка данных 45
1.3.2. Обучение модели на данных 46
1.3.3. Оценка производительности модели 49
1.3.4. Оптимизация производительности модели 50
1.4. Усовершенствованные способы повышения эффективности 51
1.4. 1. Предварительная обработка данных и проектирование признаков 51
1.4.2. Непрерывное совершенствование моделей 54
1.4.3. Масштабирование моделей 54
1.5. Заключение 55
1. 6. Терминология 56

Глава 2. Реальные данные 57

2.1. Первый этап: сбор данных 59
2.1.1. Определяем набор входных признаков 62
2.1.2. Наблюдаемое значение целевой переменной 64
2.1.3. Достаточный объем обучающих данных 65
2.1.4. Репрезентативность обучающей выборки 68
2.2. Подготовка данных к моделированию 69
2.2.1. Категориальные признаки 70
2.2.2. Отсутствующие данные 73
2.2.3. Основы проектирования признаков 76
2.2.4. Нормализация данных 78
2.3. Визуализация данных 80
2.3.1. Мозаичные диаграммы 81
2.3.2. Диаграммы размаха 83
2.3.3. Графики плотности 86
2.3.4. Диаграммы рассеяния 88
2.4. Заключение 89
2.5. Терминология 90

Глава 3. Моделирование и прогнозирование 91

3.1. Основы моделирования с машинным обучением 92
3.1.1. Поиск связи между входными данными и целевой переменной 93
3.1.2. Зачем нужна хорошая модель 95
3.1.3. Типы методов моделирования 97
3.1. 4. Обучение с учителем и без 100
3.2. Классификация: распределение по классам 101
3.2.1. Построение классификатора и получение предсказаний 103
3.2.2. Классификация сложных нелинейных данных 108
3.2.З. Классификация в случае множества классов 111
3.3. Регрессия: предсказание численных значений 113
3.3.1. Построение регрессора и генерация прогнозов 115
3.3.2. Регрессия для сложных нелинейных данных 119
3. 4. Заключение 121
3. 5. Терминология 122

Глава 4. Оценка и оптимизация модели 123

4.1. Оценка прогностической точности на новых данных 125
4.1.1. Проблема: переобучение и чрезмерно оптимистическая оценка модели 125
4.1.2. Решение: скользящий контроль 129
4.1.3. На что следует обращать внимание при перекрестной проверке 134
4.2. Оценка моделей классификации 135
4.2.1. Точность для отдельных классов и таблица сопряженности 138
4.2.2. Компромиссы при оценке точности и RОС-кривые 140
4.2.3. Многоклассовая класси ф икация 144
4.3. Оценка моделей регрессии 147
4.3.1. Простые показатели эффективности регрессионных моделей 148
4.3.2. Исследование остатков 150
4.4. Оптимизация модели путем подбора параметров 152
4. 4.1. Параметры настройки МL-алгоритмов 152
4. 4.2. Сеточный поиск 154
4.5. Заключение 158
4. 6. Терминология 159

Глава 5. Основы проектирования признаков 161

5.1. Мотивация: в чем польза проектирования признаков? 162
5.1.1. Что такое проектирование признаков? 162
5.1.2. Пять причин проектирования признаков 163
5.1.3. Проектирование признаков и знание предметной области 165
5.2. Основные этапы проектирования признаков 166
5.2.1. Пример: рекомендация события 167
5.2.2. Обработка даты и времени 170
5.2.3. Извлечение признаков из обычного текста 172
5.3. Выбор признаков 174
5.3.1. Прямой отбор и обратное исключение 178
5.3.2. Отбор признаков для ис следования данных 180
5.3.3. Практический пример отбора признаков 181
5.4. Заключение 184
5.5. Терминология 186

Часть II. Практическое применение

Глава 6. Пример: чаевые для таксистов 188

6.1. Данные: сведения о чаевых и плате за проезд 189
6.1.1. Визуализация данных 190
6.1.2. Формулировка задачи и подготовка данных 194
6.2. Моделирование 197
6.2.1. Базовая линейная модель 197
6.2.2. Нелинейный классификатор 199
6.2.3. Добавление категориальных признаков 202
6.2. 4. Добавление временных признаков 203
6.2.5. Аналитическая оценка модели 205
6.3. Заключение 206
6.4. Терминология 207

Глава 7. Усовершенствованное проектирование признаков 208

7.1. Более сложные текстовые признаки 209
7.1.1. Модель «мешок слов» 209
7.1.2. Тематическое моделирование 213
7.1.3. Расширение содержимого 217
7.2. Признаки, извлекаемые из изображений 219
7.2.1. Простые признаки 220
7.2.2. Извлечение объектов и форм 222
7.3. Признаки временных рядов 228
7.3.1. Типы временных рядов 228
7.3.2. Предсказания на основе временных рядов 231
7.3.3. Признаки классических временных рядов 232
7.3.4. Проектирование признаков для потоков событий 238
7.4. Заключение 2З9
7.5. Терминология 241

Глава 8. Пример обработки естественного языка 243

8.1. Изучение данных и сценарии их применения 244
8.1.1. Первый взгляд на набор данных 245
8.1.2. Анализ набора данных 246
8.1.З. Так какой же будет наша задача? 247
8.2. Генерация базовых NLР-признаков и построение первого варианта модели 252
8.2.1. Признаки из «мешка слов» 253
8.2.2. Модель на базе наивного байесовского классификатора 255
8.2.3. Нормализация признаков, полученных из «мешка слов», алгоритмом tf-i 260
8.2.4. Оптимизация параметров модели 262
8.3. Усовершенствованные алгоритмы и тонкости процесса внедрения 267
8.3.1. Wогd2vес-признаки 268
8.3.2. Модель на базе алгоритма «случайный лес» 270
8.4. Заключение 273
8.5. Терминология 274

Глава 9. Масштабирование процесса машинного обучения 275

9.1. Перед началом масштабирования 276
9.1.1. Определяем важные аспекты 277
9.1.2. Прореживание обучающей выборки вместо масштабирования? 280
9.1.3. Масштабируемые системы управления данными 282
9.2. Масштабирование конвейера МL-моделирования 285
9.2.1. Масштабирование обучающих алгоритмов 286
9.3. Масштабирование предсказаний 291
9.3.1. Масштабирование объема предсказаний 292
9.3.2. Масштабирование скорости предсказаний 293
9.4. Заключение 296
9.5. Терминология 298

Глава 10. Пример с цифровой рекламой 300

10.1. Показ рекламы 302
10.2. Данные, связанные с цифровой рекламой 303
10.3. Проектирование признаков и стратегия моделирования 304
10.4. Размер и форма данных 306
10.5. Сингулярное разложение 309
10.6. Оценка и оптимизация ресурсов 312
10.7. Моделирование 314
10.8. Метод k-ближайших соседей 315
10.9. «Случайные леса» 318
10.10. Другие практические моменты 319
10.11. Заключение 321
10.12. Терминология 322
10.13. Подводим итоги 323

Приложение.

Популярные алгоритмы машинного обучения 326

Скачать техническую литературу бесплатно60,9 мб. pdf

Похожая литература