Много цифр. Анализ больших данных при помощи Excel - 2016

Практическое руководство для аналитика.

Джон Форман "Много цифр. Анализ больших данных при помощи Excel" Альпина Паблишер, 2016 год, 461 стр. (66,4 мб. pdf)

Книга рассказывает о использовании методики и техники анализа данных, самого разного статистического характера. Автор покажет, как можно построить систему эффективного анализа данных при помощи знакомого многим офисного приложения - Excel. И совсем не важно какова величина массива анализируемых данных. Технологии и методики, представленные в этом руководстве, пригодятся как владельцу небольшого интернет-магазина, так и для анализа работы крупной торговой компании.

Вы перестанете теряться в большом массиве данных, увидите и выделите из этого статистического объема, нужную вам информацию. Сможете сопоставлять все совокупности необходимой цифровой информации, выводя её в предпочтения ваших клиентов, что бы предлагать им новые продукты и услуги. Выводы сделанные на основе статистического анализа больших данных смогут эффективно оптимизировать денежные потоки и улучшить работу складского хозяйства.

Одним словом применяя методику аналитики при помощи Excel, можно существенно повысить эффективность работы любой организации. Книга будет полезна маркетологам, бизнес-аналитикам, студентам экономических факультетов ВУЗов, изучающим прикладную аналитику в Excel.
ISBN 978-5-9614-5032-3
Оглавление книги.

1 Все, что вы жаждали знать об электронных таблицах, но боялись спросить 21
Немного данных для примера 22
Быстрый просмотр с помощью кнопок управления 23
Быстрое копирование формул и данных 24
Форматирование ячеек 25
Специальная вставка 27
Вставка диаграмм 28
Расположение меню поиска и замены 29
Формулы поиска и вывода величины 30
Использование VLOOKUP/ВПР для объединения данных 32
Фильтрация и сортировка 33
Использование сводных таблиц 37
Использование формул массива 40
Решение задач с помощью "Поиска решения" 41
ОрепБоКгег: хотелось бы обойтись без него, но это невозможно 46
Подытожим 47

2 Кластерный анализ, часть I: использование метода к-средних для сегментирования вашей клиентской базы 49
Девочки танцуют с девочками, парни чешут в затылке 51
Реальная жизнь: кластеризация методом к-средних в электронном маркетинге 56
Оптовая Винная Империя Джоуи Бэг О'Донатса 56
Исходный набор данных 57
Определяем предмет измерений 58
Начнем с четырех кластеров 61
Евклидово расстояние: измерение расстояний напрямик 62
Расстояния и принадлежность к кластеру для всех 65
Поиск решений для кластерных центров 67
Смысл полученных результатов 70
Рейтинг сделок кластерным методом 71
Силуэт: хороший способ позволить разным значениям к посостязаться 75
Как насчет пяти кластеров? 82
Поиск решения для пяти кластеров 83
Рейтинг сделок для всех пяти кластеров 84
Вычисление силуэта кластеризации по пяти средним 87
К-медианная кластеризация и асимметрическое измерение расстояний 89
Использование k-медианной кластеризации 89
Переходим к соответствующему измерению расстояний 90
А теперь все то же самое, но в Excel 92
Рейтинг сделок для 5-медианных кластеров 94
Подытожим 98

3 Наивный байесовский классификатор и неописуемая легкость бытия идиотом 101
Называя продукт Mandrill, ждите помех вместе с сигналами 101
Самое быстрое в мире введение в теорию вероятности 104
Суммируем условную вероятность 104
Совместная вероятность, цепное правило и независимость 105
Что же с зависимыми событиями 106
Правило Байеса 107
Использование правила Байеса для создания моделирования 108
Высококлассные вероятности часто считаются равными 110
Еще немного деталей классификатора 111
Да начнется Excel-вечеринка 113
Убираем лишнюю пунктуацию 113
Разное о пробелах 114
Подсчет жетонов и вычисление вероятностей 118
У нас есть модель! Воспользуемся ею 121
Подытожим 127

4 Оптимизационное моделирование: этот «свежевыжатый апельсиновый сок» не смешает себя сам 129
Зачем ученым, работающим с данными, нужна оптимизация? 130
Начнем с простого компромисса 131
Представим проблему в виде политопа 132
Решение путем сдвигания линии уровня функции Симплекс-метод: все по углам 135
Работа в Excel 137
Монстр в конце главы 147
Свежий, из сада — прямо в стакан... с небольшой остановкой на модель смешивания 148
Вы используете модель для смешивания 149
Начнем с характеристик 150
Возвращаемся к консистенции 151
Вводим данные в Excel 152
Постановка задачи «Поиску решения» 155
Снижаем стандарты 158
Удаление дохлых белок: правило минимакс 161
«Если... то» и ограничение «Большого М» 164
Еще больше переменных: добьем до 11 167
Моделируем риски 175
Нормальное распределение данных 176
Подытожим 184

5 Кластерный анализ, часть II: сетевые графы и определение сообществ 187
Что такое сетевой граф 188
Визуализируем простой граф 189
Краткое введение в Gephi 192
Установка Gephi и подготовка файлов 192
Визуализация графа 194
Степень вершины 197
Приятная картинка 200
Прикосновение к данным графа 200
Строим граф из данных об оптовой торговле вином 202
Создание матрицы близости косинусов 204
Построение графа 1М-соседства 207
Числовое значение ребра: очки и штрафные в модулярности графа 212
Кто же такие «очки» и «штрафные»? 212
Подготовка к итоговому подсчету 216
Переходим к кластеризации 219
Деление 1 219
Деление 2: электролатино 225
И... деление 3: возмездие 227
Кодируем и анализируем группы 228
Туда и обратно: история Gephi 233
Подытожим 238

6 Бабушка контролируемого искусственного интеллекта — регрессия 241
Погоди, ты что — беременна? 241
Не обольщайтесь 242
Определение беременных покупателей РитейлМарта с помощью линейной регрессии 243
Набор отличительных признаков 244
Сборка обучающих данных 245
Создание фиктивных переменных 247
Мы сделаем свою собственную линейную регрессию 250
Статистика линейной регрессии: (?-квадрат, критерии Фишера и Стьюдента 259
Делаем прогнозы на основании новых данных и измеряем результат 270
Предсказание беременных покупателей РитейлМарта с помощью логистической регрессии 281
Первое, что нам нужно — это функция связи 281
Присоединение логистической функции и реоптимизация 282
Создание настоящей логистической регрессии 286
Выбор модели: сравнение работы линейной и логистической регрессий 287
Дополнительная информация 291
Подытожим 292

7 Комплексные модели: огромная куча ужасной пиццы 293
Используем данные из главы 6 294
Бэггинг: перемешать, обучить, повторить 296
Одноуровневое дерево решений — неудачное название «неумного» определителя 296
А мне не кажется, что это глупо 297
Нужно еще сильнее! 300
Обучим же ее! 300
Оценка бэггинговой модели 310
Бустинг: если сразу не получилось, бустингуйте и пробуйте снова 315
Обучаем модель: каждому признаку — шанс 315
Оценка модели бустинга 324
Подытожим 327

8 Прогнозирование: дышите ровно, выиграть невозможно 329
Торговля мечами начата 330
Знакомство с временной последовательностью данных 331
Медленный старт с простым экспоненциальным сглаживанием 333
Настраиваем прогноз простого экспоненциального сглаживания 335
Возможно, у вас есть тренд 341
Экспоненциальное сглаживание Холта с корректировкой тренда 344
Настройкахолтовского сглаживания с коррекцией тренда в электронной таблице 346
Мультипликативное экспоненциальное сглаживание Холта-Винтерса 360
Установка исходных значений уровня, тренда и сезонности 362
Приступим к прогнозу 367
И наконец... оптимизация! 372
Пожалуйста, скажите, что это все!!! 373
Создаем интервал прогнозирования вокруг прогноза 374
И диаграмма с областями для пущего эффекта 378
Подытожим 381

9 Определение выбросов: выделяющиеся не значит важные 383
Выбросы тоже (плохие?) люди 384
Захватывающее дело Хадлум против Хадлум 384
Границы Тьюки 386
Применение границ Тьюки в таблице 386
Ограничения этого нехитрого метода 388
Ни в чем не ужасен, плох во всем 390
Подготовка данных к отображению на графе 391
Создаем граф 394
Вычисляем к ближайших соседей 397
Определение выбросов на графе, метод 1: полустепень захода 398
Определение выбросов на графе, метод 2: нюансы к-расстояния 401
Определение выбросов на графе, метод 3: факторы локальных выбросов — это то, что надо 403
Подытожим 409

10 Переходим от таблиц к программированию 411
Налаживаем контакт с I? 412
Пошевелим пальцами 413
Чтение данных в I? 421
Настоящая научная работа с данными 423
Сферическое к-среднее винных данных в нескольких линиях 423
Построение моделей ИИ для данных о беременных 430
Прогнозирование в I? 439
Определение выбросов 443
Подытожим 448
Заключение 451
Скачать книгу бесплатно66,4 мб. pdf