Поделиться

Обработка больших данных с Apache Spark

Учебно-методическое пособие.

Бутаков Н. А., Петров М. В., Насонов Д. «Обработка больших данных с Apache Spark» Университет ИТМО, 2019 год, 50 стр.,(PDF-DJVU)

ОписаниеСодержаниеLinks

Apache Spark — фреймворк с открытым исходным кодом для анализа и обработки больших данных.

Это учебно-методическое пособие содержит теоретический материал и примеры выполнения задач для курса «Введение в технологии обработки больших данных». Пособие составлено с учётом проведения лабораторных работ с помощью фреймворка Apache Spark.

Содержание дисциплины охватывает круг вопросов, связанных с организацией построения ETL-конвейеров на основе Spark SQL и DataFrame API для распределенного выполнения на кластерных вычислительных система, включая использование итеративных вычислений, важных для машинного обучения, рассмотрения shuffle механизмов и принципов организации управлением памятью в Spark.

В результате освоения дисциплины студенты приобретают способности разработки программ и построения конвейеров обработки различных данных, навыки по работе с распределенными кластерными системами, а также способности к применению машинного обучения на распределенных наборах данных.

Университет ИТМО – ведущий вуз России в области информационных и фотонных технологий, один из немногих российских вузов, получивших в 2009 году статус национального исследовательского университета.

С 2013 года Университет ИТМО – участник программы повышения конкурентоспособности российских университетов среди ведущих мировых научно-образовательных центров, известной как проект «5 в 100». Цель Университета ИТМО – становление исследовательского университета мирового уровня, предпринимательского по типу, ориентированного на интернационализацию всех направлений деятельности.

Apache Spark

Краткое оглавление

1. Архитектура распределенного приложения Spark
2. Основные концепции Spark
2.1 RDD и граф преобразований
2.2 Основные этапы обработки данных
2.3 Загрузка данных из внешнего хранилища
2.4 Изменение размещения данных и количества партиций
2.5 Как происходит вычисление над данными в Spark
2.6 Ветвление и итеративные вычисления
2.7. Shuffle механизм
2.8 Управление памятью в Apache Spark
3. DataFrame API и Spark SQL
3.1 Датафреймы
3.2 Начало работы с DataFrame API: SparkSession
3.3 Использование пользовательских функций (UDF)
3.4 Пользовательские функции агрегации
4. Создание, настройка и запуск Spark проекта
4.1 Настройка окружения
4.2 Создание нового проекта
4.3 Запуск Scala проекта в Intellij Idea
4.4 Первое Spark приложение
Заключение
Список литературы

Обработка больших данных при помощи Apache Spark

Обработка больших данных с Apache Spark (PDF-DJVU)


Поделиться