Эффективный Spark. Масштабирование и оптимизация
Практическое руководство.
Рейчел Уоррен, Холден Карау «Эффективный Spark. Масштабирование и оптимизация» Питер, 2018 год, 352 стр., O’Reilly, ISBN: 978-5-4461-0705-6; (PDF-DJVU)
Описание книги.
Книга предназначена для тех, кто уже пользовался Spark, и может оказаться не вполне понятной тем, кто до сих пор мало работал с этим фреймворком или с распределенными вычислениями либо вообще не имел с ними дела. Если у вас уже есть положительный опыт использования Spark для решения небольших задач, но вы по-прежнему ломаете голову – где та самая непревзойденная производительность Spark, позволяющая перемалывать колоссальные объемы данных – то эта книга для вас. Она расскажет, как эффективно использовать Spark для укрощения больших данных и вырасти из новичка в специалиста. Идеально подходит для программистов, инженеров по работе с данными, системных администраторов, обслуживающих крупномасштабные приложения, а также тем, кому важна оптимизация часто повторяемых запросов в эксплуатационной среде.
Оглавление.
Глава 1. Введение в эффективный Spark
Глава 2. Как работает Spark
Глава 3. Наборы DataFrame/Dataset и Spark SQL
Глава 4. Соединения (SQL и Core)
Глава 5. Эффективные преобразования
Глава 6. Работа с данными типа «ключ — значение»
Глава 7. Выходим за рамки Scala
Глава 8. Тестирование и валидация
Глава 9. Spark MLlib и ML
Глава 10. Компоненты и пакеты фреймворка Spark
Приложение. Тонкая настройка, отладка и другие аспекты, обычно игнорируемые разработчиками