Site Reliability Engineering
Сборник статей.
Б. Бейер, К. Джоунс, Д. Петофф, Н. Ричард Мёрфи «Site Reliability Engineering. Надежность и безотказность как в Google» Питер, 2019 год, 592 стр.,O’Reilly, ISBN 978-5-4461-0976-0; (PDF)
Описание книги.
Вот уже почти 20 лет компания Google обеспечивает работу невообразимо сложных и масштабных систем, которые чутко реагируют на запросы пользователей. Поисковик Google находит ответ на любые вопросы за доли секунды, карты Google с высочайшей точностью отражают земной ландшафт, а почта Google доступна в режиме 365/24/7 и, в сущности, стала первым общедоступным облачным хранилищем. Неужели эти системы безупречны? Нет, они тоже отказывают, ломаются и устаревают, как любая техника.
Просто мы этого не замечаем. Все дело в том, что уже более десяти лет Google нарабатывает уникальную технологию Site Reliability Engineering, обеспечивающую бесперебойную работу и поступательное развитие софтверных систем любой сложности. Эта книга — кладезь опыта, накопленного компанией Google за долгие годы, коллективный труд многих выдающихся специалистов и незаменимый ресурс для любого инженера, желающего разрабатывать и поддерживать любые продукты максимально качественно и эффективно.
Оглавление.
- Часть I. Введение
Глава 1. Вступление
Глава 2. Среда промышленной эксплуатации Google с точки зрения SRE - Часть II. Принципы
Глава 3. Приручаем риски
Глава 4. Целевой уровень качества обслуживания
Глава 5. Избавляемся от рутины
Глава 6. Мониторинг распределенных систем
Глава 7. Эволюция автоматизации в Google
Глава 8. Технологии выпуска ПО
Глава 9. Простота - Часть III. Практики
Глава 10. Оповещения на основании данных временных рядов
Глава 11. Быть на связи
Глава 12. Эффективная диагностика и решение проблем
Глава 13. Реагирование в критических ситуациях
Глава 14. Управление в критических ситуациях
Глава 15. Культура постмортема: учимся на ошибках
Глава 17. Тестирование надежности систем
Глава 18. Разработка ПО службой SRE
Глава 19. Балансировка нагрузки на уровне фронтенда
Глава 20. Балансировка нагрузки в дата-центре
Глава 21. Справляемся с перегрузками
Глава 22. Справляемся с каскадными сбоями
Глава 23. Разрешение конфликтов: консенсус в распределенных системах и обеспечение надежности
Глава 24. Cron: планирование и расписание в распределенных системах
Глава 25. Конвейеры обработки данных
Глава 26. Сохранность данных: как пишется, так и читается
Глава 27. Надежный масштабируемый выпуск продукта - Часть IV. Управление
Глава 28. Ускоренное обучение SR-инженеров для работы на дежурствах и не только
Глава 29. Справляемся с отвлекающими факторами и прерываниями
Глава 30. Добавляем в команду нового SR-инженера, чтобы предотвратить операционную перегрузку
Глава 31. Общение и взаимодействие в службе SRE
Глава 32. Развитие модели вовлеченности SR-инженеров - Часть V. Выводы
Глава 33. Полезные уроки из других отраслей
Глава 34. Заключение - Приложения
Приложение А. Таблица доступности
Приложение Б. Практические рекомендации для сервисов в промышленной эксплуатации
Приложение В. Пример документа о происшествиях
Приложение Г. Пример постмортема
Приложение Д. Список действий для координации запуска
Приложение Е. Пример протокола рабочего совещания
Добавить комментарий