Поделиться

Site Reliability Engineering

Сборник статей.

Б. Бейер, К. Джоунс, Д. Петофф, Н. Ричард Мёрфи «Site Reliability Engineering. Надежность и безотказность как в Google» Питер, 2019 год, 592 стр.,O’Reilly, ISBN 978-5-4461-0976-0; (PDF)

Описание Содержание Links

Описание книги.

Вот уже почти 20 лет компания Google обеспечивает работу невообразимо сложных и масштабных систем, которые чутко реагируют на запросы пользователей. Поисковик Google находит ответ на любые вопросы за доли секунды, карты Google с высочайшей точностью отражают земной ландшафт, а почта Google доступна в режиме 365/24/7 и, в сущности, стала первым общедоступным облачным хранилищем. Неужели эти системы безупречны? Нет, они тоже отказывают, ломаются и устаревают, как любая техника.

Просто мы этого не замечаем. Все дело в том, что уже более десяти лет Google нарабатывает уникальную технологию Site Reliability Engineering, обеспечивающую бесперебойную работу и поступательное развитие софтверных систем любой сложности. Эта книга — кладезь опыта, накопленного компанией Google за долгие годы, коллективный труд многих выдающихся специалистов и незаменимый ресурс для любого инженера, желающего разрабатывать и поддерживать любые продукты максимально качественно и эффективно.

Краткое оглавление

Оглавление.

  • Часть I. Введение
    Глава 1. Вступление
    Глава 2. Среда промышленной эксплуатации Google с точки зрения SRE
  • Часть II. Принципы
    Глава 3. Приручаем риски
    Глава 4. Целевой уровень качества обслуживания
    Глава 5. Избавляемся от рутины
    Глава 6. Мониторинг распределенных систем
    Глава 7. Эволюция автоматизации в Google
    Глава 8. Технологии выпуска ПО
    Глава 9. Простота
  • Часть III. Практики
    Глава 10. Оповещения на основании данных временных рядов
    Глава 11. Быть на связи
    Глава 12. Эффективная диагностика и решение проблем
    Глава 13. Реагирование в критических ситуациях
    Глава 14. Управление в критических ситуациях
    Глава 15. Культура постмортема: учимся на ошибках
    Глава 17. Тестирование надежности систем
    Глава 18. Разработка ПО службой SRE
    Глава 19. Балансировка нагрузки на уровне фронтенда
    Глава 20. Балансировка нагрузки в дата-центре
    Глава 21. Справляемся с перегрузками
    Глава 22. Справляемся с каскадными сбоями
    Глава 23. Разрешение конфликтов: консенсус в распределенных системах и обеспечение надежности
    Глава 24. Cron: планирование и расписание в распределенных системах
    Глава 25. Конвейеры обработки данных
    Глава 26. Сохранность данных: как пишется, так и читается
    Глава 27. Надежный масштабируемый выпуск продукта
  • Часть IV. Управление
    Глава 28. Ускоренное обучение SR-инженеров для работы на дежурствах и не только
    Глава 29. Справляемся с отвлекающими факторами и прерываниями
    Глава 30. Добавляем в команду нового SR-инженера, чтобы предотвратить операционную перегрузку
    Глава 31. Общение и взаимодействие в службе SRE
    Глава 32. Развитие модели вовлеченности SR-инженеров
  • Часть V. Выводы
    Глава 33. Полезные уроки из других отраслей
    Глава 34. Заключение
  • Приложения
    Приложение А. Таблица доступности
    Приложение Б. Практические рекомендации для сервисов в промышленной эксплуатации
    Приложение В. Пример документа о происшествиях
    Приложение Г. Пример постмортема
    Приложение Д. Список действий для координации запуска
    Приложение Е. Пример протокола рабочего совещания

Как получить работу в Google

 

PDF (RU)         pdf (ru)

key             JJXwUFW1rR0-snsWSZhaX2QWHqE1YoSYMw36z3M2Aqg

https://www.htbook.ru/wp-content/uploads/2019/12/site-reliability-engineering-e1577547054483.jpghttps://www.htbook.ru/wp-content/uploads/2019/12/site-reliability-engineering-e1577547054483.jpgДругаяПрограммирование,профессииСборник статей. Б. Бейер, К. Джоунс, Д. Петофф, Н. Ричард Мёрфи 'Site Reliability Engineering. Надежность и безотказность как в Google' Питер, 2019 год, 592 стр.,O’Reilly, ISBN 978-5-4461-0976-0; (PDF)Библиотека технической тематики. Техническая литература
Поделиться