Современный скрапинг веб-сайтов с помощью Python
Практическое руководство.
Райан Митчел «Современный скрапинг веб-сайтов с помощью Python» Питер, 2021 год, 2-е межд. изд. ISBN 978-5-4461-1693-5; (PDF-DJVU-Code)
Описание книги.
Теоретически веб-скрапинг — это сбор данных с использованием любых средств, за исключением программ, взаимодействующих с API. На практике веб-скрапинг включает в себя широкий спектр методов и технологий программирования, таких как анализ данных, синтаксический анализ естественных языков и информационная безопасность.
Данная книга — не только начальное пособие по веб-скрапингу, но и всеобъемлющее руководство по сбору, преобразованию и использованию данных из несовместимых источников. Однако, несмотря на то что здесь применяется язык программирования Python и изложены многие его основы, книгу не следует использовать для знакомства с этим языком. В части I подробно рассматриваются веб-скрапинг и веб-краулинг. В части II раскрыты дополнительные темы, также полезные при написании веб-скраперов. Для программистов, Web разработчиков и специалистов по информационной безопасности.
Оглавление.
Часть I. Разработка веб-скраперов
Глава 1. Ваш первый веб-скрапер
Глава 2. Углубленный синтаксический анализ HTML-кода
Глава 3. Разработка исб-краулеров
Глава 4. Модели веб-краулинга
Глава 5. Scrapy
Глава 6. Хранение данных
Часть II. Углубленный веб-скрапинг
Глава 7. Чтение документов
Глава 8. Очистка «грязных» данных
Глава 9. Чтение и запись текстов па естественных языках
Глава 10. Сбор данных из форм и проверка авторизации
Глава 11. Веб-скрпинг данных JavaScript
Глава 12. Веб-краулинг с помощью API
Глава 13. Обработка изображений и распознавание текста...
Глава 14. Как избежать ловушек веб-скрапинга
Глава 15. Тестирование сайтов с помощью веб-скраперов
Глава 16. Параллельный веб-краулинг
Глава 17. Удаленный веб-скрапинг
Глава 18. Законность и этичность веб-скрапинга
Добавить комментарий