Прикладной анализ текстовых данных на Python
Машинное обучение и создание приложений обработки естественного языка.
Бенджамин Бенгфорт, Ребекка Билбро, Тони Охеда «Прикладной анализ текстовых данных на Python» Питер, 2019 год, 368 стр. (PDF)
Технологии анализа текстовой информации стремительно меняются под влиянием машинного обучения. Нейронные сети из теоретических научных исследований перешли в реальную жизнь, и анализ текста активно интегрируется в программные решения. Нейронные сети способны решать
самые сложные задачи обработки естественного языка, никого не удивляет машинный перевод, «беседа» с роботом в интернет-магазине, перефразирование, ответы на вопросы и поддержание диалога. Почему же мы не всегда можем найти то, что ищем, а машинные переводчики веселят нас примерами «трудностей перевода» с китайского на албанский? Ответ кроется в мелочах — в алгоритмах, которые правильно работают в теории, но сложно реализуются на практике.
В этой книге рассказано о машинном обучении для анализа текста, с использованием всех возможностей библиотек Python, включая контекстную и лингвистическую разработку функций, векторизацию, классификацию, моделирование тем, разрешение объектов, анализ графиков и визуальное управление. А прикладное назначение книги означает, что данное издание является не академическим, теоретическим исследованием лингвистики или статистических моделей, а практическим пособием по эффективному использованию модели, обучения тексту, внутри программного приложения. ISBN: 978-5-4461-1153-4
Вы научитесь
Применять методы машинного обучения на реальных примерах. Начиная с поиска модели и предварительной обработки данных вы перейдете к приемам классификации и кластеризации текстов, затем приступите к визуальной интерпретации, анализу графов, а после знакомства с приемами масштабирования научитесь использовать глубокое обучение для анализа текста. К концу книги вы будете оснащены практическими методами для решения любого количества сложных реальных проблем.
Об авторах:
Бенджамин Бенгфорт (Benjamin Bengfort) - специалист по данным. Он получил докторскую степень в Университете штата Мэриленд, где изучал распределенные системы и машинное обучение. Профессиональный программист по профессии, Data Scientist по призванию. Авторы Бенджамина изучают самые разные темы: от обработки естественного языка до Data Science с Python и аналитики с Hadoop и Spark.
Тони Охеда (Tony Ojeda) является основателем District Data Labs и специализируется на прикладной аналитике для бизнес-стратегии. Он опубликовал книгу по практическим наукам о данных и имеет опыт практических занятий по образованию и учебным программам по науке о данных.
Доктор Ребекка Билбро (Rebecca Bilbro) - специалист по данным и программист на Python. Она специализируется на визуализации данных для машинного обучения, от анализа характеристик до выбора моделей и настройки гиперпараметров. Она является активным участником сообщества открытого исходного кода и провела исследование по обработке естественного языка, извлечению семантической сети, разрешению сущностей и визуализации информации большого объема. Она получила докторскую степень в Университете Иллинойса, Урбана-Шампейн, где ее исследования были сосредоточены на практике коммуникации и визуализации в технике.
Прикладной анализ текстовых данных на Python
Оригинал книги
Applied Text Analysis with Python
Enabling Language-Aware Data Products with Machine Learning
Author: Benjamin Bengfort, Tony Ojeda, Rebecca Bilbro
Publisher: O'Reilly Media
Year: 2018
Pages: 332
Language: English
ISBN-10: 1491963042
ISBN-13: 978-1491963043
From news and speeches to informal chatter on social media, natural language is one of the richest and most underutilized sources of data. Not only does it come in a constant stream, always changing and adapting in context; it also contains information that is not conveyed by traditional data sources. The key to unlocking natural language is through the creative application of text analytics. This practical book presents a data scientist’s approach to building language-aware products with applied machine learning.
You’ll learn robust, repeatable, and scalable techniques for text analysis with Python, including contextual and linguistic feature engineering, vectorization, classification, topic modeling, entity resolution, graph analysis, and visual steering. By the end of the book, you’ll be equipped with practical methods to solve any number of complex real-world problems.
Preprocess and vectorize text into high-dimensional feature representations
Perform document classification and topic modeling
Steer the model selection process with visual diagnostics
Extract key phrases, named entities, and graph structures to reason about data in text
Build a dialog framework to enable chatbots and language-driven interaction
Use Spark to scale processing power and neural networks to scale model complexity
Прикладной анализ текстовых данных на Python
- Глава 1. Естественные языки и вычисления
- Глава 2. Создание собственного корпуса
- Глава 3. Предварительная обработка и преобразование корпуса
- Глава 4. Конвейеры векторизации и преобразования
- Глава 5. Классификация в текстовом анализе
- Глава 6. Кластеризация для выявления сходств в тексте
- Глава 7. Контекстно-зависимый анализ текста
- Глава 8. Визуализация текста
- Глава 9. Графовые методы анализа текста
- Глава 10. Чат-боты
- Глава 11. Масштабирование анализа текста
- Глава 12. Глубокое обучение и не только
- Глоссарий
Прикладной анализ текстовых данных на Python
Github code for Applied Text Analysis with Python
Errata for Applied Text Analysis with Python
Анализ данных на Python в примерах и задачах
Прикладной анализ текстовых данных на Python (PDF)
Applied Text Analysis with Python 3rd Release (PDF)
Добавить комментарий