Библиотека knigago >> Компьютеры: Языки и системы программирования >> Python >> Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества


СЛУЧАЙНЫЙ КОММЕНТАРИЙ

# 1405, книга: Мю Цефея. Магия геометрии
автор: Дмитрий Орёл

"Мю Цефея: Магия геометрии" Дмитрия Орла - это леденящий душу рассказ о группе исследователей, попавших в ловушку в жутком лабиринте. Автор мастерски воссоздает атмосферу ужаса и напряжения, которая пронизывает каждую страницу. История начинается с того, что группа из трех друзей отправляется исследовать заброшенный особняк в Мю Цефея. Особняк представляет собой огромное, ветхое здание с мрачными коридорами и скрипучими полами. По мере того как исследователи углубляются в лабиринт...

СЛУЧАЙНАЯ КНИГА

Ханс. В. Корбл
- Ханс

Жанр: Драматургия

Год издания: 2022

Артём Владимирович Груздев - Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества

Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества
Книга - Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества.  Артём Владимирович Груздев  - прочитать полностью в библиотеке КнигаГо
Название:
Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества
Артём Владимирович Груздев

Жанр:

Python

Изадано в серии:

неизвестно

Издательство:

ДМК Пресс

Год издания:

ISBN:

978-5-93700-177-1

Отзывы:

Комментировать

Рейтинг:

Поделись книгой с друзьями!

Помощь сайту: донат на оплату сервера

Краткое содержание книги "Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества"

В двухтомнике представлены материалы по применению классических мето- дов машинного обучения в различных промышленных задачах. Во втором томе рассматривается сам процесс предварительной подготовки данных, а также некоторые метрики качества и ряд полезных библиотек и фреймворков (H2O, Dask, Docker, Google Colab).
Издание рассчитано на специалистов по анализу данных, а также может быть полезно широкому кругу специалистов, интересующихся машинным обучением.


Читаем онлайн "Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества". Главная страница.

А. В. Груздев

Предварительная
подготовка данных
в Python
Том 2
План, примеры и метрики качества

Москва, 2023

УДК 004.04Python
ББК 32.372
Г90

Г90

Груздев А. В.
Предварительная подготовка данных в Python. Том 2: План, примеры
и метрики качества. – М.: ДМК Пресс, 2023. – 814 с.: ил.
ISBN 978-5-93700-177-1
В двухтомнике представлены материалы по применению классических методов машинного обучения в различных промышленных задачах. Во втором томе
рассматривается сам процесс предварительной подготовки данных, а также
некоторые метрики качества и ряд полезных библиотек и фреймворков (H2O,
Dask, Docker, Google Colab).
Издание рассчитано на специалистов по анализу данных, а также может быть
полезно широкому кругу специалистов, интересующихся машинным обучением.

УДК 004.04Python
ББК 32.372

Все права защищены. Любая часть этой книги не может быть воспроизведена в какой
бы то ни было форме и какими бы то ни было средствами без письменного разрешения
владельцев авторских прав.
Материал, изложенный в данной книге, многократно проверен. Но, поскольку вероятность технических ошибок все равно существует, издательство не может гарантировать
абсолютную точность и правильность приводимых сведений. В связи с этим издательство
не несет ответственности за возможные ошибки, связанные с использованием книги.

ISBN 978-5-93700-177-1

© Груздев А., 2023
© Оформление, издание, перевод, ДМК Пресс, 2023

Оглавление

Введение................................................................................................7
ЧАСТЬ 3. ПЛАН ПРЕДВАРИТЕЛЬНОЙ
ПОДГОТОВКИ ДАННЫХ................................................................. 8
1. Введение........................................................................................... 8
2. Формирование выборки.............................................................. 10
2.1. Генеральная и выборочная совокупности................................................10
2.2. Характеристики выборки...........................................................................10
2.3. Детерминированные и вероятностные выборки.....................................12
2.4. Виды, методы и способы вероятностного отбора....................................13
2.5. Подходы к определению необходимого объема выборки.......................14

3. Определение «окна выборки» и «окна созревания».............. 28
4. Определение зависимой переменной....................................... 32
5. Загрузка данных из CSV-файлов и баз данных SQL................ 33
6. Удаление бесполезных переменных, переменных
«из будущего», переменных с юридическим риском.................. 39
7. Преобразование типов переменных и знакомство
со шкалами переменных.................................................................. 41
7.1. Количественные (непрерывные) шкалы...................................................41
7.2. Качественные (дискретные) шкалы...........................................................43

8. Нормализация строковых значений.......................................... 45
9. Обработка дублирующихся наблюдений.................................. 61
10. Обработка редких категорий.................................................... 62
11. Появление новых категорий в новых данных....................... 69
12. Импутация пропусков................................................................. 70
12.1. Способы импутации количественных и бинарных переменных..........70

4



Оглавление

12.2. Способы импутации категориальных переменных...............................71
12.3. Практика....................................................................................................73

13. Обработка выбросов................................................................... 90
14. Описательные статистики.......................................................... 94
14.1. Пифагорейские средние, медиана и мода..............................................94
14.2. Квантиль....................................................................................................95
14.3. Дисперсия и стандартное отклонение....................................................96
14.4. Корреляция и ковариация........................................................................97
14.5. Получение сводки описательных статистик в библиотеке pandas......102

15. Нормальное распределение....................................................104
15.1. Знакомство с нормальным распределением........................................104
15.2. Коэффициент островершинности,
коэффициент эксцесса и коэффициент асимметрии...................................107
15.3. Гистограмма распределения и график квантиль–квантиль................111
15.4. Вычисление коэффициента асимметрии и коэффициента
эксцесса, построение гистограммы и графика квантиль–квантиль
для подбора преобразований, максимизирующих нормальность..............112
15.5. Подбор преобразований, максимизирующих нормальность
для правосторонней асимметрии..................................................................116
15.6. Подбор преобразований, максимизирующих нормальность
для левосторонней --">

Оставить комментарий:


Ваш e-mail является приватным и не будет опубликован в комментарии.