Фил Уиндер - Обучение с подкреплением для реальных задач
Название: | Обучение с подкреплением для реальных задач | |
Автор: | Фил Уиндер | |
Жанр: | Искусственный интеллект | |
Изадано в серии: | Бестселлеры o’reilly | |
Издательство: | БХВ-Петербург | |
Год издания: | 2023 | |
ISBN: | 978-5-9775-6885-2 | |
Отзывы: | Комментировать | |
Рейтинг: | ||
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера |
Краткое содержание книги "Обучение с подкреплением для реальных задач"
Книга посвящена промышленно-ориентированному применению обучения с подкреплением (Reinforcement Learning, RL). Объяснено, как обучать промышленные и научные системы решению любых пошаговых задач методом проб и ошибок— без подготовки узкоспециализированных учебных множеств данных и без риска переобучить или переусложнить алгоритм. Рассмотрены марковские процессы принятия решений, глубокие Q-сети, градиенты политик и их вычисление, методы устранения энтропии и многое другое. Данная книга — первая на русском языке, где теоретический базис RL и алгоритмы даны в прикладном, отраслевом ключе. Для аналитиков данных и специалистов по искусственному интеллекту
Читаем онлайн "Обучение с подкреплением для реальных задач". [Страница - 2]
- 1
- 2
- 3
- 4
- . . .
- последняя (18) »
Первый RL-алгоритм...................................................................................................................... 41
Оценка ценности.................................................................................................................. 42
Ошибка предсказания..........................................................................................................43
Правило обновления веса.................................................................................................. 43
RL — это то же самое, что ML?................................................................................................... 44
Награда и отклик.............................................................................................................................. 45
Отложенные награды..........................................................................................................46
Ретроспектива...................................................................................................................... 46
Обучение с подкреплением как дисциплина................................................................................... 47
Резюме..................................................................................................................................................... 49
Дополнительные материалы для чтения...........................................................................................49
Использованные источники................................................................................................................. 50
Глава 2. Марковские процессы принятия решений,
динамическое программирование и методы Монте-Карло....................................... 53
Алгоритм многорукого бандита......................................................................................................... 53
Разработка наград............................................................................................................................53
Оценка стратегии: функция ценности......................................................................................... 54
Совершенствование политики: выбор лучшего действия....................................................... 57
Моделирование среды.................................................................................................................... 58
Запуск эксперимента...................................................................................................................... 59
Улучшение Б-жадного алгоритма................................................................................................. 61
Марковские процессы принятия решений....................................................................................... 62
Контроль запасов.............................................................................................................................64
Таблица переходов..............................................................................................................65
Граф переходов.................................................................................................................... 66
Матрица переходов.............................................................................................................. 66
Симуляция управления запасами................................................................................................. 68
Политики и функции ценности.......................................................................................................... 70
Дисконтированные вознаграждения........................................................................................... 70
Прогнозирование вознаграждений с помощью функции ценности состояния...................71
Моделирование с использованием функции ценности состояния............................ 73
Прогнозирование вознаграждений с помощью функции ценности действия..................... 75
Оптимальные политики.................................................................................................................. 76
Генерирование политики Монте-Карло........................................................................................... 78
Итерация по ценности с динамическим программированием...................................................... 80
Реализация итерации по ценности................................................................................................ 82
Результаты итерации по ценнности.............................................................................................84
Резюме..................................................................................................................................................... 85
Дополнительные материалы для чтения.......................................................................................... 86
Использованные источники................................................................................................................. 86
Глава 3. Обучение с учетом временных различий, Q-обучение
и я-шаговые алгоритмы............................................................................................................... 87
Обучение с учетом временных различий: формулировка подхода............................................. 88
Q-обучение....................................................................................................................................... 90
SARSA............................................................................................................................................... 92
Q-обучение против SARSA............................................................................................................93
Пример использования: автоматическое масштабирование контейнеров приложений
для снижения затрат....................................................................................................................... 96
Отраслевой пример: торги рекламы в режиме реального времени............................................. 98
Определение марковского процесса принятия решения......................................................... 98
Результаты торгов в --">
- 1
- 2
- 3
- 4
- . . .
- последняя (18) »
Книги схожие с «Обучение с подкреплением для реальных задач» по жанру, серии, автору или названию:
Иван Братко - Программирование на языке Пролог для искусственного интеллекта Жанр: Искусственный интеллект |
Д. Н. Бойко - Исследование бессознательного для построения систем искусственного интеллекта Жанр: Искусственный интеллект Год издания: 2002 |
Джереми Ховард, Сильвейн Гуггер - Глубокое обучение с fastai и PyTorch: минимум формул, минимум кода, максимум эффективности Жанр: Python Год издания: 2022 Серия: Бестселлеры o’reilly |
Анирад Коул, Сиддха Ганджу, Мехер Казам - Искусственный интеллект и компьютерное зрение. Реальные проекты на Python, Keras и TensorFlow Жанр: Искусственный интеллект Год издания: 2023 Серия: Бестселлеры o’reilly |
Другие книги из серии «Бестселлеры o’reilly»:
Вандад Нахавандипур - iOS. Приемы программирования Жанр: Прочие ОС Год издания: 2014 Серия: Бестселлеры o’reilly |
Джон Яблонски - Законы UX-дизайна Жанр: Программирование: прочее Год издания: 2022 Серия: Бестселлеры o’reilly |
Валлиаппа Лакшманан, Сара Робинсон, Майкл Мунн - Машинное обучение. Паттерны проектирования Жанр: Искусственный интеллект Год издания: 2022 Серия: Бестселлеры o’reilly |
Питер Макинтайр, Кевин Татро - Создаем динамические веб-сайты на PHP Жанр: PHP Год издания: 2021 Серия: Бестселлеры o’reilly |