Фил Уиндер - Обучение с подкреплением для реальных задач

	Название:	Обучение с подкреплением для реальных задач
	Автор:	Фил Уиндер
	Жанр:	Искусственный интеллект
	Изадано в серии:	Бестселлеры o’reilly
	Издательство:	БХВ-Петербург
	Год издания:	2023
	ISBN:	978-5-9775-6885-2
	Отзывы:	Комментировать
	Рейтинг:
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера

Краткое содержание книги "Обучение с подкреплением для реальных задач"

Книга посвящена промышленно-ориентированному применению обучения с подкреплением (Reinforcement Learning, RL). Объяснено, как обучать промышленные и научные системы решению любых пошаговых задач методом проб и ошибок— без подготовки узкоспециализированных учебных множеств данных и без риска переобучить или переусложнить алгоритм. Рассмотрены марковские процессы принятия решений, глубокие Q-сети, градиенты политик и их вычисление, методы устранения энтропии и многое другое. Данная книга — первая на русском языке, где теоретический базис RL и алгоритмы даны в прикладном, отраслевом ключе. Для аналитиков данных и специалистов по искусственному интеллекту

Читаем онлайн "Обучение с подкреплением для реальных задач". [Страница - 2]

концепции обучения с подкреплением........................................................... 41
Первый RL-алгоритм...................................................................................................................... 41
Оценка ценности.................................................................................................................. 42
Ошибка предсказания..........................................................................................................43
Правило обновления веса.................................................................................................. 43
RL — это то же самое, что ML?................................................................................................... 44
Награда и отклик.............................................................................................................................. 45
Отложенные награды..........................................................................................................46
Ретроспектива...................................................................................................................... 46
Обучение с подкреплением как дисциплина................................................................................... 47
Резюме..................................................................................................................................................... 49
Дополнительные материалы для чтения...........................................................................................49
Использованные источники................................................................................................................. 50

Глава 2. Марковские процессы принятия решений,
динамическое программирование и методы Монте-Карло....................................... 53
Алгоритм многорукого бандита......................................................................................................... 53
Разработка наград............................................................................................................................53
Оценка стратегии: функция ценности......................................................................................... 54
Совершенствование политики: выбор лучшего действия....................................................... 57
Моделирование среды.................................................................................................................... 58
Запуск эксперимента...................................................................................................................... 59
Улучшение Б-жадного алгоритма................................................................................................. 61
Марковские процессы принятия решений....................................................................................... 62
Контроль запасов.............................................................................................................................64
Таблица переходов..............................................................................................................65
Граф переходов.................................................................................................................... 66
Матрица переходов.............................................................................................................. 66
Симуляция управления запасами................................................................................................. 68
Политики и функции ценности.......................................................................................................... 70
Дисконтированные вознаграждения........................................................................................... 70
Прогнозирование вознаграждений с помощью функции ценности состояния...................71
Моделирование с использованием функции ценности состояния............................ 73
Прогнозирование вознаграждений с помощью функции ценности действия..................... 75
Оптимальные политики.................................................................................................................. 76
Генерирование политики Монте-Карло........................................................................................... 78
Итерация по ценности с динамическим программированием...................................................... 80
Реализация итерации по ценности................................................................................................ 82
Результаты итерации по ценнности.............................................................................................84
Резюме..................................................................................................................................................... 85
Дополнительные материалы для чтения.......................................................................................... 86
Использованные источники................................................................................................................. 86
Глава 3. Обучение с учетом временных различий, Q-обучение
и я-шаговые алгоритмы............................................................................................................... 87
Обучение с учетом временных различий: формулировка подхода............................................. 88
Q-обучение....................................................................................................................................... 90
SARSA............................................................................................................................................... 92
Q-обучение против SARSA............................................................................................................93
Пример использования: автоматическое масштабирование контейнеров приложений
для снижения затрат....................................................................................................................... 96
Отраслевой пример: торги рекламы в режиме реального времени............................................. 98
Определение марковского процесса принятия решения......................................................... 98
Результаты торгов в --">

Оставить комментарий:

Книги схожие с «Обучение с подкреплением для реальных задач» по жанру, серии, автору или названию:

Программирование на языке Пролог для искусственного интеллекта. Иван Братко

Иван Братко - Программирование на языке Пролог для искусственного интеллекта

Жанр: Искусственный интеллект

Исследование бессознательного для построения систем искусственного интеллекта. Д. Н. Бойко

Д. Н. Бойко - Исследование бессознательного для построения систем искусственного интеллекта

Жанр: Искусственный интеллект

Год издания: 2002

Глубокое обучение с fastai и PyTorch: минимум формул, минимум кода, максимум эффективности. Джереми Ховард

Джереми Ховард, Сильвейн Гуггер - Глубокое обучение с fastai и PyTorch: минимум формул, минимум кода, максимум эффективности

Жанр: Python

Год издания: 2022

Серия: Бестселлеры o’reilly

Искусственный интеллект и компьютерное зрение. Реальные проекты на Python, Keras и TensorFlow. Анирад Коул

Анирад Коул, Сиддха Ганджу, Мехер Казам - Искусственный интеллект и компьютерное зрение. Реальные проекты на Python, Keras и TensorFlow

Жанр: Искусственный интеллект

Год издания: 2023

Серия: Бестселлеры o’reilly

Другие книги из серии «Бестселлеры o’reilly»:

iOS. Приемы программирования. Вандад Нахавандипур

Вандад Нахавандипур - iOS. Приемы программирования

Жанр: Прочие ОС

Год издания: 2014

Серия: Бестселлеры o’reilly

Джон Яблонски - Законы UX-дизайна

Жанр: Программирование: прочее

Год издания: 2022

Серия: Бестселлеры o’reilly

Машинное обучение. Паттерны проектирования. Валлиаппа Лакшманан

Валлиаппа Лакшманан, Сара Робинсон, Майкл Мунн - Машинное обучение. Паттерны проектирования

Жанр: Искусственный интеллект

Год издания: 2022

Серия: Бестселлеры o’reilly

Создаем динамические веб-сайты на PHP. Питер Макинтайр

Питер Макинтайр, Кевин Татро - Создаем динамические веб-сайты на PHP

Жанр: PHP

Год издания: 2021

Серия: Бестселлеры o’reilly

Фантастика и фэнтези	Детективы и триллеры	Любовные романы	Информация о сайте
Научная	Боевик	Современные	Для правообладателей
Фэнтези	Исторические	Фантастические	Правила & Политика конф.
Боевая	Криминальные	Короткие	Обмен ссылками
Ужасы и мистика	Полицейские	Детективные	Все жанры библиотеки
Космическая	Триллеры	О любви	Отзывы о книгах
Альтернативная история	Шпионские	Исторические	Книги с оценками
Попаданцы	Детские	Эротические 18+
Социальная фантастика	Иронические
Юмористическая	Крутые
Постапокалипсис	Политические
Детективная	Маньяки

Почта сайта:	2019 - 2024 © "КнигаГо" - электронная библиотека. Книги читать онлайн без регистрации полностью или ознакомительные фрагменты с возможностью покупки книги.
Большинство книг на сайте опубликовано легально на правах партнёрской программы ЛитРес. Если Ваша книга была опубликована с нарушениями авторских прав, пожалуйста, направьте Вашу жалобу на или заполните форму обратной связи.
Интересная статья: Поиск синонимов к словам