Библиотека knigago >> Компьютеры: Разработка ПО >> Искусственный интеллект >> Обучение с подкреплением для реальных задач


СЛУЧАЙНЫЙ КОММЕНТАРИЙ

# 885, книга: Четыре цикла
автор: Хорхе Луис Борхес

Классическая проза "Четыре цикла" - это сборник из четырех коротких романов, написанных аргентинским автором-модернистом Хорхе Луисом Борхесом. Каждая история исследует глубокую и сложную тему, используя лабиринты и загадки, характерные для прозы Борхеса. История разворачивается в отдаленной цивилизации, где исследователь обнаруживает древние руины, отражающие циклическую природу времени и бренность человеческого существования. Борхес мастерски сочетает археологию, философию и...

Фил Уиндер - Обучение с подкреплением для реальных задач

Обучение с подкреплением для реальных задач
Книга - Обучение с подкреплением для реальных задач.  Фил Уиндер  - прочитать полностью в библиотеке КнигаГо
Название:
Обучение с подкреплением для реальных задач
Фил Уиндер

Жанр:

Искусственный интеллект

Изадано в серии:

Бестселлеры o’reilly

Издательство:

БХВ-Петербург

Год издания:

ISBN:

978-5-9775-6885-2

Отзывы:

Комментировать

Рейтинг:

Поделись книгой с друзьями!

Помощь сайту: донат на оплату сервера

Краткое содержание книги "Обучение с подкреплением для реальных задач"

Книга посвящена промышленно-ориентированному применению обучения с подкреплением (Reinforcement Learning, RL). Объяснено, как обучать промышленные и научные системы решению любых пошаговых задач методом проб и ошибок— без подготовки узкоспециализированных учебных множеств данных и без риска переобучить или переусложнить алгоритм. Рассмотрены марковские процессы принятия решений, глубокие Q-сети, градиенты политик и их вычисление, методы устранения энтропии и многое другое. Данная книга — первая на русском языке, где теоретический базис RL и алгоритмы даны в прикладном, отраслевом ключе. Для аналитиков данных и специалистов по искусственному интеллекту

Читаем онлайн "Обучение с подкреплением для реальных задач". [Страница - 2]

концепции обучения с подкреплением........................................................... 41
Первый RL-алгоритм...................................................................................................................... 41
Оценка ценности.................................................................................................................. 42
Ошибка предсказания..........................................................................................................43
Правило обновления веса.................................................................................................. 43
RL — это то же самое, что ML?................................................................................................... 44
Награда и отклик.............................................................................................................................. 45
Отложенные награды..........................................................................................................46
Ретроспектива...................................................................................................................... 46
Обучение с подкреплением как дисциплина................................................................................... 47
Резюме..................................................................................................................................................... 49
Дополнительные материалы для чтения...........................................................................................49
Использованные источники................................................................................................................. 50

Глава 2. Марковские процессы принятия решений,
динамическое программирование и методы Монте-Карло....................................... 53
Алгоритм многорукого бандита......................................................................................................... 53
Разработка наград............................................................................................................................53
Оценка стратегии: функция ценности......................................................................................... 54
Совершенствование политики: выбор лучшего действия....................................................... 57
Моделирование среды.................................................................................................................... 58
Запуск эксперимента...................................................................................................................... 59
Улучшение Б-жадного алгоритма................................................................................................. 61
Марковские процессы принятия решений....................................................................................... 62
Контроль запасов.............................................................................................................................64
Таблица переходов..............................................................................................................65
Граф переходов.................................................................................................................... 66
Матрица переходов.............................................................................................................. 66
Симуляция управления запасами................................................................................................. 68
Политики и функции ценности.......................................................................................................... 70
Дисконтированные вознаграждения........................................................................................... 70
Прогнозирование вознаграждений с помощью функции ценности состояния...................71
Моделирование с использованием функции ценности состояния............................ 73
Прогнозирование вознаграждений с помощью функции ценности действия..................... 75
Оптимальные политики.................................................................................................................. 76
Генерирование политики Монте-Карло........................................................................................... 78
Итерация по ценности с динамическим программированием...................................................... 80
Реализация итерации по ценности................................................................................................ 82
Результаты итерации по ценнности.............................................................................................84
Резюме..................................................................................................................................................... 85
Дополнительные материалы для чтения.......................................................................................... 86
Использованные источники................................................................................................................. 86
Глава 3. Обучение с учетом временных различий, Q-обучение
и я-шаговые алгоритмы............................................................................................................... 87
Обучение с учетом временных различий: формулировка подхода............................................. 88
Q-обучение....................................................................................................................................... 90
SARSA............................................................................................................................................... 92
Q-обучение против SARSA............................................................................................................93
Пример использования: автоматическое масштабирование контейнеров приложений
для снижения затрат....................................................................................................................... 96
Отраслевой пример: торги рекламы в режиме реального времени............................................. 98
Определение марковского процесса принятия решения......................................................... 98
Результаты торгов в --">

Оставить комментарий:


Ваш e-mail является приватным и не будет опубликован в комментарии.

Другие книги из серии «Бестселлеры o’reilly»:

iOS. Приемы программирования. Вандад Нахавандипур
- iOS. Приемы программирования

Жанр: Прочие ОС

Год издания: 2014

Серия: Бестселлеры o’reilly

Законы UX-дизайна. Джон Яблонски
- Законы UX-дизайна

Жанр: Программирование: прочее

Год издания: 2022

Серия: Бестселлеры o’reilly