Библиотека knigago >> Компьютеры: Разработка ПО >> Искусственный интеллект >> Обучение с подкреплением для реальных задач


Книга "Падение Ханабада. Гу-га. Литературные сюжеты" Мориса Симашко - это увлекательное произведение, которое погружает читателей в трагические события, приведшие к гибели города Ханабад. История разворачивается в средневековой Центральной Азии и следует за судьбами различных персонажей, чьи жизни переплетены в драматической кульминации. Центральное событие - осада Ханабада монгольской армией, и Симашко мастерски изображает ужасы войны и разрушения. Один из самых ярких аспектов...

СЛУЧАЙНАЯ КНИГА

Фил Уиндер - Обучение с подкреплением для реальных задач

Обучение с подкреплением для реальных задач
Книга - Обучение с подкреплением для реальных задач.  Фил Уиндер  - прочитать полностью в библиотеке КнигаГо
Название:
Обучение с подкреплением для реальных задач
Фил Уиндер

Жанр:

Искусственный интеллект

Изадано в серии:

Бестселлеры o’reilly

Издательство:

БХВ-Петербург

Год издания:

ISBN:

978-5-9775-6885-2

Отзывы:

Комментировать

Рейтинг:

Поделись книгой с друзьями!

Помощь сайту: донат на оплату сервера

Краткое содержание книги "Обучение с подкреплением для реальных задач"

Книга посвящена промышленно-ориентированному применению обучения с подкреплением (Reinforcement Learning, RL). Объяснено, как обучать промышленные и научные системы решению любых пошаговых задач методом проб и ошибок— без подготовки узкоспециализированных учебных множеств данных и без риска переобучить или переусложнить алгоритм. Рассмотрены марковские процессы принятия решений, глубокие Q-сети, градиенты политик и их вычисление, методы устранения энтропии и многое другое. Данная книга — первая на русском языке, где теоретический базис RL и алгоритмы даны в прикладном, отраслевом ключе. Для аналитиков данных и специалистов по искусственному интеллекту

Читаем онлайн "Обучение с подкреплением для реальных задач". [Страница - 3]

режиме реального времени...................................................................... 99
Дальнейшие улучшения............................................................................................................... 101
Расширения для Q-обучения............................................................................................................. 102
Двойное Q-обучение......................................................................................................................102
Отложенное Q-обучение.............................................................................................................. 103
Сравнение стандартного, двойного и отложенного Q-обучения......................................... 103
Обучение с подкреплением на основе противодействия...................................................... 104
«-Шаговые алгоритмы......................................................................................................................... 105
«-Шаговые алгоритмы в распределенных средах................................................................... 108
Трассировки соответствия................................................................................................................. 109

Расширения для трассировки соответствия.................................................................................... 112
Алгоритм обучения Q(k) Уоткинса............................................................................................ 112
Нечеткие стирания в алгоритме обучения Q(X) Уоткинса.....................................................113
Быстрое Q-обучение...................................................................................................................... 113
Накопление или замена трассировок соответствия................................................................ 113
Резюме.................................................................................................................................................... 114
Дополнительные материалы для чтения......................................................................................... 114
Использованные источники................................................................................................................114
Глава 4. Глубокие Q-сети........................................................................................................... 117
Архитектуры глубокого обучения.................................................................................................... 118
Основные положения.................................................................................................................... 118
Архитектуры нейронных сетей.................................................................................................... 119
Фреймворки глубокого обучения............................................................................................... 120
Глубокое обучение с подкреплением......................................................................................... 121
Глубокое Q-обучение.......................................................................................................................... 122
Воспроизведение опыта................................................................................................................122
Клоны Q-сети.................................................................................................................................. 123
Архитектура нейронной сети....................................................................................................... 123
Внедрение глубокой Q-сети......................................................................................................... 124
Пример: глубокая Q-сеть в среде CartPole................................................................................ 125
Зачем обучаться онлайн?..................................................................................................127
Что лучше? Глубока Q-сеть против Q-обучения......................................................... 128
Практический пример: сокращение энергопотребления в зданиях.................................... 128
Радужная DQN...................................................................................................................................... 130
Распределительное RL................................................................................................................... 130
Воспроизведение приоритетного опыта.................................................................................... 132
Зашумленные сети......................................................................................................................... 133
Дуэльные сети................................................................................................................................. 133
Пример: радужная глубокая Q-сеть в Atari Games........................................................................ 134
Результаты....................................................................................................................................... 134
Обсуждение..................................................................................................................................... 136
Другие улучшения глубокой Q-сети.................................................................................................138
Улучшение исследования............................................................................................................. 138
Повышение вознаграждения........................................................................................................ 139
Обучение на основе автономных данных..................................................................................140
Резюме.................................................................................................................................................... 142
Дополнительные материалы для чтения......................................................................................... 143
Использованные источники................................................................................................................143

Глава 5. Методы градиента политики................................................................................ 145
Преимущества прямого изучения --">

Оставить комментарий:


Ваш e-mail является приватным и не будет опубликован в комментарии.

Другие книги из серии «Бестселлеры o’reilly»:

Программируем на Java. Марк Лой
- Программируем на Java

Жанр: Java, Java Script

Год издания: 2023

Серия: Бестселлеры o’reilly