Фил Уиндер - Обучение с подкреплением для реальных задач
Название: | Обучение с подкреплением для реальных задач | |
Автор: | Фил Уиндер | |
Жанр: | Искусственный интеллект | |
Изадано в серии: | Бестселлеры o’reilly | |
Издательство: | БХВ-Петербург | |
Год издания: | 2023 | |
ISBN: | 978-5-9775-6885-2 | |
Отзывы: | Комментировать | |
Рейтинг: | ||
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера |
Краткое содержание книги "Обучение с подкреплением для реальных задач"
Книга посвящена промышленно-ориентированному применению обучения с подкреплением (Reinforcement Learning, RL). Объяснено, как обучать промышленные и научные системы решению любых пошаговых задач методом проб и ошибок— без подготовки узкоспециализированных учебных множеств данных и без риска переобучить или переусложнить алгоритм. Рассмотрены марковские процессы принятия решений, глубокие Q-сети, градиенты политик и их вычисление, методы устранения энтропии и многое другое. Данная книга — первая на русском языке, где теоретический базис RL и алгоритмы даны в прикладном, отраслевом ключе. Для аналитиков данных и специалистов по искусственному интеллекту
Читаем онлайн "Обучение с подкреплением для реальных задач". [Страница - 3]
- 1
- 2
- 3
- 4
- 5
- . . .
- последняя (18) »
Дальнейшие улучшения............................................................................................................... 101
Расширения для Q-обучения............................................................................................................. 102
Двойное Q-обучение......................................................................................................................102
Отложенное Q-обучение.............................................................................................................. 103
Сравнение стандартного, двойного и отложенного Q-обучения......................................... 103
Обучение с подкреплением на основе противодействия...................................................... 104
«-Шаговые алгоритмы......................................................................................................................... 105
«-Шаговые алгоритмы в распределенных средах................................................................... 108
Трассировки соответствия................................................................................................................. 109
Расширения для трассировки соответствия.................................................................................... 112
Алгоритм обучения Q(k) Уоткинса............................................................................................ 112
Нечеткие стирания в алгоритме обучения Q(X) Уоткинса.....................................................113
Быстрое Q-обучение...................................................................................................................... 113
Накопление или замена трассировок соответствия................................................................ 113
Резюме.................................................................................................................................................... 114
Дополнительные материалы для чтения......................................................................................... 114
Использованные источники................................................................................................................114
Глава 4. Глубокие Q-сети........................................................................................................... 117
Архитектуры глубокого обучения.................................................................................................... 118
Основные положения.................................................................................................................... 118
Архитектуры нейронных сетей.................................................................................................... 119
Фреймворки глубокого обучения............................................................................................... 120
Глубокое обучение с подкреплением......................................................................................... 121
Глубокое Q-обучение.......................................................................................................................... 122
Воспроизведение опыта................................................................................................................122
Клоны Q-сети.................................................................................................................................. 123
Архитектура нейронной сети....................................................................................................... 123
Внедрение глубокой Q-сети......................................................................................................... 124
Пример: глубокая Q-сеть в среде CartPole................................................................................ 125
Зачем обучаться онлайн?..................................................................................................127
Что лучше? Глубока Q-сеть против Q-обучения......................................................... 128
Практический пример: сокращение энергопотребления в зданиях.................................... 128
Радужная DQN...................................................................................................................................... 130
Распределительное RL................................................................................................................... 130
Воспроизведение приоритетного опыта.................................................................................... 132
Зашумленные сети......................................................................................................................... 133
Дуэльные сети................................................................................................................................. 133
Пример: радужная глубокая Q-сеть в Atari Games........................................................................ 134
Результаты....................................................................................................................................... 134
Обсуждение..................................................................................................................................... 136
Другие улучшения глубокой Q-сети.................................................................................................138
Улучшение исследования............................................................................................................. 138
Повышение вознаграждения........................................................................................................ 139
Обучение на основе автономных данных..................................................................................140
Резюме.................................................................................................................................................... 142
Дополнительные материалы для чтения......................................................................................... 143
Использованные источники................................................................................................................143
Глава 5. Методы градиента политики................................................................................ 145
Преимущества прямого изучения --">
- 1
- 2
- 3
- 4
- 5
- . . .
- последняя (18) »
Книги схожие с «Обучение с подкреплением для реальных задач» по жанру, серии, автору или названию:
Лука Массарон, Джон Пол Мюллер - Искусственный интеллект для чайников Жанр: Современные российские издания Год издания: 2019 |
Владимир Валентинович Девятков - Системы искусственного интеллекта: Учебное пособие для вузов Жанр: Искусственный интеллект Год издания: 2001 Серия: Информатика в техническом университете |
Ханнес Хапке, Кэтрин Нельсон - Разработка конвейеров машинного обучения. Автоматизация жизненных циклов модели с помощью TensorFlow Жанр: Искусственный интеллект Год издания: 2021 Серия: Бестселлеры o’reilly |
Ян Пойнтер - Программируем с PyTorch. Создание приложений глубокого обучения Жанр: Искусственный интеллект Год издания: 2020 Серия: Бестселлеры o’reilly |
Другие книги из серии «Бестселлеры o’reilly»:
Лейн Кэмпбелл, Черити Мейджорс - Базы данных. Инжиниринг надежности Жанр: Базы данных Год издания: 2020 Серия: Бестселлеры o’reilly |
Питер Макинтайр, Кевин Татро - Создаем динамические веб-сайты на PHP Жанр: PHP Год издания: 2021 Серия: Бестселлеры o’reilly |
Марк Лой, Патрик Нимайер, Дэниэл Лук - Программируем на Java Жанр: Java, Java Script Год издания: 2023 Серия: Бестселлеры o’reilly |
Кей С. Хорстманн - Java. Библиотека профессионала, том 2. Расширенные средства программирования Жанр: Java, Java Script Год издания: 2017 Серия: Бестселлеры o’reilly |