Библиотека knigago >> Компьютеры: Разработка ПО >> Искусственный интеллект >> Обучение с подкреплением для реальных задач


СЛУЧАЙНЫЙ КОММЕНТАРИЙ

# 860, книга: Океан Бурь. Книга первая
автор: Лев Николаевич Правдин

"Океан Бурь" Льва Правдина - это масштабная историческая сага, повествующая о жизни и судьбах советских людей во время Второй мировой войны и ее последствий. Первая книга трилогии охватывает период от начала войны до Сталинградской битвы. Роман переносит читателя в суровое военное время и знакомит с галереей ярких и пронзительных персонажей. От отважных фронтовиков до борющихся с голодом мирных жителей, Правдин искусно передает драматизм и человеческие истории того...

Фил Уиндер - Обучение с подкреплением для реальных задач

Обучение с подкреплением для реальных задач
Книга - Обучение с подкреплением для реальных задач.  Фил Уиндер  - прочитать полностью в библиотеке КнигаГо
Название:
Обучение с подкреплением для реальных задач
Фил Уиндер

Жанр:

Искусственный интеллект

Изадано в серии:

Бестселлеры o’reilly

Издательство:

БХВ-Петербург

Год издания:

ISBN:

978-5-9775-6885-2

Отзывы:

Комментировать

Рейтинг:

Поделись книгой с друзьями!

Помощь сайту: донат на оплату сервера

Краткое содержание книги "Обучение с подкреплением для реальных задач"

Книга посвящена промышленно-ориентированному применению обучения с подкреплением (Reinforcement Learning, RL). Объяснено, как обучать промышленные и научные системы решению любых пошаговых задач методом проб и ошибок— без подготовки узкоспециализированных учебных множеств данных и без риска переобучить или переусложнить алгоритм. Рассмотрены марковские процессы принятия решений, глубокие Q-сети, градиенты политик и их вычисление, методы устранения энтропии и многое другое. Данная книга — первая на русском языке, где теоретический базис RL и алгоритмы даны в прикладном, отраслевом ключе. Для аналитиков данных и специалистов по искусственному интеллекту

Читаем онлайн "Обучение с подкреплением для реальных задач". [Страница - 16]

получится. Каждое решение будет сказываться на его представле­
нии о задаче. После достаточного количества попыток и определенных наставлений
он изучит стратегии, позволяющие максимизировать собственное определение
успеха. Вот в чем обучение с подкреплением превосходит обучение с учителем.

Обучение с подкреплением
Обучение с подкреплением (reinforcement learning, RL) поясняет, как принимать
наилучшие решения последовательно, в определенном контексте, чтобы максими­
зировать реальный показатель успеха. Лицо, принимающее решения, узнает об
этом методом проб и ошибок. Ему не говорят, какие именно решения принимать,
вместо этого он должен учиться самостоятельно, методом проб и ошибок. На
рис. 1.1 представлены четыре компонента RL, в главе 2 мы углубимся в подроб­
ности.

а

б

Рис. 1.1. Набросок четырех компонентов, необходимых для RL: агента, который совершает
действия в окружающей среде для наибольшего вознаграждения. Пример (а)
демонстрирует робота, который намеревается пройти через лабиринт, чтобы получить
монету. Пример (б) показывает приложение для электронной коммерции,
которое автоматически добавляет товары в корзины пользователей,
чтобы максимизировать прибыль

Каждое решение — это действие. Например, когда вы едете на велосипеде, дейст­
виями являются рулевое управление, кручение педалей и торможение. Если вы
пытаетесь автоматически добавлять товары в корзину, то такими действиями явля­
ются решения о добавлении определенных товаров.

Для чего нужно обучение с подкреплением?

|

33

Контекст, хотя он может отражать любую реальную ситуацию, часто ограничен,
что не позволяет сделать проблему разрешимой. Практики RL позволяют подгото­
вить своеобразный интерфейс взаимодействия с окружающей средой. Это может
быть симуляция, реальная жизнь или их комбинация. Окружающая среда принима­
ет действия и отвечает на них результатом и новым набором наблюдений.
Агент — это субъект, который принимает решения. Это может быть ваш ребенок,
какая-нибудь программа или, например, робот.

Вознаграждение кодирует вызов. Этот механизм обратной связи сообщает агенту,
какие действия привели к успеху (или неудаче).
Сигнал вознаграждения обычно числовой, но нужен только для подкрепления по­
ведения; например, стратегии генетического обучения могут удалять неэффектив­
ных агентов и не предоставлять никакого вознаграждения.
Вот еще пример: вы можете вознаградить робота за достижение цели или агента за
добавление нужного продукта в корзину. Все просто, правда? Но что делать, если
роботу требуется три дня, чтобы выйти из простого лабиринта, потому что он про­
водит большую часть времени, нарезая круги? А если агент начнет добавлять все
подряд товары в корзину?
Такие процессы происходят и в мире животных. Они должны максимально увели­
чить свои шансы на выживание, чтобы передать свои гены потомству. Например,
как и большинству травоядных, лосям нужно много есть, чтобы выжить. Но
в 2011 г. в окрестностях Гётеборга (Швеция) нашли лося, застрявшего в ветвях де­
рева после того, как он наелся ферментированных яблок [5]. Система ’’вознаграж­
дения” лося, которая вызывает голод, дала сбой, потому что цель ее слишком ли­
шена конкретики. Нельзя есть все подряд, чтобы максимизировать свои шансы на
выживание. Все гораздо сложнее.

Эти примеры подводят нас к главной проблеме в RL, которая известна с тех пор,
как Ада Лавлейс (Ada Lovelace) впервые написала алгоритм для получения чисел
Бернулли. Как сказать машине, что она должна делать? Агенты RL часто остаются
крайними, потому что они оптимизируются не для того, что на самом деле нужно.
И пока я рекомендую вам максимально не усложнять награду. Многие задачи
предполагают естественную награду. В главе 9 эта проблема обсуждается более
подробно.
Итак, четыре компонента образуют марковский процесс принятия решений (Markov
decision process, MDP). MDP используют для того, чтобы сформулировать задачи,
даже не связанные с инженерией. В главе 2 эти идеи представлены более подробно.

Когда следует использовать
обучение с подкреплением?
Некоторые примеры RL, которые вы найдете в Интернете, выглядят вымученными.
Их авторы берут пример ML и пытаются применить к нему RL, несмотря на отсут­
ствие четкого агента или действия. Посмотрите, например, несколько примеров
с --">

Оставить комментарий:


Ваш e-mail является приватным и не будет опубликован в комментарии.

Книги схожие с «Обучение с подкреплением для реальных задач» по жанру, серии, автору или названию:

Занимательная манга. Машинное обучение. Араки Масахиро
- Занимательная манга. Машинное обучение

Жанр: Математика

Год издания: 2020

Серия: Образовательная манга