Фил Уиндер - Обучение с подкреплением для реальных задач
Название: | Обучение с подкреплением для реальных задач | |
Автор: | Фил Уиндер | |
Жанр: | Искусственный интеллект | |
Изадано в серии: | Бестселлеры o’reilly | |
Издательство: | БХВ-Петербург | |
Год издания: | 2023 | |
ISBN: | 978-5-9775-6885-2 | |
Отзывы: | Комментировать | |
Рейтинг: | ||
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера |
Краткое содержание книги "Обучение с подкреплением для реальных задач"
Книга посвящена промышленно-ориентированному применению обучения с подкреплением (Reinforcement Learning, RL). Объяснено, как обучать промышленные и научные системы решению любых пошаговых задач методом проб и ошибок— без подготовки узкоспециализированных учебных множеств данных и без риска переобучить или переусложнить алгоритм. Рассмотрены марковские процессы принятия решений, глубокие Q-сети, градиенты политик и их вычисление, методы устранения энтропии и многое другое. Данная книга — первая на русском языке, где теоретический базис RL и алгоритмы даны в прикладном, отраслевом ключе. Для аналитиков данных и специалистов по искусственному интеллекту
Читаем онлайн "Обучение с подкреплением для реальных задач". [Страница - 16]
нии о задаче. После достаточного количества попыток и определенных наставлений
он изучит стратегии, позволяющие максимизировать собственное определение
успеха. Вот в чем обучение с подкреплением превосходит обучение с учителем.
Обучение с подкреплением
Обучение с подкреплением (reinforcement learning, RL) поясняет, как принимать
наилучшие решения последовательно, в определенном контексте, чтобы максими
зировать реальный показатель успеха. Лицо, принимающее решения, узнает об
этом методом проб и ошибок. Ему не говорят, какие именно решения принимать,
вместо этого он должен учиться самостоятельно, методом проб и ошибок. На
рис. 1.1 представлены четыре компонента RL, в главе 2 мы углубимся в подроб
ности.
а
б
Рис. 1.1. Набросок четырех компонентов, необходимых для RL: агента, который совершает
действия в окружающей среде для наибольшего вознаграждения. Пример (а)
демонстрирует робота, который намеревается пройти через лабиринт, чтобы получить
монету. Пример (б) показывает приложение для электронной коммерции,
которое автоматически добавляет товары в корзины пользователей,
чтобы максимизировать прибыль
Каждое решение — это действие. Например, когда вы едете на велосипеде, дейст
виями являются рулевое управление, кручение педалей и торможение. Если вы
пытаетесь автоматически добавлять товары в корзину, то такими действиями явля
ются решения о добавлении определенных товаров.
Для чего нужно обучение с подкреплением?
|
33
Контекст, хотя он может отражать любую реальную ситуацию, часто ограничен,
что не позволяет сделать проблему разрешимой. Практики RL позволяют подгото
вить своеобразный интерфейс взаимодействия с окружающей средой. Это может
быть симуляция, реальная жизнь или их комбинация. Окружающая среда принима
ет действия и отвечает на них результатом и новым набором наблюдений.
Агент — это субъект, который принимает решения. Это может быть ваш ребенок,
какая-нибудь программа или, например, робот.
Вознаграждение кодирует вызов. Этот механизм обратной связи сообщает агенту,
какие действия привели к успеху (или неудаче).
Сигнал вознаграждения обычно числовой, но нужен только для подкрепления по
ведения; например, стратегии генетического обучения могут удалять неэффектив
ных агентов и не предоставлять никакого вознаграждения.
Вот еще пример: вы можете вознаградить робота за достижение цели или агента за
добавление нужного продукта в корзину. Все просто, правда? Но что делать, если
роботу требуется три дня, чтобы выйти из простого лабиринта, потому что он про
водит большую часть времени, нарезая круги? А если агент начнет добавлять все
подряд товары в корзину?
Такие процессы происходят и в мире животных. Они должны максимально увели
чить свои шансы на выживание, чтобы передать свои гены потомству. Например,
как и большинству травоядных, лосям нужно много есть, чтобы выжить. Но
в 2011 г. в окрестностях Гётеборга (Швеция) нашли лося, застрявшего в ветвях де
рева после того, как он наелся ферментированных яблок [5]. Система ’’вознаграж
дения” лося, которая вызывает голод, дала сбой, потому что цель ее слишком ли
шена конкретики. Нельзя есть все подряд, чтобы максимизировать свои шансы на
выживание. Все гораздо сложнее.
Эти примеры подводят нас к главной проблеме в RL, которая известна с тех пор,
как Ада Лавлейс (Ada Lovelace) впервые написала алгоритм для получения чисел
Бернулли. Как сказать машине, что она должна делать? Агенты RL часто остаются
крайними, потому что они оптимизируются не для того, что на самом деле нужно.
И пока я рекомендую вам максимально не усложнять награду. Многие задачи
предполагают естественную награду. В главе 9 эта проблема обсуждается более
подробно.
Итак, четыре компонента образуют марковский процесс принятия решений (Markov
decision process, MDP). MDP используют для того, чтобы сформулировать задачи,
даже не связанные с инженерией. В главе 2 эти идеи представлены более подробно.
Когда следует использовать
обучение с подкреплением?
Некоторые примеры RL, которые вы найдете в Интернете, выглядят вымученными.
Их авторы берут пример ML и пытаются применить к нему RL, несмотря на отсут
ствие четкого агента или действия. Посмотрите, например, несколько примеров
с --">
Книги схожие с «Обучение с подкреплением для реальных задач» по жанру, серии, автору или названию:
Араки Масахиро - Занимательная манга. Машинное обучение Жанр: Математика Год издания: 2020 Серия: Образовательная манга |
С. Николенко, А. Кадурин, Е. Архангельская - Глубокое обучение Жанр: Искусственный интеллект Год издания: 2018 Серия: Библиотека программиста |
Ханнес Хапке, Кэтрин Нельсон - Разработка конвейеров машинного обучения. Автоматизация жизненных циклов модели с помощью TensorFlow Жанр: Искусственный интеллект Год издания: 2021 Серия: Бестселлеры o’reilly |
Ян Пойнтер - Программируем с PyTorch. Создание приложений глубокого обучения Жанр: Искусственный интеллект Год издания: 2020 Серия: Бестселлеры o’reilly |
Другие книги из серии «Бестселлеры o’reilly»:
Робин Никсон - Создаем динамические веб-сайты с помощью PHP, MySQL, JavaScript, CSS и HTML5 Жанр: Интернет Год издания: 2016 Серия: Бестселлеры o’reilly |
Валлиаппа Лакшманан, Сара Робинсон, Майкл Мунн - Машинное обучение. Паттерны проектирования Жанр: Искусственный интеллект Год издания: 2022 Серия: Бестселлеры o’reilly |
Саймон Монк - Электроника. Сборник рецептов: готовые решения на базе Arduino и Raspberry Pi Жанр: Аппаратное обеспечение, компьютерное железо Год издания: 2019 Серия: Бестселлеры o’reilly |
Марк Лутц - Python. Карманный справочник Жанр: Справочники Год издания: 2015 Серия: Бестселлеры o’reilly |