Фил Уиндер - Обучение с подкреплением для реальных задач

	Название:	Обучение с подкреплением для реальных задач
	Автор:	Фил Уиндер
	Жанр:	Искусственный интеллект
	Изадано в серии:	Бестселлеры o’reilly
	Издательство:	БХВ-Петербург
	Год издания:	2023
	ISBN:	978-5-9775-6885-2
	Отзывы:	Комментировать
	Рейтинг:
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера

Краткое содержание книги "Обучение с подкреплением для реальных задач"

Книга посвящена промышленно-ориентированному применению обучения с подкреплением (Reinforcement Learning, RL). Объяснено, как обучать промышленные и научные системы решению любых пошаговых задач методом проб и ошибок— без подготовки узкоспециализированных учебных множеств данных и без риска переобучить или переусложнить алгоритм. Рассмотрены марковские процессы принятия решений, глубокие Q-сети, градиенты политик и их вычисление, методы устранения энтропии и многое другое. Данная книга — первая на русском языке, где теоретический базис RL и алгоритмы даны в прикладном, отраслевом ключе. Для аналитиков данных и специалистов по искусственному интеллекту

Читаем онлайн "Обучение с подкреплением для реальных задач". [Страница - 16]

получится. Каждое решение будет сказываться на его представле
нии о задаче. После достаточного количества попыток и определенных наставлений
он изучит стратегии, позволяющие максимизировать собственное определение
успеха. Вот в чем обучение с подкреплением превосходит обучение с учителем.

Обучение с подкреплением
Обучение с подкреплением (reinforcement learning, RL) поясняет, как принимать
наилучшие решения последовательно, в определенном контексте, чтобы максими
зировать реальный показатель успеха. Лицо, принимающее решения, узнает об
этом методом проб и ошибок. Ему не говорят, какие именно решения принимать,
вместо этого он должен учиться самостоятельно, методом проб и ошибок. На
рис. 1.1 представлены четыре компонента RL, в главе 2 мы углубимся в подроб
ности.

а

б

Рис. 1.1. Набросок четырех компонентов, необходимых для RL: агента, который совершает
действия в окружающей среде для наибольшего вознаграждения. Пример (а)
демонстрирует робота, который намеревается пройти через лабиринт, чтобы получить
монету. Пример (б) показывает приложение для электронной коммерции,
которое автоматически добавляет товары в корзины пользователей,
чтобы максимизировать прибыль

Каждое решение — это действие. Например, когда вы едете на велосипеде, дейст
виями являются рулевое управление, кручение педалей и торможение. Если вы
пытаетесь автоматически добавлять товары в корзину, то такими действиями явля
ются решения о добавлении определенных товаров.

Для чего нужно обучение с подкреплением?

|

33

Контекст, хотя он может отражать любую реальную ситуацию, часто ограничен,
что не позволяет сделать проблему разрешимой. Практики RL позволяют подгото
вить своеобразный интерфейс взаимодействия с окружающей средой. Это может
быть симуляция, реальная жизнь или их комбинация. Окружающая среда принима
ет действия и отвечает на них результатом и новым набором наблюдений.
Агент — это субъект, который принимает решения. Это может быть ваш ребенок,
какая-нибудь программа или, например, робот.

Вознаграждение кодирует вызов. Этот механизм обратной связи сообщает агенту,
какие действия привели к успеху (или неудаче).
Сигнал вознаграждения обычно числовой, но нужен только для подкрепления по
ведения; например, стратегии генетического обучения могут удалять неэффектив
ных агентов и не предоставлять никакого вознаграждения.
Вот еще пример: вы можете вознаградить робота за достижение цели или агента за
добавление нужного продукта в корзину. Все просто, правда? Но что делать, если
роботу требуется три дня, чтобы выйти из простого лабиринта, потому что он про
водит большую часть времени, нарезая круги? А если агент начнет добавлять все
подряд товары в корзину?
Такие процессы происходят и в мире животных. Они должны максимально увели
чить свои шансы на выживание, чтобы передать свои гены потомству. Например,
как и большинству травоядных, лосям нужно много есть, чтобы выжить. Но
в 2011 г. в окрестностях Гётеборга (Швеция) нашли лося, застрявшего в ветвях де
рева после того, как он наелся ферментированных яблок [5]. Система ’’вознаграж
дения” лося, которая вызывает голод, дала сбой, потому что цель ее слишком ли
шена конкретики. Нельзя есть все подряд, чтобы максимизировать свои шансы на
выживание. Все гораздо сложнее.

Эти примеры подводят нас к главной проблеме в RL, которая известна с тех пор,
как Ада Лавлейс (Ada Lovelace) впервые написала алгоритм для получения чисел
Бернулли. Как сказать машине, что она должна делать? Агенты RL часто остаются
крайними, потому что они оптимизируются не для того, что на самом деле нужно.
И пока я рекомендую вам максимально не усложнять награду. Многие задачи
предполагают естественную награду. В главе 9 эта проблема обсуждается более
подробно.
Итак, четыре компонента образуют марковский процесс принятия решений (Markov
decision process, MDP). MDP используют для того, чтобы сформулировать задачи,
даже не связанные с инженерией. В главе 2 эти идеи представлены более подробно.

Когда следует использовать
обучение с подкреплением?
Некоторые примеры RL, которые вы найдете в Интернете, выглядят вымученными.
Их авторы берут пример ML и пытаются применить к нему RL, несмотря на отсут
ствие четкого агента или действия. Посмотрите, например, несколько примеров
с --">

Оставить комментарий:

Книги схожие с «Обучение с подкреплением для реальных задач» по жанру, серии, автору или названию:

Занимательная манга. Машинное обучение. Араки Масахиро

Араки Масахиро - Занимательная манга. Машинное обучение

Жанр: Математика

Год издания: 2020

Серия: Образовательная манга

С. Николенко, А. Кадурин, Е. Архангельская - Глубокое обучение

Жанр: Искусственный интеллект

Год издания: 2018

Серия: Библиотека программиста

Разработка конвейеров машинного обучения. Автоматизация жизненных циклов модели с помощью TensorFlow. Ханнес Хапке

Ханнес Хапке, Кэтрин Нельсон - Разработка конвейеров машинного обучения. Автоматизация жизненных циклов модели с помощью TensorFlow

Жанр: Искусственный интеллект

Год издания: 2021

Серия: Бестселлеры o’reilly

Программируем с PyTorch. Создание приложений глубокого обучения. Ян Пойнтер

Ян Пойнтер - Программируем с PyTorch. Создание приложений глубокого обучения

Жанр: Искусственный интеллект

Год издания: 2020

Серия: Бестселлеры o’reilly

Другие книги из серии «Бестселлеры o’reilly»:

Создаем динамические веб-сайты с помощью PHP, MySQL, JavaScript, CSS и HTML5. Робин Никсон

Робин Никсон - Создаем динамические веб-сайты с помощью PHP, MySQL, JavaScript, CSS и HTML5

Жанр: Интернет

Год издания: 2016

Серия: Бестселлеры o’reilly

Машинное обучение. Паттерны проектирования. Валлиаппа Лакшманан

Валлиаппа Лакшманан, Сара Робинсон, Майкл Мунн - Машинное обучение. Паттерны проектирования

Жанр: Искусственный интеллект

Год издания: 2022

Серия: Бестселлеры o’reilly

Электроника. Сборник рецептов: готовые решения на базе Arduino и Raspberry Pi. Саймон Монк

Саймон Монк - Электроника. Сборник рецептов: готовые решения на базе Arduino и Raspberry Pi

Жанр: Аппаратное обеспечение, компьютерное железо

Год издания: 2019

Серия: Бестселлеры o’reilly

Марк Лутц - Python. Карманный справочник

Жанр: Справочники

Год издания: 2015

Серия: Бестселлеры o’reilly

Фантастика и фэнтези	Детективы и триллеры	Любовные романы	Информация о сайте
Научная	Боевик	Современные	Для правообладателей
Фэнтези	Исторические	Фантастические	Правила & Политика конф.
Боевая	Криминальные	Короткие	Обмен ссылками
Ужасы и мистика	Полицейские	Детективные	Все жанры библиотеки
Космическая	Триллеры	О любви	Отзывы о книгах
Альтернативная история	Шпионские	Исторические	Книги с оценками
Попаданцы	Детские	Эротические 18+
Социальная фантастика	Иронические
Юмористическая	Крутые
Постапокалипсис	Политические
Детективная	Маньяки

Почта сайта:	2019 - 2024 © "КнигаГо" - электронная библиотека. Книги читать онлайн без регистрации полностью или ознакомительные фрагменты с возможностью покупки книги.
Большинство книг на сайте опубликовано легально на правах партнёрской программы ЛитРес. Если Ваша книга была опубликована с нарушениями авторских прав, пожалуйста, направьте Вашу жалобу на или заполните форму обратной связи.
Интересная статья: Изготовление бейджей на заказ