Фил Уиндер - Обучение с подкреплением для реальных задач

	Название:	Обучение с подкреплением для реальных задач
	Автор:	Фил Уиндер
	Жанр:	Искусственный интеллект
	Изадано в серии:	Бестселлеры o’reilly
	Издательство:	БХВ-Петербург
	Год издания:	2023
	ISBN:	978-5-9775-6885-2
	Отзывы:	Комментировать
	Рейтинг:
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера

Краткое содержание книги "Обучение с подкреплением для реальных задач"

Книга посвящена промышленно-ориентированному применению обучения с подкреплением (Reinforcement Learning, RL). Объяснено, как обучать промышленные и научные системы решению любых пошаговых задач методом проб и ошибок— без подготовки узкоспециализированных учебных множеств данных и без риска переобучить или переусложнить алгоритм. Рассмотрены марковские процессы принятия решений, глубокие Q-сети, градиенты политик и их вычисление, методы устранения энтропии и многое другое. Данная книга — первая на русском языке, где теоретический базис RL и алгоритмы даны в прикладном, отраслевом ключе. Для аналитиков данных и специалистов по искусственному интеллекту

Читаем онлайн "Обучение с подкреплением для реальных задач". [Страница - 18]

победившей чемпионов мира по Dota 2, а вместо этого сосредоточиться на
приложениях и примерах из самых разных промышленных отраслей. Я не говорю,
что игровые примеры — пустая трата времени. Игровые компании могут использо
вать RL для многих практических целей, например для помощи в тестировании или
оптимизации внутриигровых вариантов "АГ для максимизации дохода. Мне хочет
ся помочь вам абстрагироваться от хайпа и показать разнообразные области, где
применимо RL. Для того чтобы продемонстрировать, что именно возможно уже
сейчас, я представляю широкий выбор экспериментов, которые лично мне кажутся
интересными.

♦ Область робототехники имеет множество приложений RL, включая улучшение
движения и производственного процесса, игру в бильбоке и переворачивание
блинов [6]. Автономные транспортные средства также являются темой активных
исследований [7].
♦ Вы можете использовать RL для улучшения облачных вычислений. В одной ста
тье рассказано, как оптимизируются приложения с учетом задержки [8], в дру
гой обсуждается соотношение "энергоэффективность/использование" [9]. Охла
ждение центра обработки данных, охлаждение процессора и сетевая маршрути
зация — все это варианты применения RL, используемые сегодня [10-12].
♦ Финансовая отрасль применяет RL для совершения сделок и распределения
портфеля [13, 14]. Также существует значительный интерес к оптимизации
ценообразования в режиме реального времени [15].
♦ Количество энергии, потребляемой при коммунальном обслуживании (через
отопление, воду, свет и т. д.), может быть значительно уменьшено с помощью

36

|

Гпава 1

RL [16]. А электрические сети могут использовать RL для решения ситуаций,
когда спрос неоднороден; дома являются одновременно производителями и по
требителями [17].

♦ RL улучшает управление светофорами и активное управление полосами движе
ния [18, 19]. Умные города также остаются в выигрыше [20].

♦ Недавние статьи предлагают множество вариантов применения RL в здраво
охранении, особенно в областях дозирования и составления схем лечения [21,
22]. RL можно использовать для разработки более совершенных протезов и про
тезных контроллеров [23].
♦ Система образования и электронное обучение могут выиграть благодаря при
цельно подобранным учебным программам на основе RL [24].
Ни один бизнес-сектор не остался незатронутым: игры, технологии, транспорт, фи
нансы, наука и окружающая среда, промышленность, производство и государст
венные службы — все они ссылались на приложения RL.

Я не хочу терять вас в бесконечном списке, поэтому вместо этого я отсылаю
вас на соответствующий веб-сайт1, где у меня есть полный каталог приложе
ний RL.

Любая технология опасна в шаловливых руках. И, помня о популистских аргумен
тах против AI, можно интерпретировать RL как опасное явление. Прошу вас, как
инженер, как человек, подумать о том, что вы строите. Прикиньте, как это повлияет
на других людей? Какие есть риски? Это противоречит вашей морали? Будьте от
ветственны за свою работу перед собой. Если вы не можете этого сделать, вам,
вероятно, не следует этим заниматься. Далее приведены еще три задокументиро
ванных гнусных приложения. У каждого свои этические границы,. Где ваша грани
ца? Какие приложения вам подходят?
♦ Pwnagotchi— это устройство на базе RL, которое активно сканирует, анали
зирует и взламывает Wi-Fi-сети с WPA/WPA2-3anjHToft путем дешифрования
рукопожатий [25].

♦ Исследователи показали, что можно обучить агентов обходить статические
модели вредоносных программ в антивирусных сканерах [26].
♦ Военное ведомство США разрабатывает модели боевых действий, чтобы проде
монстрировать, как автономные роботы могут помочь на поле боя [27].
Я более подробно обсуждаю вопросы безопасности и этики в главе 10,

1 См. https://rl-book.com/applications/?utm_source=oreilly 0.
2: Инициализировать V(5) для всех 5 е d?7, V --">

Оставить комментарий:

Книги схожие с «Обучение с подкреплением для реальных задач» по жанру, серии, автору или названию:

Адаптивный генетический алгоритм, для распределенных систем с произвольной топологией. Автор неизвестен

Автор неизвестен - Адаптивный генетический алгоритм, для распределенных систем с произвольной топологией

Жанр: Алгоритмы и структуры данных

Год издания: 2021

Знакомство с PyTorch: глубокое обучение при обработке естественного языка. Брайан Макмахан

Брайан Макмахан, Делип Рао - Знакомство с PyTorch: глубокое обучение при обработке естественного языка

Жанр: Искусственный интеллект

Год издания: 2020

Серия: Бестселлеры o’reilly

Глубокое обучение: легкая разработка проектов на Python. Сет Вейдман

Сет Вейдман - Глубокое обучение: легкая разработка проектов на Python

Жанр: Python

Год издания: 2021

Серия: Бестселлеры o’reilly

Оптимизация программ на С++. Проверенные методы для повышения производительности. Курт Гантерот

Курт Гантерот - Оптимизация программ на С++. Проверенные методы для повышения производительности

Жанр: C, C++, C#

Год издания: 2017

Серия: Бестселлеры o’reilly

Другие книги из серии «Бестселлеры o’reilly»:

Философия DevOps. Искусство управления IT. Кэтрин Дэниелс

Кэтрин Дэниелс, Дженнифер Энн Дэвис - Философия DevOps. Искусство управления IT

Жанр: Менеджмент ПО

Год издания: 2017

Серия: Бестселлеры o’reilly

Terraform: инфраструктура на уровне кода. Евгений Брикман

Евгений Брикман - Terraform: инфраструктура на уровне кода

Жанр: Программирование: прочее

Год издания: 2020

Серия: Бестселлеры o’reilly

Go: идиомы и паттерны проектирования. Джон Боднер

Джон Боднер - Go: идиомы и паттерны проектирования

Жанр: Go (golang)

Год издания: 2022

Серия: Бестселлеры o’reilly

Марк Лутц - Python. Карманный справочник

Жанр: Python

Год издания: 2015

Серия: Бестселлеры o’reilly

Фантастика и фэнтези	Детективы и триллеры	Любовные романы	Информация о сайте
Научная	Боевик	Современные	Для правообладателей
Фэнтези	Исторические	Фантастические	Правила & Политика конф.
Боевая	Криминальные	Короткие	Обмен ссылками
Ужасы и мистика	Полицейские	Детективные	Все жанры библиотеки
Космическая	Триллеры	О любви	Отзывы о книгах
Альтернативная история	Шпионские	Исторические	Книги с оценками
Попаданцы	Детские	Эротические 18+
Социальная фантастика	Иронические
Юмористическая	Крутые
Постапокалипсис	Политические
Детективная	Маньяки

Почта сайта:	2019 - 2024 © "КнигаГо" - электронная библиотека. Книги читать онлайн без регистрации полностью или ознакомительные фрагменты с возможностью покупки книги.
Большинство книг на сайте опубликовано легально на правах партнёрской программы ЛитРес. Если Ваша книга была опубликована с нарушениями авторских прав, пожалуйста, направьте Вашу жалобу на или заполните форму обратной связи.
Интересная статья: Как выбрать гидрокостюм для дайвинга