Фил Уиндер - Обучение с подкреплением для реальных задач
Название: | Обучение с подкреплением для реальных задач | |
Автор: | Фил Уиндер | |
Жанр: | Искусственный интеллект | |
Изадано в серии: | Бестселлеры o’reilly | |
Издательство: | БХВ-Петербург | |
Год издания: | 2023 | |
ISBN: | 978-5-9775-6885-2 | |
Отзывы: | Комментировать | |
Рейтинг: | ||
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера |
Краткое содержание книги "Обучение с подкреплением для реальных задач"
Книга посвящена промышленно-ориентированному применению обучения с подкреплением (Reinforcement Learning, RL). Объяснено, как обучать промышленные и научные системы решению любых пошаговых задач методом проб и ошибок— без подготовки узкоспециализированных учебных множеств данных и без риска переобучить или переусложнить алгоритм. Рассмотрены марковские процессы принятия решений, глубокие Q-сети, градиенты политик и их вычисление, методы устранения энтропии и многое другое. Данная книга — первая на русском языке, где теоретический базис RL и алгоритмы даны в прикладном, отраслевом ключе. Для аналитиков данных и специалистов по искусственному интеллекту
Читаем онлайн "Обучение с подкреплением для реальных задач". [Страница - 18]
приложениях и примерах из самых разных промышленных отраслей. Я не говорю,
что игровые примеры — пустая трата времени. Игровые компании могут использо
вать RL для многих практических целей, например для помощи в тестировании или
оптимизации внутриигровых вариантов "АГ для максимизации дохода. Мне хочет
ся помочь вам абстрагироваться от хайпа и показать разнообразные области, где
применимо RL. Для того чтобы продемонстрировать, что именно возможно уже
сейчас, я представляю широкий выбор экспериментов, которые лично мне кажутся
интересными.
♦ Область робототехники имеет множество приложений RL, включая улучшение
движения и производственного процесса, игру в бильбоке и переворачивание
блинов [6]. Автономные транспортные средства также являются темой активных
исследований [7].
♦ Вы можете использовать RL для улучшения облачных вычислений. В одной ста
тье рассказано, как оптимизируются приложения с учетом задержки [8], в дру
гой обсуждается соотношение "энергоэффективность/использование" [9]. Охла
ждение центра обработки данных, охлаждение процессора и сетевая маршрути
зация — все это варианты применения RL, используемые сегодня [10-12].
♦ Финансовая отрасль применяет RL для совершения сделок и распределения
портфеля [13, 14]. Также существует значительный интерес к оптимизации
ценообразования в режиме реального времени [15].
♦ Количество энергии, потребляемой при коммунальном обслуживании (через
отопление, воду, свет и т. д.), может быть значительно уменьшено с помощью
36
|
Гпава 1
RL [16]. А электрические сети могут использовать RL для решения ситуаций,
когда спрос неоднороден; дома являются одновременно производителями и по
требителями [17].
♦ RL улучшает управление светофорами и активное управление полосами движе
ния [18, 19]. Умные города также остаются в выигрыше [20].
♦ Недавние статьи предлагают множество вариантов применения RL в здраво
охранении, особенно в областях дозирования и составления схем лечения [21,
22]. RL можно использовать для разработки более совершенных протезов и про
тезных контроллеров [23].
♦ Система образования и электронное обучение могут выиграть благодаря при
цельно подобранным учебным программам на основе RL [24].
Ни один бизнес-сектор не остался незатронутым: игры, технологии, транспорт, фи
нансы, наука и окружающая среда, промышленность, производство и государст
венные службы — все они ссылались на приложения RL.
Я не хочу терять вас в бесконечном списке, поэтому вместо этого я отсылаю
вас на соответствующий веб-сайт1, где у меня есть полный каталог приложе
ний RL.
Любая технология опасна в шаловливых руках. И, помня о популистских аргумен
тах против AI, можно интерпретировать RL как опасное явление. Прошу вас, как
инженер, как человек, подумать о том, что вы строите. Прикиньте, как это повлияет
на других людей? Какие есть риски? Это противоречит вашей морали? Будьте от
ветственны за свою работу перед собой. Если вы не можете этого сделать, вам,
вероятно, не следует этим заниматься. Далее приведены еще три задокументиро
ванных гнусных приложения. У каждого свои этические границы,. Где ваша грани
ца? Какие приложения вам подходят?
♦ Pwnagotchi— это устройство на базе RL, которое активно сканирует, анали
зирует и взламывает Wi-Fi-сети с WPA/WPA2-3anjHToft путем дешифрования
рукопожатий [25].
♦ Исследователи показали, что можно обучить агентов обходить статические
модели вредоносных программ в антивирусных сканерах [26].
♦ Военное ведомство США разрабатывает модели боевых действий, чтобы проде
монстрировать, как автономные роботы могут помочь на поле боя [27].
Я более подробно обсуждаю вопросы безопасности и этики в главе 10,
1 См. https://rl-book.com/applications/?utm_source=oreilly 0.
2: Инициализировать V(5) для всех 5 е d?7, V --">
Книги схожие с «Обучение с подкреплением для реальных задач» по жанру, серии, автору или названию:
Автор неизвестен - Адаптивный генетический алгоритм, для распределенных систем с произвольной топологией Жанр: Алгоритмы и структуры данных Год издания: 2021 |
Брайан Макмахан, Делип Рао - Знакомство с PyTorch: глубокое обучение при обработке естественного языка Жанр: Искусственный интеллект Год издания: 2020 Серия: Бестселлеры o’reilly |
Сет Вейдман - Глубокое обучение: легкая разработка проектов на Python Жанр: Python Год издания: 2021 Серия: Бестселлеры o’reilly |
Курт Гантерот - Оптимизация программ на С++. Проверенные методы для повышения производительности Жанр: C, C++, C# Год издания: 2017 Серия: Бестселлеры o’reilly |
Другие книги из серии «Бестселлеры o’reilly»:
Кэтрин Дэниелс, Дженнифер Энн Дэвис - Философия DevOps. Искусство управления IT Жанр: Менеджмент ПО Год издания: 2017 Серия: Бестселлеры o’reilly |
Евгений Брикман - Terraform: инфраструктура на уровне кода Жанр: Программирование: прочее Год издания: 2020 Серия: Бестселлеры o’reilly |
Джон Боднер - Go: идиомы и паттерны проектирования Жанр: Go (golang) Год издания: 2022 Серия: Бестселлеры o’reilly |
Марк Лутц - Python. Карманный справочник Жанр: Python Год издания: 2015 Серия: Бестселлеры o’reilly |