Митасов Андрей Павлович :
другие произведения.
Металоция неведомого. Модуль Р. Роботы
Самиздат:
[
Регистрация
] [
Найти
] [
Рейтинги
] [
Обсуждения
] [
Новинки
] [
Обзоры
] [
Помощь
|
Техвопросы
]
Ссылки:
Школа кожевенного мастерства: сумки, ремни своими руками
Комментарии: 1, последний от 12/01/2024.
© Copyright
Митасов Андрей Павлович
(
apm@tut.by
)
Размещен: 12/01/2024, изменен: 11/08/2024. 704k.
Статистика.
Эссе
:
Философия
,
Естествознание
,
Изобретательство
Металоция неведомого
Иллюстрации/приложения: 13 шт.
Скачать
FB2
Ваша оценка:
не читать
очень плохо
плохо
посредственно
терпимо
не читал
нормально
хорошая книга
отличная книга
великолепно
шедевр
Аннотация:
Выжимка информации из Инета по "обучению с подкреплением".
Предварительный анализ.
Крайнее изменение 09.06.2024
"... И все же программный конструкт, в отличие от слов поэта,
реален в том смысле, что он движется и работает,
производя видимые результаты, отличные от него самого.
Он печатает результаты, рисует картинки, издает звуки,
двигает манипуляторами.
В наше время волшебство мифов и легенд стало реальностью.
Стоит набрать правильное заклинание на клавиатуре,
и экран дисплея оживает,
показывая вещи, которых никогда не было
и не могло быть."
Фредерик Брукс - "Мифический человеко-месяц".
Оглавление:
Вместо предисловия.
Введение в "обучение с подкреплением".
Еще одно введение в "обучение с подкреплением".
Терминология "обучения с подкреплением".
"Обучение с подкреплением" для "чайников".
Проблемы обучения с подкреплением.
Классическое изложение обучения с подкреплением.
Комментарии Bing к "краеугольным постулатам" RL.
Немного информации о лидере в области обучении AI-агентов играм.
"Конституция роботов" и констатация реальной ситуации.
ИИ-системы осваивают классическую геометрию.
На пути к ИИ общего назначения - взгляд пятилетней давности.
ROS - Robot Operating System.
Обучение в воображении.
Метод Policy Gradient для "чайников".
Model-Based алгоритм для "чайников".
Обучение в воображении для настоящих "героев-отморозков".
Немного о будущем робототехники.
Следующий раунд вопросов к Copilot.
Обучение с подкреплением" в больших языковых системах.
И снова о "классическом образовании" в RL.
Практические проблемы уравнения Беллмана.
Иллюстрации:
Когг "Bing Общительный и Любопытный" от "Модели Кандинский 2.1".
Когг "Bing Общительный и Любопытный" от "Модели Кандинский 2.2".
Когг "Bing Общительный и Любопытный" от "Модели Кандинский 3.0".
"Иерархическое обучение" от Copilot.
Тральщик "Наставник" от "Модели Kandinsky 3.1".
"Реализация чистой reward function" от Copilot.
Каравелла "Copilot" от "Модели Kandinsky 3.1".
=========
07.12.2023 12:29
Вместо предисловия.
В оглавление.
Прошедший 2023 год можно смело называть годом
больших языковых моделей (LLM) и мультимодальных моделей (MMLM).
В основе большинства успешных LLM лежит технология трансформеров
и обучение методом обратного распространения ошибки.
В основе многих успешных MMLM лежит обучение методом диффузии.
Но этими успешными подходами не ограничивает мир "машинного обучения".
По некоторым прогнозам 2024 год станет годом прорыва в "обучении с подкреплением",
ориентированное в основном на разработку умных роботов,
которое в прошлом году было несколько "в тени"
на фоне блистательного успеха самых разных ГПТэшек и мультимоделей.
И под этим оптимизмом есть определенные основания.
Например, такие:
"Google DeepMind сумела запустить когнитивную эволюцию роботов".
Автор: Корректор
https://aftershock.news/?q=node/1319135
.
6/Дек/23 09:49
Поэтому, чтобы "держать руку на пульсе", появилась мысль,
что стоит завести отдельный модуль,
в котором можно собрать и архивные и свежие материалы на эту тему,
и попытаться как-то их проанализировать.
Кроме того при первом же ознакомлении с этой темой,
выяснилось, что многие идеи/концепции/конструкции в этой области могут иметь
интересные перспективы/варианты применения и в других областях
"машинного обучения", включая и языковые модели и обработку текстов,
на которые в предыдущем году в основном и был ориентирован проект "Металоция".
Кроме того, частично "обучение с подкреплением" используется
и в ГПТэшках и в ММшэках в "выходных фильтрах" этих систем,
для целого ряда задач, и это тоже представляет определенный интерес.
"Обучение с подкреплением" (Reinforcement Learning) (RL)
вообще говоря это достаточно "специфическая" часть нейронаук,
которая возникла и оформилась одной из первых,
и в какой-то мере может считаться "элитарной" частью всего "машинного обучения".
Причина в том, что в основе ее подходов лежит существующее понимание того,
каким образом может/должно возникать сложное поведение в результате
эволюционного развития "аппарата управления" в результате
длительного и целенаправленного обучения не на примерах,
а на взаимодействии со сложной средой
и оценкой собственных действий при этом взаимодействии.
Основоположникам и последователям этого подхода представляется,
что это наиболее короткий путь к созданию общего и сильного ИИ.
Причем эта уверенность иногда достигает такой степени,
что на основе идей "обучения с подкреплением"
строятся даже мировоззренческие концепции и картины Мира, см. например:
"Теория познания, основанная на поведенческих моделях".
Автор: Kilorad
https://habr.com/ru/articles/562560/
13 июн 2021 в 14:36
Надо признать, что освоение "обучения с подкреплением"
дело достаточно трудоемкое и не очень простое.
В этой области сформировался целый корпус свои терминов, подходов, решений,
стандартных задач, метрик, статистик и т.д. и т.п.,
что по первоначалу кажется, что это вообще какая-то новая "terra incognita",
не имеющая связи с "большой землей" ни языковых, ни генеративных ИИ-моделей.
Но это не совсем так, и даже если по первоначалу такое ощущение очень стойкое,
то мере раскапывания материалов какие-то общие точки постепенно находятся,
хотя еще раз надо подчеркнуть, это действительно иная и обширная область
"машинного обучения".
Вот, собственно, и все предисловие.
А теперь можно приступать к процессу "поедания слоника маленькими частями".
======
01.01.2024 15:39
Введение в "обучение с подкреплением".
В оглавление.
Введений в "обучение с подкреплением" достаточно много,
но мне представляется лучше начать с наиболее простого в части изложения:
"Введение в обучение с подкреплением:
от многорукого бандита до полноценного RL агента"
Автор: a-pichugin (Артем Пичугин)
https://habr.com/ru/companies/newprolab/articles/343834/
.
4 дек 2017 в 13:23
Автор оригинала: Arthur Juliani
https://medium.com/@awjuliani/super-simple-reinforcement-learning-tutorial-part-1-fd544fab149
Постарался по максимуму вырезать пока не очень понятные слова,
оставив только самую суть.
//// Начало цитирования.
........
Введение
Основное отличие обучения с подкреплением (reinforcement learning)
от классического машинного обучения
заключается в том, что искусственный интеллект
обучается в процессе взаимодействия с окружающей средой,
а не на исторических данных.
Соединив в себе способность нейронных сетей
восстанавливать сложные взаимосвязи
и самообучаемость агента (системы)
в reinforcement learning, машины достигли огромных успехов,
победив сначала в нескольких видеоиграх Atari,
а потом и чемпиона мира по игре в го.
Если вы привыкли работать с задачами обучения с учителем,
то в случае reinforcement learning действует немного иная логика.
Вместо того, чтобы создавать алгоритм,
который обучается на наборе пар <факторы - правильный ответ>,
в обучении с подкреплением необходимо научить агента
взаимодействовать с окружающей средой,
самостоятельно генерируя эти пары.
Затем на них же он будет обучаться
через систему
наблюдений (observations),
выигрышей (reward)
и действий (actions).
Очевидно, что теперь в каждый момент времени
у нас нет постоянного правильного ответа,
поэтому задача становится немного хитрее.
В этой серии статей мы будем создавать и обучать
агентов обучения с подкреплением.
.......
Решение полноценной задачи обучения с подкреплением
Теперь, ...
перейдем к рассмотрению более сложной задачи,
которая и будет представлять собой пример полноценного reinforcement learning:
оценивая текущее состояние системы,
агент должен выбирать действия,
которые максимизируют выигрыш не только сейчас, но и в будущем.
Системы, в которых может быть решена обучения с подкреплением
называются Марковскими процессами принятия решений
(Markov Decision Processes, MDP).
Для таких систем характерны выигрыши и действия,
обеспечивающие переход из одного состояния в другое,
причем эти выигрыши зависят от текущего состояния системы и решения,
которое принимает агент в этом состоянии.
Выигрыш может быть получен с задержкой во времени.
Формально Марковский процесс принятия решений
может быть определен следующим образом.
MDP состоит из набора всех возможных состояний S и действий А,
причем в каждый момент времени
он находится в состоянии s и совершает действие a из этих наборов.
Таким образом, дан кортеж (s, a)
и для него определены T(s,a)
- вероятность перехода в новое состояние s' и R(s,a) - выигрыш.
В итоге в любой момент времени в MDP
агент находится в состоянии s, принимает решение a
и в ответ получает новое состояние s' и выигрыш r.
Для примера,
даже процесс открывания двери можно представить
в виде Марковского процесса принятия решений.
Состоянием будет наш взгляд на дверь,
а также расположение нашего тела и двери в мире.
Все возможные движения тела, что мы можем сделать,
и являются набором A,
а выигрыш - это успешное открытие двери.
Определенные действия (например, шаг в сторону двери)
приближают нас к достижению цели,
однако сами по себе не приносят выигрыша,
так как его обеспечивает только непосредственно открывание двери.
В итоге, агент должен совершать такие действия,
которые рано или поздно приведут к решению задачи.
Задача стабилизации перевернутого маятника
//// Это классическая задача в обучении с подкреплением,
//// на которой тренируются/проверяются многие модели,
//// называемые AI ботами.
Воспользуемся OpenAI Gym
- платформой для разработки и тренировки AI ботов
с помощью игр и алгоритмических испытаний
и возьмем классическую задачу оттуда:
задача стабилизации перевернутого маятника или Cart-Pole.
В нашем случае суть задачи заключается в том,
чтобы как можно дольше удерживать стержень в вертикальном положении,
двигая тележку по горизонтали:
... в данной системе есть:
Наблюдения.
Агент должен знать, где стержень находится сейчас и под каким углом.
Это наблюдение нейросеть будет использовать
для оценки вероятности того или иного действия.
Отсроченный выигрыш.
Необходимо двигать тележку таким образом,
чтобы это было выгодно как на данный момент,
так и в будущем.