О журнале
Редакционная политика
Редколлегия
Специальности
Авторам
Партнеры
Контакты

05.02.00 Машиностроение и машиноведение
05.07.00 Авиационная и ракетно-космическая техника
05.11.00 Приборостроение, метрология и информационно-измерительные приборы и системы
05.13.00 Информатика, вычислительная техника и управление
01.02.00 Механика

Приложение к журналу

Общие проблемы инженерного образования
Инженер в современной России
Зарубежное образование
История технического прогресса
Будущий инженер

Ключевые слова
Аннотации
Архив рубрик

регистрация
забыли пароль?

Другие журналы

научное издание МГТУ им. Н.Э. Баумана

НАУКА и ОБРАЗОВАНИЕ

Издатель ФГБОУ ВПО "МГТУ им. Н.Э. Баумана". Эл № ФС 77 - 48211. ISSN 1994-0408

НАПРАВЛЕНИЕ ИССЛЕДОВАНИЙ «АДАПТИВНОЕ ПОВЕДЕНИЕ»

#7 июль 2004

автор: Редько В. Г.

НАПРАВЛЕНИЕ ИССЛЕДОВАНИЙ

НАПРАВЛЕНИЕ ИССЛЕДОВАНИЙ «АДАПТИВНОЕ ПОВЕДЕНИЕ»

В.Г. Редько

Институт оптико-нейронных технологий РАН

E-mail: redko@iont.ru

В данном докладе представлен аналитический обзор направления исследований "Адаптивное поведение", цель которого – исследовать архитектуры и принципы функционирования, позволяющие аниматам (модельным организмам) приспосабливаться к переменной внешней среде. Особое внимание уделено методу обучения с подкреплением (по работам Р. Саттона и Э. Барто, Массачусетский университет) и теории нейросетевых адаптивных критиков (исследования П. Вербоса, Д.В. Прохорова и др.). В докладе также рассмотрены оригинальные модели эволюционного возникновения целенаправленного адаптивного поведения и разработки архитектур систем управления адаптивного поведения аниматов на основе теории функциональных систем П.К. Анохина.

В конце 80-х - начале 90-х годов возникли два интересных, тесно связанных между собой направления исследований: "Искусственная жизнь" (английское название Artificial Life или ALife) и "Адаптивное поведение" (Adaptive Behavior). Первая конференция по Искусственной жизни состоялась в 1987 году в Лос Аламосе. Как сказал руководитель этой конференции К. Ленгтон, "основное предположение искусственной жизни состоит в том, что «логическая форма» организма может быть отделена от материальной основы его конструкции". Основной мотивацией исследований Искусственной жизни (ИЖ) служит желание понять и промоделировать формальные принципы организации биологической жизни.

Первую международную конференцию по Адаптивному поведению организовали Жан-Аркадий Мейер и Стюарт Вильсон в 1990 году в Париже. Основной подход направления "Адаптивное поведение" – конструирование и исследование искусственных (в виде компьютерной программы или робота) "организмов", способных приспосабливаться к внешней среде. Эти организмы называются "аниматами" (от англ. animal + robot = animat). Часто используют близкий термин "агент", подразумевая под этим термином модельный искусственный организм.

Поведение аниматов имитирует поведение животных. Исследователи направления "Адаптивное поведение" (АП) стараются строить такие модели, которые применимы к описанию поведения как реального животного, так и искусственного анимата.

Программа-минимум направления "Адаптивное поведение" – исследовать архитектуры и принципы функционирования, которые позволяют животным или роботам жить и действовать в переменной внешней среде.

Программа-максимум этого направления – попытаться проанализировать эволюцию когнитивных способностей животных и эволюционное происхождение человеческого интеллекта.

Как и для ИЖ, для исследований АП характерен синтетический подход: здесь конструируются архитектуры, обеспечивающие "интеллектуальное" поведение аниматов. Причем это конструирование проводится как бы с точки зрения инженера: исследователь сам "изобретает" архитектуры, подразумевая, конечно, что какие-то подобные структуры, обеспечивающие адаптивное поведение, должны быть у реальных животных.

Эти направления используют ряд нетривиальных компьютерных методов:

- нейронные сети,

- генетический алгоритм и другие методы эволюционной оптимизации,

- классифицирующие системы (Classifier Systems),

- обучение с подкреплением (Reinforcement Learning).

АП и ИЖ – активно развивающиеся направления исследований. По этим направлениям регулярно проводятся международные и европейские конференции "Simulation of Adaptive Behavior (From Animal to Animat)", "Artificial Life", "European Conference on Artificial Life". Издаются журналы "Adaptive Behavior" и "Artificial Life".

Теория обучения с подкреплением была развита в работах Р. Саттона и Э. Барто (Массачусетский университет). Общую схему обучения с подкреплением можно охарактеризовать следующим образом.

Имеется анимат, взаимодействующий с внешней средой. Время предполагается дискретным: t = 1,2,… В текущей ситуации анимат s_t выполняет действие a_t, получает подкрепление r_t₊₁ и попадает в следующую ситуацию s_t₊₁. Цель аниматаPRIVATE "TYPE=PICT;ALT=wpe6.jpg (9342 bytes)" – максимизировать суммарную награду, которую можно получить в будущем в течение длительного периода времени. Предполагается, что анимат имеет свою внутреннюю "субъективную" оценку суммарной награды и в процессе обучения постоянно совершенствует эту оценку. Эта оценка определяется с учетом коэффициента забывания:

U(t) = ∑^∞_k=₀ (γ^k r(t+k)),

где U(t) – оценка суммарной награды, γ – коэффициент забывания, 0 < γ < 1. Коэффициент забывания учитывает, что чем дальше агент «заглядывает» в будущее, тем меньше у него уверенность в оценке награды («рубль сегодня стоит больше, чем рубль завтра»).

В процессе обучения анимат формирует политику (стратегию поведения). В докладе характеризуются конкретные методы обучения: метод SARSA и методы на основе нейросетевых адаптивных критиков. Методы обучения с подкреплением идейно связаны с методом динамического программирования, и в том и другом случае общая оптимизация многошагового процесса принятия решения происходит путем упорядоченной процедуры одношаговых оптимизирующих итераций, причем оценки эффективности тех или иных решений, соответствующие предыдущим шагам процесса, переоцениваются с учетом знаний о возможных будущих шагах.

Важное достоинство этого метода обучения с подкреплением – его простота. Т.е. анимат получает от учителя или из внешней среды только сигналы подкрепления r_t. Здесь учитель поступает с обучаемым объектом примитивно: "бьет кнутом" (если действия объекта ему не нравятся, r_t< 0 ), либо "дает пряник" (в противоположном случае, r_t> 0), не объясняя обучаемому объекту, как именно нужно действовать. Это радикально отличает этот метод от таких традиционных в нейронных сетях методах обучения, как метод обратного распространения ошибок, для которого учитель точно определяет, что должно быть на выходе нейронной сети при заданном входе.

Материалы доклада отражены в публикациях:

1. Редько В.Г. Модели адаптивного поведения – естественнонаучный подход к развитию информационных технологий // Информационные технологии и вычислительные системы. 2004. Вып.1. С. 19-43. См. также: http://wsni2003.narod.ru/Seminars/Redko04.pdf

2. Редько В.Г., Прохоров Д.В. Нейросетевые адаптивые критики // Научная сессия МИФИ-2004. VI Всероссийская научно-техническая конференция "Нейроинформатика-2004". Сборник научных трудов. Часть 2. М.: МИФИ, 2004. С.77-84.

См. также: http://wsni2003.narod.ru/Seminars/rvgpdv.pdf

Тематические рубрики:

Экобионика

Поделиться:

Расширеный поиск

Подписаться на новости

ЮБИЛЕИ

14 января 2017 год. Камышная Э.Н., доцент кафедры ИУ-4 МГТУ им. Н.Э.Баумана

29 января 2016 год Шахнов В.А., член-корреспондент РАН, д.т.н., профессор МГТУ им. Н.Э.Баумана

ФОТОРЕПОРТАЖИ

СОБЫТИЯ

Всероссийская олимпиада студентов «Я — профессионал» 2022

Юбилейный, V сезон всероссийской олимпиады студентов «Я – профессионал» запущен!

НОВОСТНАЯ ЛЕНТА

26.05.2022
Всероссийская олимпиада студентов «Я — профессионал»

15.06.2018
Искусcтвенный интеллект научит горожан экономить время

19.01.2017
На сайте ВАК размещена справочная информация об изданиях, входящих в международные реферативные базы данных и системы цитирования

4.01.2017
На сайте ВАК размещена обновленная информация, о перечне рецензируемых научных изданий

19.12.2016
В МГТУ им.Н.Э.Баумана состоялся региональный этап Всероссийского Конкурса «IT-Прорыв»

Телефон: +7 (915) 336-07-65 (строго: среда; пятница c 11-00 до 17-00)

RSS

© 2003-2024 «Наука и образование»
Перепечатка материалов журнала без согласования с редакцией запрещена
Тел.: +7 (915) 336-07-65 (строго: среда; пятница c 11-00 до 17-00)