Другие журналы

научное издание МГТУ им. Н.Э. Баумана

НАУКА и ОБРАЗОВАНИЕ

Издатель ФГБОУ ВПО "МГТУ им. Н.Э. Баумана". Эл № ФС 77 - 48211.  ISSN 1994-0408

НАПРАВЛЕНИЕ ИССЛЕДОВАНИЙ «АДАПТИВНОЕ ПОВЕДЕНИЕ»

#7 июль 2004
автор: Редько В. Г.

НАПРАВЛЕНИЕ ИССЛЕДОВАНИЙ

НАПРАВЛЕНИЕ ИССЛЕДОВАНИЙ «АДАПТИВНОЕ ПОВЕДЕНИЕ»

 

В.Г. Редько

Институт оптико-нейронных технологий РАН

E-mail: redko@iont.ru

 

В данном докладе представлен аналитический обзор направления исследований "Адаптивное поведение", цель которого – исследовать архитектуры и принципы функционирования, позволяющие аниматам (модельным организмам) приспосабливаться к переменной внешней среде. Особое внимание уделено  методу обучения с подкреплением (по работам Р. Саттона и  Э. Барто, Массачусетский университет) и теории нейросетевых адаптивных критиков  (исследования П. Вербоса, Д.В. Прохорова и др.). В докладе также рассмотрены оригинальные модели эволюционного возникновения целенаправленного адаптивного поведения и разработки архитектур систем управления адаптивного поведения аниматов на основе теории функциональных систем П.К. Анохина.

 

В конце 80-х - начале 90-х годов возникли два интересных, тесно связанных между собой направления исследований: "Искусственная жизнь" (английское название Artificial Life или ALife)  и "Адаптивное поведение" (Adaptive Behavior). Первая конференция по Искусственной жизни состоялась в 1987 году в Лос Аламосе. Как сказал руководитель этой конференции К. Ленгтон, "основное предположение искусственной жизни состоит в том, что «логическая форма» организма может быть отделена от материальной основы его конструкции". Основной мотивацией исследований Искусственной жизни (ИЖ) служит желание понять и промоделировать формальные принципы организации биологической жизни.

 

Первую международную конференцию по Адаптивному поведению организовали Жан-Аркадий Мейер и Стюарт Вильсон в 1990 году в Париже.  Основной подход направления "Адаптивное поведение" – конструирование и исследование искусственных (в виде компьютерной программы или робота) "организмов", способных приспосабливаться к внешней среде. Эти организмы называются "аниматами" (от англ. animal + robot = animat). Часто используют близкий термин "агент", подразумевая под этим термином модельный искусственный организм.

 

Поведение аниматов имитирует поведение животных. Исследователи направления "Адаптивное поведение" (АП) стараются строить такие модели, которые применимы к описанию поведения как реального животного, так и искусственного анимата.

 

Программа-минимум направления "Адаптивное поведение" – исследовать архитектуры и принципы функционирования, которые позволяют животным или роботам жить и действовать в переменной внешней среде.

Программа-максимум этого направления – попытаться проанализировать эволюцию когнитивных способностей животных и эволюционное происхождение человеческого интеллекта.

 

Как и для ИЖ, для исследований АП характерен синтетический подход: здесь конструируются архитектуры, обеспечивающие "интеллектуальное" поведение аниматов. Причем это конструирование проводится как бы с точки зрения инженера: исследователь сам "изобретает" архитектуры, подразумевая, конечно, что какие-то подобные структуры, обеспечивающие адаптивное поведение, должны быть у реальных животных.

Эти направления используют ряд нетривиальных компьютерных методов:

-       нейронные сети,

-       генетический алгоритм и другие методы эволюционной оптимизации,

-       классифицирующие системы (Classifier Systems),

-       обучение с подкреплением (Reinforcement Learning).

 

АП и ИЖ – активно развивающиеся направления исследований. По этим направлениям регулярно проводятся международные и европейские конференции "Simulation of Adaptive Behavior (From Animal to Animat)", "Artificial Life", "European Conference on Artificial Life". Издаются журналы "Adaptive Behavior" и "Artificial Life".

 

Теория обучения с подкреплением была развита в работах Р. Саттона и Э. Барто (Массачусетский университет).  Общую схему обучения с подкреплением можно охарактеризовать следующим образом.

 

Имеется анимат, взаимодействующий с внешней средой. Время предполагается дискретным: t = 1,2,… В текущей ситуации анимат st выполняет действие at, получает подкрепление rt+1 и попадает в следующую ситуацию st+1 . Цель аниматаPRIVATE "TYPE=PICT;ALT=wpe6.jpg (9342 bytes)" – максимизировать суммарную награду, которую можно получить в будущем в течение длительного периода времени. Предполагается, что анимат имеет свою внутреннюю "субъективную" оценку суммарной награды и в процессе обучения постоянно совершенствует эту оценку. Эта оценка определяется с учетом коэффициента забывания:

 

U(t) = ∑k=0 (γk r(t+k)),                                                                                           

 

где U(t) – оценка суммарной награды, γ – коэффициент забывания, 0 < γ < 1. Коэффициент забывания учитывает, что чем дальше агент «заглядывает» в будущее, тем меньше у него уверенность в оценке награды («рубль сегодня стоит больше, чем рубль завтра»).

 

В процессе обучения анимат формирует политику (стратегию поведения). В докладе характеризуются конкретные методы обучения: метод SARSA и методы на основе нейросетевых адаптивных критиков. Методы  обучения с подкреплением идейно связаны с методом динамического программирования, и в том и другом случае общая оптимизация многошагового процесса принятия решения происходит путем упорядоченной процедуры одношаговых оптимизирующих итераций, причем оценки эффективности тех или иных решений, соответствующие предыдущим шагам процесса, переоцениваются с учетом знаний о возможных будущих шагах.

 

Важное достоинство этого метода обучения с подкреплением – его простота. Т.е. анимат получает от учителя или из внешней среды только сигналы подкрепления rt. Здесь учитель поступает с обучаемым объектом примитивно: "бьет кнутом" (если действия объекта ему не нравятся, rt < 0 ), либо "дает пряник" (в противоположном случае, rt > 0), не объясняя обучаемому объекту, как именно нужно действовать. Это радикально отличает этот метод от таких традиционных в нейронных сетях методах обучения, как метод обратного распространения ошибок, для которого учитель точно определяет, что должно быть на выходе нейронной сети при заданном входе.

 

Материалы доклада отражены в публикациях:

1. Редько В.Г.  Модели адаптивного поведения – естественнонаучный подход к развитию информационных технологий // Информационные технологии и вычислительные системы. 2004. Вып.1. С. 19-43.  См. также: http://wsni2003.narod.ru/Seminars/Redko04.pdf

2. Редько В.Г., Прохоров Д.В. Нейросетевые адаптивые критики // Научная сессия МИФИ-2004. VI Всероссийская научно-техническая конференция "Нейроинформатика-2004". Сборник научных трудов. Часть 2. М.: МИФИ, 2004. С.77-84.

См. также:  http://wsni2003.narod.ru/Seminars/rvgpdv.pdf


Тематические рубрики:
Поделиться:
 
ПОИСК
 
elibrary crossref ulrichsweb neicon rusycon
 
ЮБИЛЕИ
ФОТОРЕПОРТАЖИ
 
СОБЫТИЯ
 
НОВОСТНАЯ ЛЕНТА



Авторы
Пресс-релизы
Библиотека
Конференции
Выставки
О проекте
Rambler's Top100
Телефон: +7 (915) 336-07-65 (строго: среда; пятница c 11-00 до 17-00)
  RSS
© 2003-2018 «Наука и образование»
Перепечатка материалов журнала без согласования с редакцией запрещена
 Тел.: +7 (915) 336-07-65 (строго: среда; пятница c 11-00 до 17-00)