Burtsev

Эволюционно-кибернетический подход к моделированию адаптивного поведения

М.С. Бурцев

ИПМ им. М.В. Келдыша РАН, mbur@narod.ru

Аннотация. В первой методологической части статьи обсуждается возможность применения идей, концепций и методов эволюционной эпистемологии и эволюционной кибернетики к моделированию адаптивного поведения. Во второй части излагается конкретная оригинальная модель целенаправленного адаптивного поведения.

Введение

Что такое адаптивное поведение, и от чего можно отталкиваться при создании адаптивных систем? Попробуем поискать ответ в синтезе эволюционного и кибернетического подхода к адаптивному поведению, тем более что в этой области существуют серьезные теоретические наработки, такие как – теория функциональных систем [Анохин, 1973; Швырков, 1978], эволюционная эпистемология [Поппер, 2000; Кемпбелл, 2000], конструктивизм [Heylighen, 1997; Ziemke, 2001] и теория метасистемных переходов [Турчин, 2000]. В заключительной части работы будет представлена попытка применить данный подход к конкретной модели.

1. Эволюция – естественный создатель адаптивных систем

Эволюция – процесс отбора наиболее приспособленных организмов, т.е. организмов обладающих наиболее эффективным поведением, обеспечивающим выживание, но адаптивное поведение невозможно без знаний об окружающей среде. Откуда же берутся эти знания?

Живые организмы постоянно сталкиваются с различными проблемами, требующими неординарного поведения. Для решения таких проблем недостаточно простого анализа ситуации, использования накопленного опыта, ведь в такую ситуацию животное еще не попадало. Следовательно, для того, чтобы адаптироваться в таких условиях, животному необходимо сначала создать гипотезу о том, какие действия приведут его к цели. Понятно, что не существует никакого способа точно определить, окажется эта гипотеза успешной или нет, пока она не будет проверена в процессе взаимодействия с окружающей средой. Эти рассуждения позволяют представить процесс адаптации в нестандартных условиях следующим образом. После появления проблемы появляются попытки ее решить, эти попытки заключаются в том, что порождается множество пробных теорий, каждая из которых критически рассматривается, проверяется на наличие ошибок и т.д. Этап проверки является аналогом дарвиновского естественного отбора. Решение первоначальной проблемы не может не вызвать новые вопросы, и процесс повторяется. Одним из известнейших исследователей теории познания Карлом Поппером была предложена следующая схема для описания процесса решения проблем [Поппер, 2000]:

P₁ -> ТТ -> ЕЕ -> Р₂,

где P₁ – исходная проблема, ТТ – пробные теории, ЕЕ – устранение ошибок (error elimination), Р₂ – новые проблемы.

Накопление знаний при таком подходе можно кратко изложить в виде следующих основных тезисов [Heylighen, 1995]:

1. Принцип «слепой вариации и естественного отбора» заключается в предположении о том, что процесс порождения новых знаний (гипотез) на самом верхнем уровне слеп, то есть не существует возможности на основе уже имеющихся знаний определить заранее, какая из потенциальных гипотез более предпочтительна. Лишь после того, как гипотезы выдвинута, она может быть проверена, а затем отброшена или сохранена (отобрана).

2. Понятие «замещающего селектора». Новые знания не обязательно должны отбираться при непосредственном взаимодействии с окружающим миром, предварительный отбор может происходить на основе уже имеющихся представлений о действительности. Таким образом, результаты предыдущих пробных попыток могут в некоторой степени «замещать» отбор, производимый средой.

3. В процессе эволюции замещающие селекторы образуют все более и более глубокую вложенную иерархию. При надстройке подобной иерархии может происходить модификация (как описано в п. 1) промежуточных уровней под действием вновь возникающего знания.

Представление о замещающем селекторе как инструменте познания, который возник в процессе адаптации живых существ в мире, является важным шагом в понимании процесса получения знаний. Это понятие было введено Дональдом Кэмпбелом автором термина "эволюционная эпистемология". В качестве примеров замещающих селекторов можно назвать инстинкты животных, кантовские понятия a priori, жизненный опыт конкретного человека, человеческое общество, культуру. Порожденные на том или ином уровне развития познающих систем (от простейших организмов до человеческого общества) замещающие селекторы образуют иерархию, в которой одни селекторы могут отбирать другие, и лишь после прохождения пробной теорией всей пирамиды она приходит в соприкосновение с действительностью. Иерархию замещающих селекторов можно рассматривать как целостную модель окружающего познающего субъекта мира.

2. Кибернетика. Знание, как модель

Рассматривая получение знаний в свете эволюционных представлений, мы в основном имели дело с проблемой того, какие внешние по отношению к знанию причины влияют на его развитие, и каковы механизмы появления новых знаний, адаптаций. Затрагивая организацию знания, мы лишь отметили, что знание можно представить в виде иерархии замещающих селекторов. Попытаемся теперь подробнее разобраться в вопросе: «Какова структура знания?».

Чем является знание для живого организма с кибернетической точки зрения? Как оно используется им? Отличительной чертой всего живого является целенаправленность. С телеологической точки зрения знание есть инструмент, используемый для достижения определенной цели. Это инструмент, который нужен для управления собственным состоянием и состоянием некоторой части окружающего мира, где управление служит для достижения цели. Естественно рассмотреть всю эволюцию как развитие иерархических систем управления, что и было сделано В.Ф. Турчиным в его «Феномене науки» [Турчин, 2000].

Кибернетика рассматривает знание, как некоторую динамическую модель окружающей субъекта (систему) действительности. Для достижения цели система должна выработать (совершить) определенное действие. Знание необходимо для выбора действия или последовательности действий, адекватных цели. Знание должно давать возможность предсказывать результат данного действия в данной ситуации до того, как это действие совершено. Следовательно, модель нужна для порождения предсказаний.

Схема взаимодействия адаптивной системы с окружающей средой, показанная на рис. 1, позволяет наглядно представить, как соотносится динамика процессов во внешнем мире и моделирование, имеющее место внутри системы [Turchin, 1993]. Первоначальное представление, являющееся некоторым внутренним состоянием кибернетической системы и связанное с определенным состоянием мира, используется при порождении прогноза, заключающемся в вычислении нового внутреннего состояния, соответствующего ожидаемому состоянию мира. Моделирование необходимо для выбора такого действия, которое при подстановке в модель для данного представления дает новое представление наиболее близкое к целевому состоянию системы.

Действие, выбранное в результате моделирования, может быть пустым, это значит, что система не производит никаких действий, а просто наблюдает за развитием событий.

Предсказания, порождаемые при помощи знания, не обязательно должны быть проверяемы непосредственными наблюдениями. Предсказания, не имеющие возможности непосредственной проверки, могут использоваться при получении проверяемого прогноза на следующем шаге моделирования или через несколько шагов. Кроме того, некоторые знания могут использоваться для порождения других знаний, то есть некоторая модель может порождать другие модели, некоторые из которых будут использованы для непосредственного получения результатов, а некоторые – для дальнейшей генерации новых моделей. Таким образом, знание можно рассматривать, как иерархический генератор предсказаний.

При иерархической генерации знаний (моделей) модели нижних уровней порождаются моделями верхних уровней.

Рис. 1. Схема моделирования.

3. Адаптивные системы с точки зрения эволюционной кибернетики

Попробуем кратко обобщить требования к адаптивным системам, предъявляемые эволюционно-кибернетическим подходом.

Целенаправленность. Поведение адаптивной системы подчиняется иерархии целей. На самом верху этой иерархии находятся цели, заданные конструктором системы.

Знания. Знания необходимы системе для достижения целей. Знания являются моделью динамики окружающей систему среды, и позволяют получить прогноз этой динамики. Если знания позволяют получить желаемый результат, т.е. достичь цели, то они верны. Иерархия знаний и целей взаимосвязаны, если при достижении определенной цели вырабатывается новое знание, то оно может приводить к разбиению исходной цели на подцели.

Обучение. Если поведение системы не позволяет получить результат, который соответствует цели, вызвавшей это поведение, то включаются механизмы обучения. Так как невозможно заранее узнать, какое действие или последовательность действий приведут к желаемому результату, обучение должно представлять собой стохастическое порождение пробных гипотез на основе имеющихся знаний. После создания пробных гипотез, они проверяются на адекватность поставленной цели, причем первоначальный отбор гипотез может осуществляться при помощи внутренней модели окружающей среды. Гипотеза, применение которой показало ее эффективность в контексте данной цели, включается в иерархию знаний.

4. Модель целенаправленного адаптивного поведения

Рассматриваемая модель является развитием работы [Бурцев и др., 2000], в которой изучалось влияние мотивации на адаптивное поведение.

Модель представляет собой искусственный мир в двухмерном замкнутом пространстве (тор). Пространство разбито на клетки, в которых могут находиться агенты и их пища. В одной клетке не может быть больше одного агента. Время дискретно. В каждый такт времени агент должен совершить какое-либо действие. Через определенные промежутки времени в клетках с некоторой вероятностью появляется пища, потребляемая агентами. Каждый агент имеет внутренний энергетический ресурс, который пополняется при питании и расходуется на выполнение действий. Если энергетический ресурс агента уменьшается до 0, то агент погибает. Агенты могут получать информацию о состоянии окружающего их мира и своем внутреннем состоянии, совершать определенные действия.

Система управления агента состоит из однослойной модульной нейронной сети, состоящей из рецепторных (входных) и эффекторных (выходных) модулей. Набор модулей, а так же параметры связи между ними определяются геномом агента.

Популяция агентов эволюционирует во времени за счет изменения структуры и весов синапсов управляющей нейронной сети.

Агент имеет направление, относительно которого ориентировано его поле зрения и действия совершаемые им. Поле зрения состоит из 4-х клеток расположенных – прямо, справа, слева и под агентом.

В каждый такт времени агент совершает одно из следующих действий (каждому действию соответствует выход нейронной сети): отдыхать, есть, двигаться (прямо), поворачиваться влево/вправо, ударять, делиться.

Значения на выходах нейронной сети y_j вычисляется умножением вектора входных сигналов на матрицу весов связей входов с выходами, где входы соответствуют рецепторам, а выходы – эффекторам:

Y_j = Σ_i w_ij x_i,

где x_i – входы j-го нейрона, а w_ij – его синаптические веса.

Действие, соответствующее нейрону с наибольшей суммой, выполняется агентом. Веса матрицы связей определяются геномом агента.

Геном агента S состоит из двух хромосом S = (W, M). Первая хромосома содержит веса синапсов нейронной сети, представленные целыми числами. Наличие или отсутствие модуля в структуре сети определяется значением соответствующего двоичного числа во второй хромосоме.

Изменение генома происходит от родителя к потомку. В результате выработки агентом действия «делиться» появляется потомок. Геном потомка задается при помощи следующего генетического алгоритма:

1. добавить к каждому гену W_i хромосомы, определяющей вес связи, случайную величину x, равномерно распределенную на интервале [-p_m, p_m];

2. изменить число M_j, определяющее наличие того или иного модуля, на противоположное с малой вероятностью p_s.

Модель была реализована в виде компьютерной программы. В начале каждого компьютерного эксперимента мир заселялся популяцией агентов, имеющих минимальный набор рецепторов и эффекторов. Агент начальной популяции мог видеть пищу в той клетке, где он находился, и в клетке находящейся перед ним. А также совершать следующие действия: есть, двигаться и делиться. Веса синапсов были заданы таким образом, чтобы обеспечить агенту два начальных инстинкта – питания и размножения. Если агент видел пищу рядом с собой, то он должен был выполнять действие «есть», если в соседней клетке, то двигаться в соседнюю клетку; если он не видел ничего, то вызывалось действие «делиться». Очевидно, что агенты начальной популяции обладали лишь примитивной стратегией.

Изменение энергетического ресурса агента при совершении действий было задано следующим образом. При отдыхе агент затрачивал наименьшее количество энергии, при повороте направо/налево в два раза больше, при движении, питании и делении еще в два раза больше, причем после деления половина ресурса родителя передавалась потомку. Если агент совершал действие «есть», и в его клетке была еда, то его энергетический ресурс увеличивался. Агент мог совершить действие «ударить»; при этом если перед агентом находился сосед, то у последнего отнималась часть энергии и передавалась нападающему.

Цель экспериментов заключалась в том, чтобы показать возможность возникновения иерархии целей у агентов в процессе искусственной эволюции. Так как в нашей модели поведение отдельного агента не изменялось за время его существования, то адаптация к среде проходила на уровне популяции. Естественно рассматривать основную цель популяции как цель выживания в данной среде. Для отдельного агента она будет являться метацелью, определяющей цели его существования – выживания и размножения. Но и эти цели в свою очередь могут быть разбиты на подцели, которые позволяют оптимизировать процесс достижения целей высших уровней.

Как происходит формирование иерархии целей при экспериментах с моделью? Сначала заметим, что структура целей, обеспечивающая наиболее эффективное поведение агентов, определяется внешней по отношению к ним средой, а сама эволюционирующая популяция представляет собой стохастический генератор стратегий. Каждая конкретная стратегия определяет поведение отдельного агента. Агенты с удачной стратегией выживают и дают потомство, а плохо приспособленные гибнут.

Стратегию агента можно представить, как набор действий, направленный на достижение некоторых целей. Усредняя по всей популяции веса матрицы связей нейронной сети, выработанные в процессе искусственной эволюции, мы можем представить себе, каким образом осуществляется управление поведением агентов в популяции. Для типичного эксперимента это поведение можно представить в виде блок-схемы (рис. 2).

Результаты эксперимента показывают, что из примитивной стратегии, заданной нами для агентов начальной популяции, развивается достаточно сложное поведение, которое можно назвать целенаправленным. Так первоначальный «инстинкт» агента, направленный на получение энергии, оптимизируется за счет появления еще одного уровня подцелей направленных соответственно: на само питание, на поиск пищи, борьбу. Для эффективного управления поведением, имеющем подобную многоуровневую иерархию целей, необходимо иметь информацию о том, какие цели являются предпочтительными для агента в данный момент времени. Для этого агенту необходимо знать не только состояние окружающей его среды, но и своего энергетического ресурса. В нашей модели эта информация может быть получена от входов, связанных со значением и изменением ресурса за последний такт. Значения на этих входах могут быть интерпретированы, как мотивации [Анохин, 1973] к выбору того, или иного типа поведения. Так значение внутреннего ресурса является мотивацией к размножению. Если ресурса много, то отсутствие раздражителей во внешней среде приводит к делению агента, а если мало, то к поиску пищи. Изменение внутреннего ресурса используется агентами, как мотивация к нападению на впереди стоящего агента. Если эта мотивация положительна, т.е. предыдущее действие привело к увеличению энергии, то агент нападает на соседа. Если же она отрицательна, то атака прекращается.

Рис. 2. Дерево условий для управления выбором подцелей

Итак, эксперименты с моделью показывают, что в процессе искусственной эволюции в популяции агентов вырабатывается поведение, которое можно рассматривать, как поведение, управляемое в соответствии с некоторой иерархией целей. Причем эта иерархия постепенно усложняется в процессе эволюции. Формирование иерархии целей приводит к потребности в механизме выбора текущих подцелей. В качестве такого механизма выступают мотивации.

Заключение

Таким образом, проанализированы методологические подходы к моделированию адаптивного поведения. Исследование приведенной конкретной модели показывает, что мы, хотя уже можем изучать отдельные механизмы адаптивного поведения, но еще очень далеки от их полного воплощения в моделях. Впереди большая и интересная работа по моделированию целостного адаптивного поведения автономных агентов.

Благодарности

Советы Владимира Георгиевича Редько очень помогали мне в процессе работы над моделью и при подготовке данного сообщения, я хотел бы от всего сердца выразить ему свою благодарность. Так же я благодарен Константину Владимировичу Анохину за плодотворное обсуждение идей, имеющих отношение к данной работе.

Список литературы

[Анохин 1973] П.К. Принципиальные вопросы общей теории функциональных систем // Принципы системной организации функций. – М.: Наука, 1973. http://www.keldysh.ru/pages/BioCyber/RT/Functional.pdf

[Бурцев 2000 и др.] Бурцев М.С., Гусарев Р.В., Редько В.Г. Модель эволюционного возникновения целенаправленного адаптивного поведения 1. Случай двух потребностей. // Препринт ИПМ РАН, 2000, N 43. http://www.keldysh.ru/pages/BioCyber/PrPrint/PrPrint.htm

[Кемпбелл 2000] Кемпбелл Д. Эволюционная эпистемология // Эволюционная эпистемология и логика социальных наук: Карл Поппер и его критики. – М.: Эдиториал УРСС, 2000, с. 92-146.

[Поппер 1973] Поппер К. Эволюционная эпистемология // Эволюционная эпистемология и логика социальных наук: Карл Поппер и его критики. – М.: Эдиториал УРСС, 2000, с. 57-74.

[Турчин 2000] Турчин В.Ф. Феномен науки: Кибернетический подход к эволюции. Изд. 2-е – М.: ЭТС, 2000. http://refal.net/turchin/phenomenon

[Швырков 1978] Швырков В.Б. Теория функциональной системы как методологическая основа нейрофизиологии поведения // Успехи физиологических наук, т. 9, №1, 1978, с. 81-105.

[Heylighen 1997] Heylighen F. Epistemological Constructivism // In: F. Heylighen, C. Joslyn and V. Turchin (editors): Principia Cybernetica Web – http://pespmc1.vub.ac.be/CONSTRUC.html , 1997

[Heylighen 1995] Heylighen F. Evolutionary Epistemology // In: F. Heylighen, C. Joslyn and V. Turchin (editors): Principia Cybernetica Web – http://pespmc1.vub.ac.be/ EVOLEPIST.html , 1995

[Turchin 1993] Turchin V. On Cybernetic Epistemology // Systems Research, Vol.10, No.1, 1993, p. 3-28. http://www.keldysh.ru/mrbur-web/ philosophy/turchin

[Ziemke 2001] Ziemke T. The Construction of ‘Reality’ in the Robot: Constructivist Perspectives on Situated Artificial Intelligence and Adaptive Robotics // Foundations of Science, vol.6, no.1–3:163–233, 2001.