Оптимальное поведение системы. Основные принципы оптимального поведения. При этом с очевидностью выполняются соотношения

Введение к работе

Актуальность проблемы. Одной из характерных тенденций современного этапа развития науки является формирование новых направлений, объединяющих различные области научного знания. Именно к таким направлениям принадлежат исследования в области системного анализа, относящиеся к проблемам принятия решений. Как отмечает академик Н.Н.Моисеев, системный анализ -это дисциплина, занимающаяся проблемами принятия решений в условиях, когда выбор альтернативы требует анализа разнообразной сложной информации. Поэтому методические концепции, аппаратные методы реализации системного анализа основываются на общей теории систем и на дисциплинах, занимающихся проблемами принятия решений - теории исследования операций, общей теории управления и теории игр.

При построении математически моделей функционирования или развития даже сравнительно небольших реальнък систем исследователи сталкиваются с необходимостью учета сложных взаимосвязей компонент модели, оказывающих действеачое влияние на реализацию альтернатив развития и достижение поставленных целей. Значительное число сложных систем управления характеризуется конфликтностью процесса принятия решений, что является следствием наличия у ряда субъектов управления, системой различных представлений как о глобальной цели развития системы, так и локальных целях и критериях развития ее элементов.

Еще одним характерным признаком сложных систем является их иерархическая структура, которая выражается как-в наличии в системо вертикально соподчиненных подсистем, та:с и в иерархии процесса управления.

Иерархическая структура управления в слозшой системе представляет собой последовательность уровней управления, следующих друг за другом в порядке определенного приоритета. Одной из причин появления иерархической структуры в системах управления и принятия решений является большой объем информации об управляемых процессах в системе, невозможность обработки этой информации об управляемых процессах одним управляющим центром. Другой причиной является существующая в реальных системах децентрализация процесса принятия решений, когда олемсн-

4 -ты, подчиненные центру, вырабатывают управляюче воздействия

исходя из решений центра и с учетом собственных интересов.

К настоящему времени лучше всего изучены двухуровневые статические и динамические системы, а также некоторые классы систем с иерархической структурой частного вида.

Задачи управления в конфликтных двухуровневых системах, впервые сформулированные в 30-х годах в связи с исследованиями в области экономики, получили затем свое развитие и изучались многими советскими и зарубежными исследователями.

Основы информационной теории иерархических систем были разработаны Н.Н.Моисеевым, й.Б.Гермейером, А.Ф.Кононенко и их учениками. Одной из основных задач моделирования конфликтных систем, как отмечает Н.Н,Воробьев, является конструирование и анализ принципов оптимальности. Вопрос о принципах оптимальности, различных модификациях равновесия продолжает привле -кать внимание специалистов и широко обсуждается в литературе, например, в работах Э.И.Вилкаса, Н.Н.Воробьева, В.С.Вубялиса, Э.Дамме, Д.М.Крепса и др.

Разработка проблематики конфликтных динамических систем с иерархической структурой базируется на основополагаямдих результатах в теории дифференциальных игр, полученных в конце 60-х - начале 70-х годов Л.С.Понтрягиным и Н.Н.Краеовским и развитых в работах А.Ф.Кононенко, В.Н.Лагунова, М.С.Никольского, Ю.С.Осипова, Н.Н.Петрова, Л.А.Петросяна, Б.Н.Пшеничного, Н.Ю.Сатимова, А.И.Субботина, Г.В.Томского и многих других советских и зарубежных математиков.

Необходимость исследования иерархических дифференциальных игр подчеркивалась в работах А.Ф.Кононенко, А.Ф.Клейменова, Н.С.Кукушкина, А.Бапчи, Т.Базара, внесших значительный Бклад в разработку возникающих здесь проблем.

Фундаментальной проблемой, которая в последние годы привлекла к себе внимание многих специалистов по теории конфликтных динамических систем, является проблема динамической устойчивости решений. Это обусловлено тем, что динамическая устойчивость является важнейшим фактором реализуемости во времени Быбранных принципов оптимальности. Постановка этой проблемы была впервые осуществлена Л.А.Петросяном в конце 70-х годов и разрабатывалась в дальнейшем в работах Н.Н.Данилова, С.В.Чистякова, В.В.Захарова и других исследователей. Следует отме-

5 -тить также более поздние работы зарубежных ученых Д.Краса,

С.Холли, В.Хиллера, в которых исследуется проблема "временной состоятельности" оптимальных решений, аналогичная проблеме динамической устойчивости. Анализ этой проблемы для различных классов дифференциальных игр показывает настоятельную необходимость получения условий, при которых динамическая устойии-востьимеет место. Упитывая, что практически все принципы оптимальности, применяемые в конфликтных иерархических системах управления данным свойством не обладают, актуальной является проблема разработки методов регуляризации решений иерархических дифференциальных игр, обеспечивающих динамическую устойчивость решений.

В предлагаемой работе указанным проблемам уделено значительное место. С прикладной точки зрения ценность любого подхода определяется практической ценностью разработанных методов. Поото.му в работе теоретические результаты применяются при исследовании конкретных иерархических моделей принятия решений.

Цель работы состоит в развитии теории управления и прикатил ранений в конфликтных иерархических системах общего вида;

применении традиционных и построении и исследовании новых принципов оптимальности в статических и динамических конфликтных системах управления с иерархической структурой;

исследовании свойств решений иерархических игр общего вида, сравнении принципов оптимальности, выявлении закономерностей в реализации решений для произвольного принципа оптимальности;

исследования проблемы динамической устойчивости принципов оптимальности и решений в иерархических дифференциальных играх и разработке методов регуляризации решений на различных классах стратегий;

построении конкретных моделей иерархических систем и применении полученных результатов для анализа и нахождения оптимальных решений.

Наугжая нов изна. Впервые сформулирована задача управления в конфликтных иерархических системах общего вида. На основании предложенных подходов разработаны коше принципы оптимальности и процедуры выбора оптимальных решений в статических и динамических системах. Введено новое понятие и получены нэ-

обходимые и достаточные условия иерархической устойчивости решений игр общего вида для произвольного принципа оптимально ст и.

Сформулирована проблема динамической устойчивости решений иерархических дифференциальных игр и доказаны теоремы о необходимых и достаточных условиях динамической устойчивости решений для различных классов игр. Впервые для иерархических дифференциальных игр разработены методы регуляризации решений, обеспечивающие их динамическую, а татоке монотонно динамическую устойчивость.

Рассмотрен класс иерархических, игр с разрывными функциями выигрышей, для которых сформулированы необходимые и достаточные условия существования и единственности решений, предложены конструктивные методы нахождения решений в этих играх.

Практиче ская ценность. Разработанные в диссертации методы и подходы, полученные условия существования и единственности решений иерархических игр, методы регуляризации решений использованы при исследовании ряда теоретико-игровых моделей принятия решений в конфликтных эколого-экономических системах. Полученные теоретические результаты могут найти применение для дальнейшего развития теории иерархических систем, исследования проблемы динамической устойчивости решений и принципов оптимальности в иерархических дифференциальных играх.

Методы исследований . Ь работе используются методология и аппаратные метода реализации системного анализа, основанные на понятиях и утверждениях общей теории динамических систем, теории управления и теории игр. Построение и анализ ряда моделей иерархических систем управления базировались на методах теории обыкновенных дифференциальных уравнений и уравнений в частных производных, линейного программирования.

Апробация работы . Основные положения и результаты работы докладывались и обсуждались на 1-ом Ленинградском симпозиуме по теории игр (1978 г.) , на Ш Всесоюзной конференции по исследованию операций (Горький, 1978 г.), на Всесоюзном семинаре "Прикладные.аспекты управления сложными системами" (Кемерово, 19ЭЗ г.), на Всесоюзной конференции "Проблемы теоретической кибернетики" (Иркутск, 1985 г.), на Всесоюзной школе "Оптимальное управление. Геометрия и анализ" (Кемерово, 1986 г.), на Всесоюзной школе "Математические методы в экологии"

(Чита, 1936 г.), на Всесоюзной школе "Математические проблеми биологии" (Чита, 1988 г.), на научных семинарах БЦ АН СССР, Института кибернетики АН УССР, Института социально-экономических проблем АН СССР, факультета Вычислительной математики и кибернетики Ї.ІГУ им.Ы.В.Ломоносова, Иркутского Вычислительного центра СО АН СССР, Института природных ресурсов СО АН СССР, Научно-исследовательского центра экологической безопасности Д1Ц АН СССР, Вычислительного центра АН Армянской ССР, кафедры теории управления и кафедры математической статистики, теории надежности и массового обслуживания факультета приклад -ной математики-процессов управления ЛГУ.

Структура работы . Диссертация состоит из введения, трех глав, девятнадцати параграфов, заключения и списка литературы Об^ий объем диссертации 317 страниц. Список литературы включает 133 наименования.

«… главной постоянной задачей поведения живых организмов являются не реакции на внешние стимулы, а активное, целенаправленное достижение целевых ситуаций в среде.

Необходимость защитных и других реакций на внешние стимулы, естественно, не отрицается. Однако, хотя исследование рефлекторного и инстинктивного поведения очень много дало для понимания работы нейронов и нервной системы в целом, для понимания мышления этих знаний недостаточно. Поэтому нас в основном будут интересовать более сложные типы поведения, требующие формирования целей, оценки вариантов поведения и принятия решения в ситуации выбора.

Ограничиваться, как это часто делают в физиологии, словами о конечном приспособительном эффекте, явно недостаточно. Хотелось бы сформулировать задачу более точно. Целевых ситуаций может быть много. Какие ситуации, в каком порядке и почему становятся целями направленного поведения? Какая задача решается в поведении? Каковы правила принятия решения в поведении? Ниже мы попробуем сформулировать ответы на эти вопросы в виде принципа оптимальности (вариационного принципа) и вытекающих из этого принципа следствий.

Развитие науки обычно идет от эксперимента к теории, от наблюдения фактов к их обобщению. Эти обобщения могут фиксироваться в виде законов, которые в совокупности объясняют все наблюдаемые факты и предсказывают новые. Такими законами, например, являются законы Ньютона или законы геометрической оптики. Но возможен и следующий шаг обобщения в виде принципа оптимальности, который формулируется как требование минимума или максимума какой-либо величины. Так, все законы механики обобщает принцип наименьшего действия, а законы геометрической оптики - принцип скорейшего пути Ферма.

Многие учёные давно пришли к мысли о том, что в природе всё делается оптимально, и все обобщения, а значит и факты в любой области естествознания, могут быть выведены из единого принципа оптимальности. Нужно только понять, что экономит природа в объектах и явлениях, относящихся к этой области естествознания. В пределе может существовать и общий вариационный принцип, определяющий все в нашем мире.

Мысль о том, что науку можно строить не снизу вверх - от эксперимента к теории, а сверху вниз - от принципа оптимальности к частным законам, была высказана Эйлером . Однако ни Эйлеру, ни кому-либо другому найти такой общий принцип не удалось.

Что же экономит природа? В качестве вариантов напрашиваются и чаще всего рассматриваются: энергия, вещество, действие (произведение массы, пути и скорости), энтропия (негэнтропия), информация.

А, может быть, экономится время?

Например, экономия энергии при условии удовлетворения нужд организма или при условии достижения целевой ситуации, экономия ресурсов при достижении заданного результата, или максимум взаимной информации между стимулами и реакциями при условии достижения определенного результата и т. п. С помощью подобных нестрогих условий (оговорок) можно практически всегда объяснить несовпадения результатов эксперимента и теории. Кроме того, почти всегда то, что задаётся только как находящееся на втором плане нестрогое внешнее условие, необходимое для выполнения этих принципов оптимальности, на самом деле должно находиться в центре внимания и определять цели и принципы поведения.

Более общим и естественным представляется рассматриваемый ниже принцип mах Т - принцип максимизации времени пребывания системы внутри условной области существования, определяемой как область допустимых значений регулируемых переменных.

Введение принципа mах T и упрощенной формальной модели поведения базируется на следующих конкретизирующих предпосылках. Для живых организмов характерно наличие потребностей. Удовлетворение физиологических потребностей, являющееся необходимым условием существования, может происходить только в определенных ситуациях взаимодействия организма со средой. Эти ситуации являются альтернативными целями направленного поведения. Поведение животных в каждый момент направлено в общем случае на достижение одной цели, соответствующей одной потребности.

Живой организм как целое неустойчив в том смысле, что физиологические потребности имеют общее свойство, заключающееся в их нарастании с течением времени. Поддержание устойчивости - непрерывная задача живых организмов, решаемая как на клеточном уровне за счет внутренней работы, т. е. ассимиляции органических веществ и синтеза живой неравновесной структуры, так и на уровне целого организма за счёт внешней работы, т. е. активного целенаправленного поведения в среде.

Физиологические переменные, определяющие наличие и величину первичных физиологических потребностей, должны иметь согласованные значения. Можно упрощённо предположить, что в многомерном пространстве физиологических переменных имеется область, соответствующая нормальному состоянию организма. Можно также предположить, что имеется ещё одна более широкая область - область допустимых значений, выход за пределы которой гибелен для организма, и объективная задача поведения - максимально долго поддерживать величины физиологических переменных в пределах этой области.

Задача поведения не исчерпывается прямой задачей выживания отдельной особи, т. е. необходимостью поддержания значений первичных физиологических переменных организма и соответствующих им потребностей внутри области допустимых значений. К первичным физиологическим потребностям самого организма добавляются потребности, определяемые необходимостью продолжения рода, а также вторичные потребности, косвенно влияющие на первичные. Последнее особенно характерно для человека вследствие его сложного общественного способа существования. Добавление в рассмотрение вторичных потребностей не меняет общей схемы: система (живой организм) обладает внутренней неустойчивостью - неудовлетворяемые потребности увеличиваются. Потребности в общем случае альтернативны, т. е. удовлетворяются раздельно и поочередно.

Теперь сформулируем принцип оптимальности в поведении. Цель поведения - это максимизация времени пребывания системы внутри области допустимых значений регулируемых переменных (первичных и вторичных потребностей) - принцип mах T».

Шамис А.Л., Пути моделирования мышления: активные синергические нейронные сети, мышление и творчество, формальные модели поведения и «распознавания с пониманимем», М., «КомКнига», 2006 г., с. 27-30.

Организационная деятельность. Альтернативные парадигмы организационного процесса.

Все многообразие подходов к организационной деятельности можно представить в виде двух альтернативных парадигм (табл. 5.1). Приведенные парадигмы отражают два принципиально разных подхода к организационной деятельности. Первый можно условно назвать подходом принуждения, когда для создания и поддержания необходимо прикладывать усилия. Как только эти усилия прекращаются, система возвращается к исходному состоянию. Можно конструировать сколь угодно много искусственных организационных схем, но они будут непрочными и неэффективными. История знает немало таких примеров: колхозы, совнархозы, производственные объединения и т.д.

Таблица 5.1

Альтернативные парадигмы организационного процесса

Второй подход ориентирован на естественные процессы организации, развивающийся достаточно долго, чтобы дать место и волеизъявлению человека. Цели человека, выпадающие из диапазона естественного развития (например, создание колхозов), обречены на провал, какие бы ресурсы ни привлекались для их достижения. Вместе с тем здесь нет фатализма – человек с его целеполагающей и волевой деятельностью не исключается из процесса развития, надо лишь выполнить условие: пространство целей человека должно совпадать с диапазоном направлений естественного (возможного в принципе) развития. Ориентацию на естественное развитие можно найти и в исследованиях А. Смита, который утверждал, что для социально-экономического развития общества необходимы мир, легкие налоги и терпимость в управлении, а все остальное сделает естественный ход вещей.

Система управления - кибернетический подход. Принципы управления: принцип разомкнутого управления; принцип разомкнутого управления с компенсацией возмущений; принцип замкнутого управления; принцип однократного управления.

Организация как процесс организовывания – одна из основных функций управления. Под функцией управления понимают совокупность повторяющихся управленческих действий, объединенных единством содержания. Поскольку организация (как процесс) служит функцией управления, любое управление представляет собой организационную деятельность, хотя и не сводится только к ней.

Управление – особым образом ориентированное воздействие на систему, обеспечивающее придание ей требуемых свойств или состояний. Одним из атрибутов состояния является структура.

Организовать – значит, прежде всего создать (или изменить) структуру.

При различиях в подходах к построению систем управления существуют общие закономерности, разработанные в кибернетике. С позиций кибернетического подхода система управления представляет собой целостную совокупность субъекта управления (управляющая система), объекта управления (управляемая система), а также прямых и обратных связей между ними. Предполагается также, что система управления взаимодействует с внешней средой.

Базовым классификационным признаком построения систем управления, определяющим вид системы и ее потенциальные возможности, способ организации контура управления. Согласно последнему выделяют несколько принципов организации контура управления.

Принцип разомкнутого (программного) управления. В основе этого принципа лежит идея автономного воздействия на систему независимо от условий ее работы. Очевидно, что область практического применения этого принципа предполагает достоверность знания состояния среды и системы на всем интервале ее функционирования. Тогда можно предопределить реакцию системы на рассчитанное воздействие, которое заранее программируется в виде функции (рис. 5.1).

Рис. 5.1. Принцип разомкнутого управления

Если данное воздействие отлично от предполагаемого, немедленно последуют отклонения в характере изменения выходных координат, т.е. система окажется незащищенной от возмущений в исходном смысле этого слова. Поэтому подобный принцип используется при уверенности в достоверности сведений об условиях работы системы. Например, для организационных систем подобная уверенность допустима при высокой исполнительской дисциплине, когда отданное распоряжение не нуждается в последующем контроле. Иногда такое управление называют директивным. Несомненным достоинством такой схемы управления является простота организации управления.

Принцип разомкнутого управления с компенсацией возмущений. Содержание подхода состоит в стремлении ликвидировать ограниченность первой схемы, т.е. нерегулируемое воздействие возмущений на функционирование системы. Возможность компенсации возмущений, а значит, ликвидация недостоверности априорной информации базируется на доступности возмущений измерениям (рис. 5.2).


Рис. 5.2. Принцип компенсационного управления

Измерение возмущений позволяет определить компенсирующее управление, парирующее последствия возмущений. Обычно наряду с корректирующим управлением система подвергается программному воздействию. Однако на практике далеко не всегда удается зафиксировать информацию о внешних возмущениях, не говоря уже о контроле отклонений параметров системы или неожиданных структурных изменениях. При наличии информации о возмущениях принцип их компенсации путем введения компенсирующего управления представляет практический интерес.

Принцип замкнутого управления. Рассмотренные выше принципы относятся к классу разомкнутых контуров управления: величина управления не зависит от поведения объекта, а представляет собой функцию времени или возмущения. Класс замкнутых контуров управления образуют системы с отрицательной обратной связью, воплощающие базовый принцип кибернетики.

В таких системах заранее программируется не входное воздействие, а требуемое состояние системы, т.е. следствие воздействия на объект, в том числе управления. Следовательно, возможна ситуация, когда возмущение позитивно воздействует на динамику системы, если приближает ее состояние к желаемому. Для реализации принципа априорно находится программный закон изменения состояния системы во времени Спр(t), а задача системы формулируется как обеспечение приближения действительного состояния к желаемому (рис. 5.3). Решение этой задачи достигается определением разности между желаемым состоянием и действительным:

∆С(t) = Спр(t) – С(t).


Рис 5. 3 Принцип замкнутого управления

Данная разность используется для управления, призванного свести к минимуму обнаруженное рассогласование. Тем самым обеспечивается приближение регулируемой координаты к программной функции независимо от причин, вызвавших появление разности, будь то возмущения различного происхождения или ошибки регулирования. Качество управления сказывается на характере переходного процесса и установившейся ошибке – несовпадении программного и действительного конечного состояния.

В зависимости от входного сигнала в теории управления различают:

■ системы программного регулирования (рассматриваемый случай);

■ системы стабилизации, когда cпр(t) = 0;

■ системы слежения, когда входной сигнал априорно неизвестен.

Эта детализация никак не сказывается на реализации принципа, но вносит специфику в технику построения системы.

Широкое распространение этого принципа в естественных и искусственных системах объясняется продуктивностью организации контура: задача управления эффективно решается на концептуальном уровне благодаря введению отрицательной обратной связи.

Рассмотрен случай программирования изменения во времени состояния системы Спр(t),что означает предварительный расчет траектории в пространстве состояний. Но из поля зрения выпал вопрос, как это сделать. Ответ лимитируется двумя требованиями к траектории, которая должна:

1) проходить через цель;

2) удовлетворять экстремуму критерия качества, т.е. быть оптимальной.

В формализованных динамических системах для отыскания подобной траектории привлекается аппарат вариационного исчисления или его современные модификации: принцип максимума Л. Понтрягина или динамическое программирование Р. Беллмана. В том случае, когда задача сводится к поиску неизвестных параметров (коэффициентов) системы, для ее решения привлекаются методы математического программирования – требуется отыскать экстремум функции качества (показателя) в пространстве параметров. Для решения плохо формализуемых проблем остается уповать на эвристические решения, основанные на футурологических прогнозах, или на результаты имитационного математического моделирования. Точность подобных решений оценить сложно.

Возвратимся к задаче программирования. Если существует способ расчета программной траектории для формализованных задач, то естественно потребовать от системы управления, чтобы она довольствовалась целеуказанием, а программное изменение состояния системы находила непосредственно в процессе управления (терминальное управление). Такая организация системы, конечно, усложнит алгоритм управления, но позволит свести к минимуму исходную информацию, а значит, сделает управление более оперативным. Подобная задача в 1960-х гг. была теоретически решена профессором Е. Горбатовым для управления движением баллистических ракет и космических аппаратов.

В отношении постановки и решения задачи оптимального управления следует учитывать следующее принципиальное обстоятельство.

Выбрать оптимальное поведение системы можно, только если достоверно известны поведение изучаемого объекта на всем интервале управления и условия, в которых происходит движение.

Оптимальные решения могут быть получены и при выполнении других, дополнительных допущений, но дело как раз в том, что каждый случай следует оговорить особо, решение будет справедливо “с точностью до условий”.

Проиллюстрируем сформулированное положение на примере поведения бегуна, стремящегося достичь высокого результата. Если речь идет о короткой дистанции (100, 200 м), то подготовленный спортсмен ставит целью обеспечить максимальную скорость в каждый момент времени. При беге на более длинные дистанции успех определяется его умением правильно распределять силы на трассе, а для этого он должен отчетливо представлять свои возможности, рельеф маршрута и особенности соперников. В условиях ограниченных ресурсов ни о какой максимальной скорости в каждый момент не может идти и речи.

Вполне очевидно, что приведенное ограничение выполняется только в рамках детерминированной постановки задачи, т.е. когда априорно все достоверно известно. Такие условия оказываются чрезмерными для реальных задач: прокрустово ложе детерминизма не соответствует действительным условиям функционирования системы. Априорность нашего знания чрезвычайно сомнительна как в отношении самой системы, так и среды и ее взаимодействия с тем или иным объектом. Достоверность априорных сведений тем меньше, чем сложнее система, что не добавляет оптимизма исследователям, проводящим процедуру синтеза.

Подобная неопределенность привела к появлению целого направления в теории управления, базирующегося на учете стохастических условий существования системы. Самые конструктивные результаты были получены при разработке принципов адаптивных и самонастраивающихся систем.

Оптимизация управления. Адаптивные и самонастраивающиеся, системы.

Адаптивные системы позволяют справляться с неопределенностью путем получения дополнительной информации о состоянии объекта и его взаимодействии со средой в процессе управления с последующей перестройкой структуры системы и изменением ее параметров при отклонении условий работы от априорно известных (рис. 5.4). При этом, как правило, цель трансформаций состоит в приближении характеристик системы к априорным, использовавшимся при синтезе управления. Таким образом, адаптация ориентирована на сохранение гомеостаза системы в условиях возмущений.


Рис. 5.4. Адаптивная система

Одной из сложнейших конструктивных составляющих этой задачи является получение сведений о состоянии среды, без чего затруднительно проводить адаптацию.

Примером успешного получения информации о состоянии среды может служить изобретение трубки Пито, которой снабжены практически все летательные аппараты. Трубка позволяет измерить скоростной напор – важнейшую характеристику, от которой зависят непосредственно все аэродинамические силы. Результаты измерения используются для настройки автопилота. Аналогичную роль в социальных системах играют социологические опросы, позволяющие корректировать решения внутри- и внешнеполитических проблем.

Эффективным приемом изучения динамики объекта управления является метод дуального управления, некогда предложенный А. Фельдбаумом. Суть его состоит в том, что на объект наряду с командами управления подаются специальные тестирующие сигналы, реакция на которые заранее установлена для априорной модели. По отклонению реакции объекта от эталонной судят о взаимодействии модели с внешней средой.

Подобный прием использовался в русской контрразведке во время Первой мировой войны для выявления шпиона. Выделялся круг сотрудников, подозреваемых в предательстве, и каждому из этого круга “доверялась” важная, но ложная информация, имеющая уникальный характер. Наблюдалась реакция противника, по которой и идентифицировался изменник.

От адаптивных систем отличают класс самонастраивающихся систем. Последние в процессе адаптации настраиваются. Однако на принятом уровне общности структура самонастраивающейся системы аналогична структуре адаптивной системы (см. рис. 5.4).

Относительно процессов адаптации и самонастройки можно отметить, что их возможность в конкретных случаях в основном определяется назначением системы и ее техническим воплощением. Подобная теория систем изобилует иллюстрациями, но, как представляется, не содержит обобщающих достижений.

Другой путь преодоления недостаточности априорных данных о процессе управления заключается в совмещении процесса управления с процедурой его синтеза. Традиционно алгоритм управления есть результат синтеза, базирующийся на допущении детерминированного описания модели движения. Но очевидно, что отклонения в движении принятой модели сказываются на точности достижения цели и на качестве процессов, т.е. приводят к отклонению от экстремума критерия. Отсюда следует, что строить управление нужно как терминальное, рассчитывая траекторию в реальном времени и обновляя сведения о модели объекта и условиях движения. Конечно, и в данном случае необходимо экстраполировать условия движения на весь оставшийся интервал управления, но по мере приближения к цели точность экстраполяции возрастает, а значит, повышается качество управления.

В этом видна аналогия с действиями правительства, которое не в состоянии выполнять плановые задания, например бюджетные. Условия функционирования экономики меняются нерасчетным образом, с нарушением прогнозов, поэтому приходится постоянно корректировать намеченный план в стремлении достичь итоговых показателей, в частности, производить секвестр. Отклонения от априорных предположений могут быть столь велики, что имеющимися ресурсами и принимаемыми мерами управления уже нельзя обеспечить выполнение цели. Тогда приходится “приближать” цель, размещая ее внутри новой области достижимости. Отметим, что описанная схема справедлива только для устойчивой системы. Низкое качество организации управления может привести к дестабилизации и, как следствие, к разрушению всей системы.

Остановимся еще на одном принципе управления, лежащем в основе развитой теории исследования операций.

Принцип однократного управления. Широкий круг практически значимых задач предполагает необходимость осуществить однократный акт управления, а именно – принять некоторое решение, последствия которого сказываются длительное время. Разумеется, и традиционное управление можно интерпретировать как последовательность разовых решений. Здесь мы вновь сталкиваемся с проблемой дискретности и непрерывности, граница между которыми так же размыта, как и между статическими и динамическими системами. Однако различие все-таки существует: в классической теории управления исходят из того, что воздействие на систему есть процесс, функция времени или параметров состояния, а не однократная процедура.

Другой отличительной особенностью исследования операций является то, что эта наука оперирует с управлениями – константами, параметрами системы. Тогда если в динамических задачах в качестве критерия используется математическая конструкция – функционал, оценивающий движение системы, то в исследовании операций критерий имеет вид функции, заданной на множества исследуемых параметров системы.

Область практических задач, охватываемая исследованием операций, весьма обширна и включает мероприятия по распределению ресурсов, выбору маршрутов, составлению планов, управлению запасами, очередями в задачах массового обслуживания и др. При решении соответствующих задач привлекается изложенная выше методология их описания с учетом категорий модели, состояния, цели, критерия, управления. Так же формулируется и решается проблема оптимизации, состоящая в нахождении экстремума критериальной функции в пространстве параметров. Задачи решаются как в детерминированной, так и в стохастической постановках.

Поскольку процедура оперирования с константами существенно проще, чем действия с функциями, теория исследования операций оказалась более продвинутой, нежели общая теория систем и, в частности, теория управления динамическими системами. Исследование операций предлагает больший арсенал математических средств, порой весьма утонченных, для решения широкого круга практически значимых задач. Вся совокупность математических методов, обслуживающих исследование операций, получила название математического программирования. Так, в рамках исследования операций развивается теория принятия решений – чрезвычайно актуальное направление.

Теория принятия решений, по сути, рассматривает процедуру оптимизации условий детального описания векторного критерия и особенности установления его экстремального значения. Так, для постановки задачи характерен критерий, состоящий из нескольких составляющих, т.е. многокритериальная задача.

Чтобы подчеркнуть субъективизм критерия и процесса принятия решения, в рассмотрение вводится лицо, принимающее решение (ЛИР), обладающее индивидуальным взглядом на проблему. При изучении решений формальными методами это проявляется через систему предпочтений при оценке той или иной составляющей критерия.

Как правило, для принятия решения ЛПР получает несколько вариантов действий, каждый из которых подвергается оценке. Такой подход максимально приближен к реальным условиям действий ответственного субъекта в организационной системе при выборе одного из вариантов, подготовленных аппаратом. За каждым из них стоит проработка (аналитическая, имитационное математическое моделирование) возможного хода развития событий с анализом конечных результатов – сценарий. Для удобства принятия ответственных решений организуются ситуационные комнаты, оборудованные наглядными средствами отображения сценариев на дисплеях или экранах. Для этого привлекаются специалисты (операционалисты), владеющие не только математическими методами анализа ситуаций и подготовки принятия решений, но и предметной областью.

Понятно, что результатом применения к объекту теории исследования операций, в частности, и теории принятия решений, является некоторый оптимальный план действий. Следовательно, на вход некоторого блока, “начиненного” оптимизационным алгоритмом и построенного с применением соответствующего метода математического программирования модели ситуации, подается информация: начальное состояние, цель, критерий качества, перечень варьируемых параметров, ограничения. (Модель системы используется при построении алгоритма.) Выход блока и есть искомый план. С точки зрения кибернетики такое построение классифицируется как разомкнутый контур управления, поскольку выходная информация не влияет на входной сигнал.

В принципе, рассмотренный подход можно применить и для случая замкнутого управления. Для этого необходимо организовать итерационный процесс во времени: после реализации плана ввести новое состояние системы в качестве начального условия и повторить цикл. Если позволяет задача, можно сократить плановый период за счет приближения цели к начальному состоянию системы. Тогда просматривается аналогия предлагаемых действий с рассмотренной выше итерационной процедурой терминального управления, также базирующейся на периодическом обновлении исходной информации. Более того, динамическую задачу, оперирующую с процессами, можно свести к аппроксимации функций функциональными рядами. При этом варьируемыми переменными будут уже параметры таких рядов, а значит, применим аппарат теории исследования операций. (Подобное осуществлено в теории вероятностей, когда случайные процессы описываются каноническим разложением.)

Изложенная методология начала находить применение в теории искусственного интеллекта при синтезе ситуационного управления.

Следует указать на опасность, связанную с практическим применением теории принятия решений недостаточно компетентными в теории систем лицами. Так, часто в организационных системах (государственных учреждениях, фирмах, финансовых организациях) принятие решения абсолютизируют и сводят к оперированию многочисленными показателями и оптимальному осуществлению разового управленческого акта. При этом из поля зрения упускают последствия произведенного действия для системы, забывают, что управляют не критерием, а системой, не учитывая многостадийность замкнутого процесса – от системы к ее состоянию, далее через показатели к решению и вновь к системе. Конечно, на этом долгом пути делается множество ошибок, объективных и субъективных, которых уже достаточно для серьезного отклонения от плановых результатов.

Метод динамического программирования, разработанный в 50-х годах американским математиком Р.Беллманом, представляет собой новый подход к решению вариационных задач. Идея этого подхода состоит в том, что оптимальное поведение рассматривается как функция состояния системы, описываемого с помощью значения фазовых координат в текущий момент времени t . Беллман очень точно подметил связь между причинностью и оптимальностью для динамических систем в том смысле, что если изменение состояния любой динамической системы под воздействием входного управляющего сигнала можно описать функциональным уравнением, характеризующим причинность

то у оптимальной системы для описания изменения ее состояния, характеризуемого некоторой функцией как степень достижения подавленной цели, существует по аналогии такого же типа функциональной уравнение лишь с той разницей, что достигается минимум или максимум целевой функции при выборе управления:

При этом выбор управления на отдельном шаге производится с точки зрения интересов не только данного шага, но и всего процесса в целом, как на текущем, так и на всех последующих шагах.

Исходя из этого, Беллманом был сформулирован принцип оптимальности, каковы бы ни были начальное состояние и начальное управление, последующие управления должны быть оптимальными относительно состояния, являющегося результатом применения первого управления. Принцип оптимальности можно также сформулировать следующим образом: оптимальное поведение не зависит от предыстории системы, а определяется только начальным (к данному моменту времени) условием и конечной целью, и текущее управление должно выбираться с учетом последствий в будущем. Классическим примером оптимального поведения является стратегия бегуна на дальнюю дистанцию. На старте бегун составляет график своего бега так, чтобы пройти дистанцию за минимальное время. Это не значит, что каждый участок он должен бежать как можно быстрее. Наоборот, находясь на дистанции, он в каждый момент времени должен распределять свои силы так, чтобы с учетом своего состояния пробежать оставшийся участок за минимальное время, чему может соответствовать и бурный финиш в конце дистанции.

Динамическому программированию органически присуще решение задач, дискретных по своей природе в силу рекуррентности последовательного выбора управления в многошаговой процедуре оптимизации. Заметим, что принцип оптимальности справедлив как для непрерывных детерминированных, так и для стохастических процессов управления, благодаря чему динамическое программирование может широко применяться в ряде кибернетических задач.

Несмотря на кажущуюся простоту принципа оптимальности из него можно вывести ряд нетривиальных условий оптимальной траектории.

Дискретная форма динамического программирования.

Изучение метода начнем с решения одномерной задачи, когда управляемый автономный одномерный объект описывается либо в дискретной форме

либо в дифференциальной формекоторой соответствует разностное уравнение

где u - ограниченное в общем случае управление, т.е.

;-- Дискрет времени, равный.

При заданном начальном состояний объекта и свободном правом конце необходимо за фиксированное время обеспечить минимум заданного функционала

или в виде аддитивной целевой функции

Таким образом, J есть функция (к + 1) выбираемых переменных, присутствующих в (к +1) уравнениях связи, т.е. можно попытаться решить задачу с помощью множителей Лагранжа. Однако это сложно из-за большой размерности задачи, поэтому применим иной подход.

Выведем сначала функциональное уравнение Беллмана , рассуждая следующим образом. Пусть минимизируемое значение функционала J в начальный момент времени определенным образом зависит от начального состояния системы, т.е. от и х (). Обозначим эту зависимость через, называемую функцией Беллмана, понимая под этим не любое значение функционала, а его минимум при оптимальном поведении системы.

Представим теперь, что система функционировала некоторое время, в результате чего к моменту она пришла в новое состояние. Тогда, согласно принципу оптимальности, оставшееся значение минимизируемого функционала

как результат последующих оптимальных действий есть также функция Беллмана, но уже зависящая от новых значений и. Теперь осталось связать функции и, друг с другом, представив последствия от выбираемого управления в промежуток времени в виде двух слагаемых -- потерь внутри данного шага и потерь на всех последующих шагах вплоть до конца решения задачи, зависящих от и, потому что последствия в будущем определяются новым состоянием, которое согласно формуле (3.1) описывается выражением

Поэтому, преследуя цель минимизации суммарных потерь, как текущих так и последующих, можно записать

Рассуждая аналогичным образом при переходе к следующему шагу от момента к моменту и т.д. к моменту, можно записать следующее функциональное уравнение:

Развивая этот же подход применительно к многомерному неавтономному объекту, можно получить функциональное уравнение Беллмана:

Пошаговый выбор управления с помощью уравнения (1.5) удобен для расчетов на ЭВМ. В этом случае численное решение обычно осуществляют с правого конца задари. Поскольку краевые условия на правом конце не определены однозначно, то расчеты начинают, задавшись множеством значений вектора, разбивая, например, диапазон возможных значений на R- 1 участков. В результате для каждого из вариантов конечного состояния определяется единственное управление на последнем шаге (в предположении, что управления на остальных шагах будут найдены позже), поскольку при заданном только от него зависит последнее слагаемое в функции (1.3):

Эта операция проводится также численно, например путем разбиения каждого из диапазонов возможных значений и на (М-1) участков, что образует вариантов управления. Результаты наилучшего варианта запоминаются, а именно для каждого из вариантов фиксируются три величины -- вектор состояния, оптимальное управление и минимум целевой функции. Таким образом, в памяти ЭВМ хранится чисел.

На следующем шаге, являющемся уже типичным для расчетов, снова формируются варианты состояния, а затем для каждого из них численно определяется управление, но уже исходя из минимума суммы двух слагаемых, причем второе слагаемое отыскивается в памяти ЭВМ в соответствии с переходом из B ;

Результаты расчета для нового шага также запоминаются в ЭВМ. Эта процедура повторяется, двигаясь от конца к началу для всех шагов, кроме первого. При этом необходимый объем памяти непрерывно растет. Наконец на первом шаге, воспользовавшись единственным вариантом заданного начального состояния, численно определяют оптимальное управление, но именно ради этого необходимо было запомнить итоги оптимизации на втором шаге, а это приводит к необходимости помнить результаты на предыдущих шагах.

Теперь, поскольку управление найдено и, значит, определено значение, представляющее собой минимизируемое значение функционала, осталось выявить конкретные значения, соответствующие данной оптимальной траектории. Для этого на основании уравнения (1.7) и известного управления определяется состояние, которому соответствует свое запомненное управление. Продолжая теперь движение слева направо, последовательно восстанавливают всю программу управления и оптимальную траекторию за все к шагов.

Рис.2.

Рассмотренным методом решаются задачи, когда на правом конце часть фазовых координат закреплена. Например, на рис.2 представлен случай перехода из точки А в точку В с произвольной конечной скоростью; Тогда движение справа налево, как это показано на рис.2, при к=3 требует переменного объема запоминаемых результатов, поскольку по координатам и вначале оценивается малое число вариантов, а потом число растет, вплоть до момента достижения точки А. При этом основное содержание расчета на каждом шаге остается прежним.

Нужно отметить, что, несмотря на определенную утомительность рассмотренной вычислительной процедуры, метод динамического программирования сводит задачу минимизации функции переменных отдельным шагам расчетами минимизации функции Беллмана, зависящей только от г переменных. Это экономит время расчета, требуя, правда, значительного объема памяти ЭВМ. Достоинством метода при численных расчетах является также и снижение объема вычислений при сужении области допустимых управлений или допустимого множества значений. Однако с увеличением размерности задачи дискретизация увеличивает число вариантов расчета запоминаемых результатов в степени п, что известно как «проклятие размерности», и требует иных подходов к применению динамического программирования.

Непрерывная форма динамического программирования

Принцип оптимальности Беллмана дает достаточно общее условие, которое можно применять как для дискретных, так и для непрерывных систем управления.

Рассмотрим следующий предельный случай, когда дискретность времени бесконечно мало, т.е. . Обратимся к функциональному уравнению Беллмана для одномерного объекта, заменив в нем дискретный момент времени (на текущее время) и согласно (1.2) и (1.3) функции и соответственно на и. Тогда можно получить выражение

При этом функция S во втором слагаемом правой части уравнения также имеет бесконечно малые приращения. Допустим, что функция Беллмана S непрерывна и, кроме того, существуют частные производные. Тогда можно разложить функцию ряд Тейлора в точке (х,t) и, пренебрегая членами второго порядка малости, получить

Заметим, что последнее слагаемое может быть учтено, если переменная х (t) есть случайный процесс, в котором присутствует составляющая типа белого шума с бесконечно большой дисперсией D, равной где -- коэффициент диффузии. Подставим полученный результат в правую часть уравнения (1.8). С учетом того, что функции и от управления на зависят как результаты уже проведенной оптимизации и могут быть вынесены за фигурные скобки, уравнение (3.8) можно представить в виде


Перенеся первые два члена в левую часть, разделим уравнение на:

Последними двумя слагаемыми при можно пренебречь из-за их малости. Тогда с учетом случайного характера оптимизируемого процесса получим уравнение.

Если рассматривать детерминированный случай при и, наконец, исследовать поведение системы с п координатами и r управлениями,то можно получить известное уравнение Беллмана в частных производных

Очень важно подчеркнуть, что уравнение Беллмана (1.10) является нелинейным дифференциальным уравнением, поскольку в нем присутствует операция минимизации. В векторной форме его можно записать так:

Поясним теперь смысл слагаемых, входящих в правую часть уравнения (1.10). Первое слагаемое характеризует потери на текущем шаге, второе слагаемое в виде суммы членов оценивает последствия от принятого решения в будущем. Причем каждый член учитывает изменение текущего состояния по координате, возникающее за счет управления, с помощью производной, которая умножается на свой весовой коэффициент. Таким образом, производные есть своего рода «коэффициенты чувствительности» оставшегося значения минимизируемого функционала к изменениям текущих значений фазовых координат. Это соображение иллюстрирует дальновидность метода и оживляет представление о функции Беллмана как о некоторой функции отклика критерия оптимальности на измененные вектора состояния. Часто в технических задачах можно физически уяснить себе характер зависимости функции S от фазовых координат системы. Поэтому удается найти управление в функции от состояния фазовых координата, что позволяет прийти к замкнутой системе управления с обратной связью и тем самым ускорить решение задачи, что будет показано ниже в примерах.

С помощью динамического программирования можно решать задачи и с незакрепленным временем управления. В частности, для автономных систем можно получить уравнение Беллмана в виде

где функция от времени не зависит. Для задач максимального быстродействия в уравнении (1.11) нужно ввести замену.

В заключение отметим, что вывод уравнений (1.10) и (1.11) требовал дифференцируемости функции S. Однако существуют задачи, где эта функция не является дифференцируемой, а оптимальное управление существует. Поясним на примере, что на линии переключения функция S всегда не дифференцируема.

Связь динамического программирования с вариационным исчислением и принципом максимума

Метод динамического программирования носит более универсальный характер, чем методы, основанные на принципе максимума и вариационном исчислении, поскольку он был разработан для оптимального управления процессами, не обязательно описываемыми системой дифференциальных уравнений. Вместе с тем этот метод не имеет строгого обоснования в ряде случаев по сравнению с принципом максимума и вариационным исчислением, хотя и тесно связан с ними.

Связь метода динамического программирования с вариационным исчислением. Пусть целевая функция зависит от скорости изменения фазовых координат. Тогда уравнение (3.10) можно записать в виде

Продифференцируем уравнение (1.12) по с учетом того, что функция Беллмана от не зависит:

Затем запишем полную производную по t:

Продифференцируем теперь уравнение (1.14) по;

Вычитая из полученного результата предыдущее уравнение, приходим к уравнению Эйлера в вариационном исчислении

Заметим это соотношение было получено в предположении о непрерывности частных производных второго порядка.

Пусть теперь граничное условие задачи в конечный момент времени есть соотношение

Тогда с учетом равенства (1.13) получим из (1.12) следующее соотношение, идентичное условию задачи с подвижным концом в вариационном исчислении:

Кроме того, можно убедиться, что уравнение (1.13) есть необходимое условие минимума для выражения в правой части (1.13), поскольку, во-первых, уравнение (1.13) есть частная производная от этого выражения по, приравненная к нулю. Во-вторых, дифференцируя по уравнение (1.13) вторично и учитывая равенство нулю производной от первого слагаемого, получаем еще одно необходимое условие минимума, состоящее в положительной определенности матрицы частных производных второго порядка, что совпадает с условием Лежандра в вариационном исчислении.

Можно также показать , что если экстремум в точке совпадает с абсолютным минимумом, т.е.

то это соответствует известному условию Вейерштрасса.

Связь метода динамического программирования с принципом максимума. Геометрическая интерпретация динамического программирования. Связь с функцией Ляпунова. Классическое описание данной взаимосвязи строится на том, что из уравнений динамического программирования при определенных допущениях выводятся результат ты, соответствующие принципу максимума . Основной смысл этих сопоставлений состоит в том, чтобы показать, что для применения динамического программирования нужны излишне жесткие требования, связанные с существованием непрерывных частных производных. Действительно, если для задачи с закрепленным временем ввести (п + 2)-мерную вектор-функцию

то уравнение Беллмана (1.10) можно записать в виде

или тах, что соответствует принципу максимума, если ввести функцию.

Если рассмотреть задачу максимального быстродействия, то, воспользовавшись уравнением (1.14) для автономных систем и продифференцировав его по, получим

Первое слагаемое можно преобразовать, учитывая очевидное соотношение

откуда получаем следующий результат:

Видно, что в оба слагаемых входят одни и те же функции которые мы теперь «обозначим через.

Тогда условие (1.14) для оптимального процесса приобретет вид,

что сразу же позволяет левую часть этого равенства обозначить через гамильтониан Н, а из соотношения (1.15) получить используемую в принципе максимума систему дифференциальных уравнений относительно вспомогательных переменных

Таким образом, результаты динамического программирования и принципа максимума совпадают, если ввести обозначения

или в векторной форме.


Рис. 3.

Это позволяет дать следующую геометрическую интерпретацию динамического программирования. На рис. 3 представлены поверхности изохрон S = const для задачи максимального быстродействия, причем величина S, по смыслу равная оставшемуся минимизируемому времени убывает по мере приближения к конечной точке, т.е.

При этом движение должно осуществляться в направлении убывания функции S, т.е. в направлении, противоположном ее градиенту внутрь изоповерхностей S = const. Из физических соображений очевидно, что движение вдоль нормали -- самое быстрое по времени, так как движение вдоль изоповерхности не дает приближения к конечной точке.

С помощью функции Беллмана S можно дать и другую трактовку процессу ее убывания, связав ее с функцией Ляпунова.

Действительно, если целевая функция положительно определена,

то, выразив уравнение (1.12) в виде

видим, что функция S есть функция Ляпунова.

Значит, если функция S положительно определена, то оптимальная система обладает еще одним замечательным свойством -- она асимптотически устойчива, что особенно важно для нелинейных систем.

Отличие динамического программирования от других методов состоит в том, что если принцип максимума есть необходимое условие оптимальности, то уравнения динамического программирования при соблюдении всех требуемых допущений понимаются как достаточное условие. Необходимо также подчеркнуть, что в принципе максимума переменные мыслятся как функции времени, а в динамическом программировании это функции от фазовых координат, характеризующие чувствительность минимизируемого значения функционала к изменению текущего состояния.

Формально это требует решения нелинейных дифференциальных уравнений вида (1.9) или (1.10) в частных производных, что так же сложно, как и решение краевых задач в принципе максимума.

Аналитическое конструирование регуляторов и применение для их синтеза динамического программирования

Поскольку динамическое программирование наиболее близко к получению оптимального управления в замкнутой форме, нужно подробнее остановиться на задаче синтеза систем автоматического управления, удовлетворяющего при существующих ограничениях требуемому качеству. Одним из направлений в этой области является разработанный у нас в стране А.М.Летовым подход, названый аналитическим конструированием регуляторов [З1], когда алгоритм управляющего устройства замкнутой системы находится аналитически в соответствии с определенным функционалом качества, соответствующим квадратическому критерию вида

Минимизация функционала (1.16) соответствует задаче о регуляторе состояния, когда важно удерживать около нуля все компоненты вектора состояния. Возможны другие варианты удержания около нуля некоторой ошибки, представляющей собой разность между желаемым и выходным сигналами в задачах слежения , но смысловое содержания структуры критерия остается неизменным. Первое слагаемое характеризует терминальную ошибку в конечный момент, второе слагаемое преследует цель обеспечить малость ошибки при удерживании системы в заданном положении. Последнее слагаемое представляет «штраф за большие управления» и оценивает затрачиваемую на управление энергию.

Соответственно положительно полуопределенные матрицы М, Р и положительно определенная матрица R выбираются с учетом значимости указанных факторов, преимущественно с ненулевыми диагональными элементами, либо, по желанию проектировщика, можно положить некоторые из матриц нулевыми.

При этом, как правило, рассматривается линейный нестационарный объект, описываемый уравнениями

где на управление никаких прямых ограничений не наложено. В связи с этим для аналитического решения можно применять как вариационное исчисление, так и принцип максимума, но для получения решения в замкнутой форме воспользуемся методом динамического программирования. С учетом терминального члена функцией Беллмана S является функция

которая при не равна нулю.

С учетом (1.16) и (1.17) уравнение Беллмана имеет вид

При отсутствии ограничений на оптимальное управление вычислим производную от выражения в фигурных скобках и, приравняв ее нулю, получим

Поскольку матрица Д положительно определена, можно найти, во-первых, оптимальное управление

и, во-вторых, записать уравнение Беллмана без операции минимизации:

Уравнение (3.20) можно решить при условии.Можно показать , что уравнение (3.20) имеет точное аналитическое решение, которое представляет собой квадратичную форму

Где К(t) - симметричная нестационарная матрица с искомыми элементами.

Вычислив частные производные

подставим их в уравнение (1.20):

Учитывая, что, уравнение (1.22) можно преобразовать к виду

что соответствует равенству нулю выражения в квадратных скобках, имеющего вид системы линейных неоднородных дифференциальных уравнений с граничным условием:

Уравнение (1.23) называется матричным уравнение Риккати, решение которого обычно находят численно на ЭВМ до начала работы системы. Оптимальному управлению соответствует в общем случае линейный закон управления с переменным коэффициентом передачи

И снова, возникает закономерный вопрос --- при каких условиях структура и параметры регулятора будут неизменны. В работах Калмана доказывается, что при М= 0 и для стационарных объектов, т.е. при постоянных матрицах А, В, К и Р, решение уравнения Риккати есть постоянная матрица К, соответствующая уравнению

В этом случае оптимальная замкнутая система является стационарной

и асимптотически устойчивой вследствие установившегося поведения при, несмотря на то, что объект управления может быть неустойчив.

Поведение, которое кажется явно адаптивным, или хорошо спланированным, может быть либо результатом использования животным простейших эмпирических правил поведения, либо представлять собой когнитивное, или намеренное, поведение (см. разд. 26.7). Например, ребенок может пересечь улицу в соответствии со строгими правилами уличного движения. Если ребенка хорошо обучили, то его поведение при переходе дороги будет автоматизированным. Взрослый же человек, который не обучался этим правилам, например иностранец, будет обдумывать, как перейти улицу, оценивать скорость и характер движения приближающегося транспорта и т. д. Внешняя картина поведения ребенка и взрослого при переходе через улицу может быть практически неотличимой, но в одном случае это поведение осуществляется на основе простейших эмпирических правил, а в другом - на основе познавания.

Можно обеспечить оптимальность поведения посредством простого набора правил. Пример такого рода мы находим в работе Грина (Green, 1983), проанализировавшего правила остановки, которые должны обеспечивать оптимальность пищедобывательного поведения. В своей работе Грин предположил, что животные-жертвы распределены по различным участкам земли, которые различаются по качеству, и на лучших из них хищники гораздо быстрее ловят свою добычу. В разных условиях среды распределение участков по качеству будет различным. Предполагается, что хищник в состоянии различать типы кормных участков, только оценивая свой успех на каждом из них. Хищник не возвращается на тот участок, где он уже побывал, и систематически обследует каждый участок до тех пор, пока не решит оставить его и перебраться на другой.

Оптимальную стратегию пищедобывания можно охарактеризовать правилом остановки, которое определяет, когда именно хищнику следует оставить данный участок. В любое время хищник может решить, уйти или остаться на данном участке, чтобы продолжать поиски жертвы. Грин показывает, что наилучшее правило остановки - это то, в основу которого положено количество добычи как функция времени, потраченного на обследование данного участка. Альтернативные правила остановки включают в себя: наивную стратегию, при которой хищник полагается на знание средней вероятности обнаружения жертвы на каждом участке; всеведущую стратегию, при которой хищник может оценить качество каждого участка, не обследуя его, и таким путем может избежать бедных добычей участков, и, наконец, стратегию учета мгновенной скорости пищедобывания. При этой стратегии хищник покидает участок охоты, когда эта скорость падает ниже критического уровня. Наилучшая стратегия, по Грину, подразумевает оценку качества участка по мере его обследования. Эта стратегия продуктивнее, чем наивная стратегия и стратегия учета мгновенной скорости пищедобыва-


ния. Она также более продуктивна, чем всеведущая стратегия, потому что предъявляет меньше требований к способности отдельного животного производить расчеты. Стратегию Грина можно представить в виде простого правила: оставаться на участке столько времени, пока больше половины обследованных мест приносит добычу, в противном случае - уходить. Эта стратегия может быть осуществлена посредством простого механизма.

Модели Грина (Green, 1980; 1983) и Вааге (Waage, 1979) дают сходные результаты. Однако при этом важно помнить, что у Грина это функциональная модель, которая точно определяет, что именно животному следует делать, чтобы достигнуть наилучшего результата. Модель Вааге механистическая, и она построена на основе представлений о непосредственных причинах возникновения поведения.

Один из методов, с помощью которого можно определить, следует ли животное в выборе своего решения тем или иным фиксированным правилам, состоит в том, чтобы каким-то образом избирательно вмешиваться в его поведение. Например, при исследовании поведения роющих ос (Ammophila campestris) Берендс (Baerends, 1941) обнаружил, что перед тем, как отложить яйцо, самка роет норку, убивает или парализует гусеницу бабочки, несет ее к норке, откладывает на гусеницу яйцо и прячет ее в норке. Эту процедуру самка осы повторяет затем при откладывании второго и каждого последующего яйца. Тем временем созревает первое яйцо, и личинка начинает пожирать гусеницу. Теперь оса возвращается к первой норке и добавляет в нее новых гусениц. После этого в зависимости от обстоятельств она может приступить к изготовлению новой норки или будет снабжать гусеницами вторую норку. Таким образом самка осы может обслуживать до пяти гнезд одновременно (рис. 25.16).

Берендс обнаружил, что осы каждое утро проверяют все норки, прежде чем отправиться в свои «охотничьи угодья». Забирая гусениц из норки, Берендс мог заставить осу приносить больше пищи, чем обычно; добавляя гусениц, он мог заставить ее приносить меньше пищи. Однако он мог таким образом управлять поведением осы только в том случае, если производил изменения в гнезде перед первым ежедневным посещением норки осой. Если же такие изменения совершались в течение дня после этого момента, они не вызывали никакого эффекта. По-видимому, самка осы руководствуется какими-то простыми правилами. Существует стандартный порядок действий, необходимых для откладывания яйца, который предусматривает рытье норки и заготовку гусеницы. Кроме того, имеется стандартный распорядок проверки ранним утром всех норок, в ходе которого обычно устанавливается, в какое гнездо в течение дня необходимо принести пищу. И наконец, существует стандартный порядок прекращения этой деятельности, в соответствии с которым оса закрывает гнездовую норку, когда в ней окажется достаточное число гусениц. Хотя она и способна при посещении гнезда оценить количество запасенной в нем пищи, она не всегда использует эту способность. Более того, каждая из стандартных последовательностей действий, будучи начата, продолжается до полного завершения. Так, например, оса будет приносить и прино-


Рис. 25.16. Диаграмма гнездового поведения роющей осы (Ammophila). (По Baerends, 1941.)

сить в гнездо гусениц, если их систематически каждый раз удалять из гнезда, как только оса их принесет. Этот пример показывает, что сложное поведение может быть запрограммировано в виде набора жестких правил. Оса ведет себя наподобие автомата, хотя у нее и есть некоторые стандартные программы поведения, позволяющие ей выходить из затруднительного положения, например удалять из норки какие-то препятствия.

Как мы уже видели ранее, прерывание поведения животного при определенных обстоятельствах маскирует поведение, которое должно было бы проявиться, если бы не было этого перерыва. Такая ситуация разделения времени предполагает, что животное следует определенным правилам, которые определяют организацию и приоритетность поведенческих актов в общей картине поведения. Рассмотрим конкретный пример. Когда голодная горлица (Streptopelia) ест, либо выбирая зерна из кучи, либо получая пищу в камере Скиннера, в ее поведении можно наблюдать типичные паузы длительностью в несколько минут (см. рис. 25.11). Что будет делать горлица во время этих пауз, зависит от обстоятельств. Если птица имеет доступ к воде, она будет пить. В противном случае она может чистить перья или просто неподвижно стоять. В экспериментальных условиях было показано, что на время возникновения этих пауз никакого влияния не оказывает манипулирование мотивационными факторами вторичного приоритета, например изменением уровня жажды. В одном из экспериментов голодным горлицам к каждому крылу прикрепили по канцелярской скрепке. Во время еды горлицы не обращали на скрепки никакого внимания, тогда как во время пауз они пытались от них отделаться. Однако наличие канцелярских скрепок не оказывало влияния на характер пищевого поведения и не меняло временного распределения пауз (McFarland, 1970b). Создается впечатление, что в пищевом поведении горлицы как бы запрограммированы на строго определенное время паузы и что правила, которые регулируют пищевое поведение горлиц, не находятся под каким бы то ни было влиянием со стороны других мотивационных факторов, например жажды или стремления чистить перья, если только эти тенденции не станут сильнее, чем пищевая. Это типичный случай явления разделения времени.


Рис. 25.17. Граница между состояниями животного, в которых доминируют голод и жажда.

Если каким-то путем прервать пищевое поведение голодной горлицы, то обычно после перерыва она продолжит это поведение. Но если прервать процесс питья воды, то, как правило, он будет маскироваться, если перерыв будет достаточно большим (McFarland, Lloyd, 1973). В экспериментальной ситуации с инструментальным поведением, где горлицы для получения пищи и воды должны клевать светящиеся клавиши, прерывания текущей деятельности можно добиться простым выключением подсветки клавиши. Птицы быстро научатся прекращать клевание, когда эти клавиши не светятся. В условиях свободного пищевого и питьевого поведения прерывания поведения можно достигнуть, если экспериментальную комнату примерно на минуту погрузить в темноту. При сравнении оказалось, что эти два типа прерывания деятельности горлиц оказывают одинаковый эффект (Larkin, McFarland, 1978).

Разделение времени при пищевом и питьевом поведении горлиц послужило объектом многочисленных экспериментов, целью которых было обнаружить правила, на основе которых птица принимает решение, есть ей или пить. Результаты показывают, что, во-первых, в экспериментах может доминировать либо питьевая, либо пищевая деятельность (McFarland, Lloyd, 1973; McFarland, 1974). Во-вторых, линия, отражающая границу (рис. 25.17) между доминированием голода и доминированием жажды, не меняет своего положения ни при повторных опытах, ни при различных начальных уровнях голода и жажды животного, ни при изменении результатов пищевого и питьевого поведения (Sibly, McCleery, 1976). Однако если в ходе эксперимента изменять мотивационное состояние птицы, то может показаться, что произойдет поворот графика, отражающего границу между доминирующими состояниями (рис. 25.18). Теоретический анализ этой ситуации показывает, что никакого реального изменения в положении границы доминирующих состояний не происходит. Это кажущееся изменение обусловлено используемой экспериментатором системой координат, потому что мотивационное состояние животного обычно изображается в двух измерениях, тогда как здесь необходимо учитывать и другие измерения (McFarland, Sibly, 1975). Величина этого кажущегося поворота границы доминирующих состояний оказалась полезным показателем для измерения силы мотивационных факторов, таких, как величины привлекательности пищевого и питьевого подкреплений (Sibly, 1975), эффективность внешних стимулов, которые сиг-


нализируют о доступности пищи и воды (McFarland, Sibly, 1975; Beardsley, 1983), и затраты (оцениваемые самой птицей) на смену пищевого поведения на питьевое и наоборот (Larkin, McFarland, 1978). В целом создается впечатление, что и внутренние, и внешние факторы оказывают какое-то влияние на. тенденции пищевого и питьевого поведения и что эти тенденции конкурируют за доминирование (McFarland, 1974). Заняв доминирующее положение, победившая система периодически предоставляет время для осуществления другой (субдоминантной) деятельности. Почему поведение организовано именно таким образом, остается загадкой.

Вполне возможно, что в пищевом поведении горлиц паузы представляют собой часть стратегии поведения, направленной на обнаружение хищников. Находясь в стае, отдельные птицы имеют возможность тратить больше времени на добывание пищи и меньше - на то, чтобы следить, не появится ли хищник (Barnard, 1980; Bertram, 1980; Elgar, Catterall, 1981). Лендрем (Lendrem, 1983) обнаружил, что горлицы, питаясь в одиночку, тратят около 25% времени из двухминутного периода пищевого поведения на то, что оглядываются по сторонам, а когда рядом есть другие птицы - около 20%. Однако эта разница была гораздо более выраженной, если горлицы незадолго до этого видели поблизости хищника (хорька). В этой ситуации одинокие горлицы тратят около половины времени на то, чтобы осматриваться вокруг, тогда как в присутствии двух других птиц у них уходит на это только 25% времени. Время, затрачиваемое не на добывание пищи, уменьшалось еще больше, когда число птиц в стае возрастало. По мере увеличения размера стаи горлицы получали пищу быстрее, в то же время общая скорость добывания пищи снижалась, если они недавно видели хищника. Как показывает детальный анализ пищевого поведения горлиц, в ситуациях риска у них снижается скорость добывания пищи, тогда как паузы между приемами пищи увеличиваются. Таким образом, они питаются медленнее, когда находятся одни в незнакомом окружении и вскоре после того, как видели хищника. Особенно увеличивается при этом период времени после каждого клевка, когда горлица стоит с поднятой головой; возможно, что это повышает способность птицы заметить хищников.

Скорость добывания пищи снижается также и в том случае, когда горлицам приходится отличать пригодную пищу от непригодной. Добавляя хлорид лития к пище горлиц в сочетании с определенными условиями кормления, можно научить этих птиц, как и многих других животных, избегать пшеничных зерен, окрашенных в определенный цвет (Lendrem, McFarland, 1985). Наученные птицы ведут себя таким образом, как если бы зерна этого цвета были ядовитыми. Например, одни птицы избегают желтых зерен, а другие - красных. Когда таким горлицам дают смесь красных и желтых зерен, им приходится различать эти два типа зерен, чтобы избежать зерен того цвета, к которому у них образовалось отвращение. Птицы, которые добывают пищу из смеси «ядовитых» и безвредных зерен, питаются медленнее, чем птицы, которым дается смесь из «неядовитых» зерен различного цвета (Lendrem, McFarland, 1985).


Если горлица питается медленнее обычного, поскольку ей приходится отличать безвредные зерна от ядовитых, то можно думать, что у нее ослаблена способность обнаруживать хищников, поскольку она обращает больше внимания на пищу. На самом же деле скорость реагирования горлиц на пролетающую над их головой модель ястреба повышается, если горлицам дают смесь ядовитых и безвредных зерен (Lendrem, McFarland, 1985). Птицы, которым предварительно показали хищника (и которые поэтому клюют зерна с пониженной скоростью), быстрее реагируют на модель ястреба, чем птицы, которым приходится отличать безвредную пищу от ядовитой. Таким образом, создается впечатление, что более медленное питание, какой бы причиной оно не вызывалось, увеличивает способность птицы обнаруживать хищников. Эти данные согласуются с представлением о том, что высокая скорость добывания пищи (или другого поведения) связана с большими затратами.

Что же произойдет, если мы еще усложним задачу по различению зерен, положив их на таком фоне, где они будут плохо различимы? Как и следовало ожидать, произойдет дальнейшее снижение скорости пищевого поведения (рис. 25.19). Отчасти это может быть связано с тем, что птицы должны обращать больше внимания на добывание пищи, но это может быть и проявлением активной тактики, направленной на то, чтобы не терять бдительности. Горлицы, которые выбирают безвредные зерна из смеси с ядовитыми на таком фоне, где они плохо различимы, быстрее замечают модель ястреба, чем птицы, выбирающие хорошо различимые зерна (рис. 25.20) (Lendrem, McFarland, 1985). Однако птицы, которые выбирают подходящие зерна в условиях низкой их различимости, совершают больше ошибок (едят больше ядовитых зерен) и реже делают паузы в пищевом поведении, чем птицы, питающиеся хорошо различимыми зернами. Таким образом, совершенно очевидно, что существует определенный баланс между требованиями бдительности и требованиями пищедобывания.

В заключение следует сказать, что, по всей вероятности, горлицы, которые по-

Рис. 25.19. Скорость поглощения пищи горлицами, которым была предложена смесь «ядовитых» и безвредных зерен, в условиях, когда зерна этих двух типов трудно (низкая различимость) или легко (высокая различимость) отличить друг от друга. (Lendrem, McFarland, 1985.)

Рис. 25.20. Латентные периоды реакции на модель ястреба у горлиц, которые питаются в условиях низкой и высокой различимости пищи (рис. 25.19). Обратите внимание на то, что горлицы в условиях низкой различимости зерен хотя и питаются медленнее, зато быстрее реагируют на потенциального хищника. Эти результаты позволяют предположить, что пониженная скорость поглощения пищи при поедании плохо различимого зерна обусловлена не тем, что для различения зерен птица должна сосредоточить на этом все внимание, а скорее тем. что эта ситуация более опасна (вследствие повышенной вероятности проглотить «ядовитое» зерно), и поэтому горлицы обращают больше внимания на окружающую обстановку, в целом. (По Lendrem, McFarland, 1985.)


едают пищу быстро, имеют меньше шансов заметить хищников. Когда горлицы настороженны, т. е. когда они находятся в незнакомой обстановке, или в одиночестве, или в ситуации, где они недавно видели хищника, горлицы поедают пищу медленнее. Однако у горлиц существует целый ряд различных способов, с помощью которых они могут снизить общую скорость поедания пищи. Например, они имеют возможность чаще делать паузы, удлинять их или уменьшать скорость собственно поедания пищи. Эти способы могут увеличить шансы заметить хищника. Есть некоторые указания на то, что эти различные методы компенсируют друг друга (Lendrem, McFarland, 1985). Вполне возможно,

что горлицы полагаются на то, что смогут обнаружить необычное движение во время подъема головы после каждого клевка, а паузы делают, чтобы время от времени оглядеться вокруг. Не исключено, что, делая паузы в клевании, птица может потратить некоторое время на чистку перьев или питье, - это пример феномена, называемого разделением времени. В настоящее время мы не обладаем достаточными знаниями о зрении птиц, чтобы подтвердить эти гипотезы. Мы также не знаем, используют ли птицы какой-то сложный набор правил принятия решений или же их поведение регулируется посредством когнитивных процессов.

ДЛЯ ЗАПОМИНАНИЯ

1. Животные могут принимать решения на основе простых эмпирических правил, которые помогают им приспособиться к конкретным особенностям окружающей среды.

2. Если при манипулировании второй по приоритету активностью изменяется распределение во времени переключений животного с одной деятельности на другую, то можно сделать вывод, что эти переключения обусловлены конкуренцией мотиваций. Если же это распределение не меняется, то такие переключения вызваны растормаживанием.

3. В том случае, когда момент начала и продолжительность проявления какой-то деятельности регулируются другой деятельностью, можно говорить, что поведение организовано в режиме разделения времени.

4. Принятие оптимального решения животным реализуется в последовательности поведенческих актов, которая максимизирует некоторый показатель приспособленности организма при существующих условиях. Любое нарушение взаимного соответствия между животным и его средой обитания будет приводить к тому, что такая максимальная приспособленность будет редко достигаться. Однако животные могут использовать такие правила принятия решения, что их поведение будет близким к оптимальному.

Krebs J. R., McCleery R. //., 1984. Optimisation in behavioural ecology. In: Krebs J. R., Davies N. B. (eds), Behavioural Ecology, 2nd edn, Oxford, Blackwell Scientific Publications.