На основе более чем двадцатилетнего опыта комиссии "Экспертные оценки" Научного совета АН СССР по комплексной проблеме "Кибернетика" и двадцати лет работы ее научного семинара "Математические методы анализа экспертных оценок" в настоящей главе отчета рассматриваются основные проблемы теории и практики экспертных оценок. Современные математические методы экспертных оценок - это в основном методы статистики объектов нечисловой природы. Обсуждаются догмы в области экспертных оценок и современные рекомендации, применение статистики объектов нечисловой природы в экспертных оценках, вопросы построения интегральных показателей качества, эффективности и пр., т.е. рейтингов, а также перспективы создания и применения гаммы современных методик экспертных оценок на основе подходов и результатов указанного научного коллектива. В целом глава дает научное обоснование разработке автоматизированного рабочего места МАТЭК (МАТематические методжы в ЭКспертных оценках).
Бесспорно совершенно, что для принятия обоснованных решений необходимо опираться на опыт, знания и интуицию специалистов. После второй мировой войны в рамках теории управления (менеджмента) стала развиваться самостоятельная дисциплина - экспертные оценки.
Методы экспертных оценок - это методы организации работы со специалистами-экспертами и обработки мнений экспертов, выраженных в количественной и/или качественной форме с целью подготовки информации для принятия решений ЛПР - лицами, принимающими решения.
Для проведения работы по методу экспертных оценок создают Рабочую группу (сокращенно РГ), которая и организует по поручению ЛПР деятельность экспертов, объединенных (формально или по существу) в экспертную комиссию (ЭК).
Существует масса методов получения экспертных оценок. В одних с каждым экспертом работают отдельно, он даже не знает, кто ещ› является экспертом, а потому высказывает свое мнение независимо от авторитетов. В других экспертов собирают вместе для подготовки материалов для ЛПР, при этом эксперты обсуждают проблему друг с другом, учатся друг у друга, и неверные мнения отбрасываются. В одних методах число экспертов фиксировано и таково, чтобы статистические методы проверки согласованности мнений и затем их усреднения позволяли принимать обоснованные решения. В других - число экспертов растет в процессе проведения экспертизы, например, при использовании метода "снежного кома" (см., например, [1] ).
В настоящее время не существует научно обоснованной классификации методов экспертных оценок и тем более - однозначных рекомендаций по их применению. Вполне естественно, что сначала в нашей стране появились публикации о простейших методах экспертных оценок (см., например, [2-3]). Как обычно бывает, тривиальные соображения широко распространились, вошли в массовое сознание инженеров и управленцев (менеджеров) и стали тормозом на пути внедрения современных результатов в области экспертных оценок, описанных, например, в работах [4-8]. По нашему мнению, наиболее продвинутые результаты в рассматриваемой области были получены в результате работы комиссии "Экспертные оценки" Научного совета АН СССР по комплексной проблеме "Кибернетика" в 70-90-х годах (см.[9-30] и др. публикации).
В рамках настоящей главы отчета нельзя подробно рассказать о различных методах экспертных оценок (да и нет в этьом необходимости, поскольку существуют многочисленные публикации). Тем не менее, выделим основные проблемы в рассматриваемой области, что можно рассматривать как экспертный анализ состояния дел в научно-практической дисциплине "Экспертные оценки".
Основные проблемы экспертных оценок
Что должна представить экспертная комиссия в результате своейработы - информацию для принятия решения ЛПР или проект самого решения? От ответа на этот методологический вопрос зависит организация работы экспертной комиссии.
Цель - сбор информации для ЛПР.
Тогда Рабочая группа должна собрать возможно больше относящейся к делу информации, аргументов "за" и "против" определенных вариантов решений. Полезен метод постепенного увеличения числа экспертов, описанный в [1]. Сначала первый эксперт приводит свои соображения по рассматриваемому вопросу. Составленный им материал передается второму эксперту, который добавляет свои аргументы. Накопленный материал поступает к следующему - третьему - эксперту... Процедура заканчивается , когда иссякает поток новых соображений.
Отметим, что эксперты в рассматриваемом методе только поставляют информацию, аргументы "за" и "против", но не вырабатывают согласованного проекта решения. Нет никакой необходимости стремиться к тому, чтобы экспертные мнения были согласованы между собой. Более того, наибольшую пользу приносят эксперты с мышлением, отклоняющимся от массового, поскольку именно от них следует ожидать наиболее оригинальных аргументов.
Цель - подготовка проекта решения для ЛПР
Математические методы в экспертных оценках применяются обычно именно для решения задач подготовки проекта решения. При этом зачастую некритически принимают догмы согласованности и одномерности. Эти догмы "кочуют" из одной публикации в другую, поэтому целесообразно их обсудить.
Догма согласованности.
Считается, что решение может быть принято лишь на основе согласованных мнений экспертов. Поэтому исключают из экспертной группы тех, чье мнение отличается от мнения большинства. При этом отсеиваются как неквалифицированные лица, попавшие в состав экспертной комиссии по недоразумению или по соображениям, не имеющим отношения к их профессиональному уровню, так и наиболее оригинальные мыслители, глубже проникшие в проблему, чем большинство. Следовало бы выяснить их аргументы, предоставить им возможность для обоснования их точек зрения. Вместо этого их мнением пренебрегают. Бывает и так, что эксперты делятся на две или более групп, имеющих единые групповые точки зрения. Так, в [1] приведен пример деления специалистов при оценке результатов научно-исследовательских работ на две группы: "теоретиков", явно предпочитающих НИР, в которых получены теоретические результаты, и "практиков", выбирающих те НИР, которые позволяют получать непосредственные прикладные результаты (речь идет о конкурсе НИР в Институте проблем управления (автоматики и телемеханики)).
Иногда заявляют, что в случае обнаружения двух или нескольких групп экспертов (вместо одной согласованной во мнениях) опрос не достиг цели. Это не так! Цель достигнута - установлено, что единого мнения нет. И ЛПР должен это учитывать. Стремление обеспечить согласованность мнений экспертов любой целой может приводить к сознательному одностороннему подбору экспертов, игнорированию всех точек зрения, кроме одной, наиболее полюбившейся Рабочей группе ( или даже "подсказанной" ЛПР).
Поскольку число экспертов обычно не превышает 20-30, то формальная статистическая согласованность мнений экспертов может сочетаться с реально имеющимся разделением на группы, что делает дальнейшие расчеты не имеющими отношения к действительности. Если же обратиться к конкретным методам расчетов, например, с помощью коэффициентов конкордации на основе коэффициентов ранговой корреляции Кендалла или Спирмена [31], то необходимо помнить, что на самом деле положительный результат проверки согласованности таким способом означает ни больше, ни меньше, как отклонение гипотезы о независимости и равномерной распределенности мнений экспертов на множестве всех ранжировок. Другими словами, мы падаем жертвой заблуждений, вытекающих из своеобразного толкования слов: проверка согласованности в указанном статистическом смысле вовсе не является проверкой согласованности в смысле практики экспертных оценок. (Именно ущербность рассматриваемых математико-статистических методов анализа ранжировок привела нас к разработке нового математического аппарата для проверки согласованности - непараметрических методов, основанных на люсианах [32].)
С целью искусственно добиться согласованности стараются уменьшить влияние мнений экспертов-диссидентов. Жесткий способ борьбы с диссидентами состоит в их исключении из состава экспертной комиссии. Отбраковка экспертов, как и отбраковка резко выделяющихся результатов наблюдений, приводит к процедурам, имеющим плохие или неизвестные статистические свойства. Так, в [33] показана крайняя неустойчивость классических методов отбраковки выбросов по отношению к отклонениям от предпосылок модели.
Мягкий способ борьбы с диссидентами состоит в применении робастных (устойчивых) статистических процедур. Простейший пример: если ответ эксперта - действительное число, то резко выделяющееся мнение диссидента сильно влияет на среднее арифметическое ответов экспертов и не влияет на их медиану. Поэтому разумно в качестве согласованного мнения рассматривать медиану. Однако при этом игнорируются (не достигают ЛПР) аргументы диссидентов.
В любом из двух способов борьбы с диссидентами ЛПР лишается информации, идущей от диссидентов, а потому может принять необоснованное решение, которое приведет к отрицательным последствиям. С другой стороны, представление ЛПР всего набора мнений снимает часть ответственности и труда по подготовке окончательного решения с комиссии экспертов и рабочей группы по проведению экспертного опроса и перекладывает ее на плечи ЛПР.
Догма одномерности.
Распространен довольно примитивный подход так называемой "квалиметрии"(см.,например, [34]), согласно которому объект всегда можно оценить одним числом. Оценивать человека одним числом приходило в голову лишь на невольничьих рынках. Вряд ли даже самые рьяные квалиметристы рассматривают книгу или картину как эквивалент е› "рыночной стоимости".
Каждый объект можно оценивать по многим показателям качества. Например, легковой автомобиль можно оценивать по таким показателям:
· расход бензина на 100 км пути (в среднем);
- надежность (средняя стоимость ремонта за год);
- быстрота набора скорости 100 км/час после начала движения;
- максимальная достигаемая скорость;
- длительность сохранения в салоне положительной температуры при наружной температуре ( - 50 градусов) при выключенном двигателе;
- вес, и т.д.
Можно ли свести оценки по этим показателям вместе? Определяющей является конкретная ситуация, для которой выбирается автомашина. Максимально достигаемая скорость важна для гонщика, но, как нам представляется, не имеет большого практического значения для водителя рядовой частной машины. Для такого водителя важнее расход бензина и надежность. Для машин различных служб государственного управления надежность важнее, чем для частника, а расход бензина - наоборот. Для районов Крайнего Севера важна теплоизоляция салона, а для южных районов страны - нет.
Таким образом, важна конкретная (узкая) постановка задачи перед экспертами. Но такой постановки зачастую нет. А тогда "игры" по разработке обобщенного показателя качества не имеют объективного характера. В недавние времена они использовались для создания впечатления о высоком качестве отечественной продукции. Ведь западные машины не морозоустойчивые, не так ли? Значит, подбирая нужным образом коэффициенты в линейной функции от показателей качества, а именно, занижая те, по которым западные машины лучше (вес и др.) и завышая те, по которым лучше отечественные (морозоустойчивость), можно добиться поставленной цели. Почему-то рыночные отношения не считаются с подобными выводами. (С этим, правда, можно бороться, выбирая другие коэффициенты - те, что вытекают из реального сравнения изделий по конкурентоспособности).
Альтернативой единственному обобщенному показателю является математический аппарат типа многокритериальной оптимизации - множества Парето и т.д. (см., например,[35]).
В некоторых случаях вс›-таки можно глобально сравнить объекты - например, с помощью тех же экспертов получить упорядочение рассматриваемых объектов - изделий или проектов. Тогда можно ПОДОБРАТЬ коэффициенты при отдельных показателях так, чтобы упорядочение с помощью линейной функции возможно точнее соответствовало глобальному упорядочению (см., например, [36]). Наоборот, в подобных случаях НЕ СЛЕДУЕТ оценивать указанные коэффициенты с помощью экспертов. Эта простая идея до сих пор не стала очевидной для отдельных составителей методик по проведению экспертных опросов и анализу их результатов. Они упорно стараются заставить экспертов делать то, что они выполнить не в состоянии - указывать веса, с которыми отдельные показатели качества должны входить в итоговый обобщенный показатель. Эксперты обычно могут сравнить объекты или проекты в целом, но не могут вычленить вклад отдельных факторов. Раз организаторы опроса спрашивают, эксперты отвечают, но эти ответы не несут в себе надежной информации о реальности...
Основные стадии экспертного опроса
Выделяют следующие стадии проведения экспертного опроса:
1) формулировка Лицом, Принимающим Решения, цели экспертного опроса;
2) подбор ЛПР основного состава Рабочей группы;
3) разработка РГ и утверждение у ЛПР технического задания на проведение экспертного опроса;
4) разработка РГ подробного сценария проведения сбора и анализа экспертных мнений (оценок), включая как конкретный вид экспертной информации ( слова, условные градации, числа, ранжировки, разбиения или иные виды объектов нечисловой природы) и конкретные методы анализа этой информации (вычисление медианы Кемени, статистический анализ люсианов и иные методы статистики объектов нечисловой природы и других разделов прикладной статистики);
5) подбор экспертов в соответствии с их компетентностью;
6) формирование экспертной комиссии (целесообразно заключение договоров с экспертами об условиях их работы и ее оплаты, утверждение ЛПР состава экспертной комиссии);
7) проведение сбора экспертной информации;
8) анализ экспертной информации;
9) при наличии нескольких туров - повторение двух предыдущих этапов;
10) интерпретация полученных результатов и подготовка заключения для ЛПР;
11) официальное окончание деятельности РГ.
Подбор экспертов
Проблема подбора экспертов является одной из наиболее сложных. Очевидно, в качестве экспертов необходимо использовать тех людей, чьи суждения наиболее помогут принятию адекватного решения. Но как выделить, найти, подобрать таких людей? Надо прямо сказать, что нет методов подбора экспертов, наверняка обеспечивающих успех экспертизы. Сейчас мы не будем возвращаться к обсуждению проблемы существования различных "партий" среди экспертов (см. выше) и обратим внимание на различные иные стороны подбора экспертов.
Часто предлагают использовать методы взаимооценки и самооценки компетентности экспертов. С одной стороны, кто лучше может знать возможности эксперта, чем он сам? С другой стороны, при самооценке компетентности скорее оценивается степень самоуверенности эксперта, чем его реальная компетентность. Тем более, что само понятие "компетентность" строго не определено. Можно его уточнять, выделяя составляющие, но при этом усложняется предварительная часть деятельности экспертной комиссии.
При использовании метода взаимооценки, помимо возможности проявления личностных и групповых симпатий и антипатий, играет роль неосведомленность экспертов о возможностях друг друга. В современных условиях достаточно хорошее знакомство с работами и возможностями друг друга может быть лишь у специалистов, много лет работающих совместно. Однако привлечение таких пар специалистов не очень-то целесообразно, поскольку они слишком похожи друг на друга.
Использование формальных показателей (должность, ученые степень и звание, стаж, число публикаций...), очевидно, может носить вспомогательный характер. Успешность участия в предыдущих экспертизах - хороший критерий для деятельности дегустатора, врача, судьи в спортивных соревнованиях, т.е. таких экспертов, которые участвуют в длинных сериях однотипных экспертиз. Однако, увы, наиболее интересны и важны уникальные экспертизы больших проектов, не имеющих аналогов.
В случае, если процедура экспертного опроса предполагает совместную работу экспертов, большое значение имеют их личностные качества. Один "говорун" может парализовать деятельность всей комиссии. В подобных случаях важно соблюдение регламента работы, разработанного РГ.
Есть полезный метод "снежного кома" [1], при котором от каждого специалиста, привлекаемого в качестве эксперта, получают несколько фамилий тех, кто может быть экспертом по рассматриваемой тематике. Очевидно, некоторые из этих фамилий встречались ранее в деятельности РГ, а некоторые - новые. Процесс расширения списка останавливается, когда новые фамилии перестают встречаться. В результате получается достаточно обширный список возможных экспертов. Ясно, что если на первом этапе все эксперты были из одного "клана", то и метод "снежного кома" даст, скорее всего, лиц из этого "клана", мнения и аргументы других "кланов" будут упущены.
Необходимо подчеркнуть, что подбор экспертов в конечном счете - функция Рабочей группы, и никакие методики подбора не снимают с нее ответственности. Другими словами, именно на Рабочей группе лежит ответственность за компетентность экспертов, за их принципиальную способность решить поставленную задачу.
Математические модели поведения экспертов
Теория и практика экспертных оценок весьма математизированы.
Можно выделить две взаимосвязанные ветви - математические модели поведения экспертов и математико-статистические методы анализа экспертных оценок.
Модели поведения экспертов обычно основаны на предположении, что эксперты оценивают интересующий ЛПР параметр (например, ранжировку образцов изделий по конкурентоспособности) с некоторыми ошибками, т.е. эксперта рассматривают как особого рода прибор с присущими ему метрологическими характеристиками. Оценки группы экспертов рассматривают как совокупность независимых одинаково распределенных случайных величин со значениями в соответствующем пространстве объектов числовой или нечисловой природы. Обычно предполагается, что эксперт чаще выбирает правильное решение (т.е. адекватное реальности), чем неправильное. В математических моделях это выражается в том, что плотность распределения случайной величины - ответа эксперта монотонно убывает с увеличением расстояния от центра распределения - истинного значения параметра. Различные варианты моделей поведения экспертов описаны и изучены в [9,12,18, 26,27,37,38] и других публикациях.
На математических моделях поведения экспертов основаны методы планирования экспертного опроса, сбора и анализа ответов экспертов. Очевидно, чем больше предположений заложено в модель, тем больше выводов можно сделать на основе экспертных оценок, рассматриваемых как статистические данные - и тем менее обоснованными являются эти выводы, если нет оснований для принятия используемой модели. Рассмотрим триаду моделей поведения экспертов:
Параметрическая модель - непараметрическая модель - модель анализа данных.
Параметрическим моделям соответствуют наиболее сильные предположения, проверить которые обычно не удается. Так, следует обратить внимание на то, что обычно невозможно обосновать нормальность распределения ответов экспертов. Причины отсутствия нормальности в реальных данных, частным случаем которых являются экспертные оценки, подробно рассмотрены в [39]. Дополнительным фактором является ограниченность числа экспертов - обычно не более 10 - 30, что делает невозможным надежную проверку нормальности даже с помощью такого эффективного по отношению к обычно встречающимся альтернативам критерия, как критерий Шапиро-Уилка.
В начале семидесятых годов был проведен обширный эксперимент (на стыке с психофизиологией) по изучению поведения экспертов. Каждому из них было предъявлено пять образцов. Эксперты рассматривались как "приборы", которые сравнивали образцы по весу. Оказалось, что ответы экспертов одинаково хорошо соответствуют как модели Терстоуна, так и модели Бредли-Терри-Льюса [9]. А ведь эти модели принципиально различны, выводы на их основе существенно отличаются!
На наш взгляд, сказанного достаточно, чтобы относиться с сомнением к обоснованности применения параметрических моделей экспертных оценок.
Непараметрические модели экспертных оценок опираются лишь на предположения общего характера о возможности вероятностно-статистического описания поведения экспертов с помощью непрерывных функций распрекделения или люсианов, параметрами для которых служат нечеткие множества - вектор
10-09-2015, 21:41