В так называемом Денверском исследовании валидности, проведенном С. Стауффером и соавторами в 1947 г., сопоставлялись данные ответов респондентов на фактографические вопросы и данные официальной статистики местных организаций. Речь шла о регистрации избирателей, участии в голосовании, взносах в городскую казну, о наличии водительских прав и читательского билета и т. п. Сопоставляя данные официальной статистики (критерий) с ответами респондентов (предиктор), исследователи обнаружили, что величина расхождений составляла от нескольких процентов до почти 50%, в зависимости от содержания вопроса.
Следует, однако, помнить и об ограничениях, присущих объективным показателям-критериям: данные официальных документов также нередко основаны на самоотчетах и нередко подвержены ошибкам измерения. Все же в некоторых случаях процедура конкурентной валидации имеет преимущество перед предиктивной, так как первая не требует от исследователя длительного ожидания того момента, когда можно будет измерить значения критерия. Если, например, исследователь хочет оценить критериальную валидность теста профессиональных интересов, разработанного для студентов, как предиктора успешной профессиональной карьеры, то ему необязательно ждать десять лет, чтобы измерить значение переменной-критерия. Достаточно провести тестирование профессиональных интересов для двух «крайних» групп уже работающих специалистов — преуспевших и наименее преуспевших в профессии в данный момент времени. Высокая корреляция между тестовым баллом и успешностью работы (или статистически значимое различие тестовых баллов «крайних» групп) будет свидетельствовать о конкурентной валидности теста. Условиями, при которых выводы о конкурентной валидности индикатора могут все же оказаться ошибочными, являются избирательное выбывание из выборки (самоотбор) и реактивность переменной-предиктора. Самоотбор в нашем примере может иметь место в том случае, если среди выбывших из выборки (бывших студентов, отказавшихся от профессиональной карьеры в данной области и не охваченных по этой причине проводимым тестированием) будут сверхпредставлены высоко- либо низкомотивированные, т. е. естественное выбывание будет носить неслучайный характер. В случае реактивности индикатора наши испытуемые будут отвечать на вопросы теста мотивации не так, как они отвечали будучи студентами (из-за повлиявших на них профессионального опыта, изменения социального статуса и т. п.) И все же существуют нереактивные переменные-предикторы, конкурентная валидность которых вполне поддается обоснованию. Примером могут служить такие стабильные характеристики, как коэффициент интеллекта или «фоновые» переменные (социальное происхождение, национальная принадлежность и т. п.).
Наконец, в некоторых случаях мы заинтересованы в том, чтобы установить точность, с которой мы можем оценить наличие какого-то критерия-признака или черты, присущей индивиду (группе) в прошлом. Пример использования проективного психологического теста для постдиктивного «прогноза» детских травм приведен выше. Эта ситуация обозначается как оценка постдиктивной валидности.
Описанные нами виды валидности существенны в тех ситуациях, когда перед исследователем стоит задача сравнить некий показатель с уже существующими или с используемым в практике критерием. Иными словами, критериальная валидность показателя — это корреляция с другим, предположительно «чистым», эмпирическим показателем. Однако существует и другой подход к валидности, где оценка индикатора основана на том, насколько хорошо его «поведение» соответствует теоретическим ожиданиям. Такая оценка может быть проведена лишь в рамках целостной теоретической модели, описывающей отношения между теоретическими переменными, их индикаторами, случайными и неслучайными ошибками измерения. Предположим, мы хотим проверить валидность новой шкалы групповой сплоченности. Основываясь на существующих теоретических представлениях, мы можем предположить, что большей групповой сплоченности соответствует меньшая частота открытых конфликтов и большая интенсивность коммуникаций. Сравнив различные по уровню групповой сплоченности группы и определив для них значения других двух переменных (частота конфликтов и интенсивность коммуникаций), мы увидим, насколько хорошо «ведет» себя разработанный нами показатель групповой сплоченности. Если паттерн его отношений с двумя другими переменными соответствует предсказаниям теории, то мы можем заключить, что новая шкала валидна, т. е. измеряет именно ту теоретическую переменную, которая нас интересует. Этот вид валидности обычно обозначают термином «конструктная валидность». (Иногда используют также обозначение «концептуальная валидность».)
Со статистической точки зрения абсолютная конструктная валидность предполагает, что весь наблюдаемый разброс в значениях показателя связан исключительно с измеряемым теоретическим конструктом. Если же часть вариации индикатора связана с другой переменной — будь то другой теоретический конструкт или систематическая ошибка измерения,— конструктная валидность окажется меньше.
Легко заметить, что оценка конструктной валидности предполагает какую-то связь между проверкой содержательных теоретических гипотез и проверкой качества измерения. Действительно, оценка конструктной валидности посредством сопоставления теоретической модели «поведения» изучаемой переменной с реальными отношениями индикаторов требует включения модели измерения в более широкую теоретическую модель.
Предположим, мы используем некоторый суммарный показатель — индекс «демократизма политической системы», состоящий из ряда индикаторов (Х1 , Х2 , Х3 ), каждый из которых имеет свой собственный «вес» в индексе демократизма. К таким индикаторам могут относиться наличие парламента (номинальная дихотомическая переменная), количество независимых телерадиокомпаний и т.п. Исходя из теоретической модели, мы ожидаем, что степень «демократизма» находится в обратной связи с долей ВНП, расходуемой на модернизацию вооружений. Основываясь на этой модели, можно проверить конструктную валидность изобретенного нами индекса демократизма.
|
Рис. 1. Модель взаимосвязи для переменных «демократизм» и «доля расходов на вооружение»
Собрав необходимые данные для 10—15-и национальных государств, мы можем обнаружить, что наш индекс «демократизма» невалиден, так как ожидаемое отношение между теоретическими переменными (с) не выполняется, их корреляция равна нулю. Просмотрев наши данные, мы, например, обнаружим, что в некоторых странах, почитаемых за образец демократического общественного устройства, изрядную часть бюджета составляют военные расходы, тогда как некоторые деспоты из «банановых республик» вполне обходятся кремневыми ружьями. Однако вывод о невалидности нашего измерения «демократизма» верен лишь в том случае, если верны наши теоретические представления о связи демократии и пацифизма. Если же демократия и пацифизм отнюдь не связаны друг с другом, наши результаты вовсе не доказывают низкую валидность индикатора: вполне возможно, что как раз «демократию» мы измеряли правильно, но неверна была наша теоретическая гипотеза. Существует своеобразное отношение дополнительности между собственно теоретическими моделями и моделями измерения. Оценить качество показателей в модели измерения можно, лишь приняв теоретическую модель как безусловно верную. Для оценки справедливости собственно теоретической модели, нужно принять предположение о конструктной валидности индикаторов и провести новое исследование с новыми данными.
Существуют сложные статистические методы, позволяющие одновременно оценивать модель измерения и теоретическую модель (часто их называют «LISREL-методы»). Они применимы лишь к моделям с несколькими индикаторами для каждой переменной. Однако некоторые методологи полагают — на наш взгляд, справедливо, — что попытки проверить модель измерения и совокупность теоретических гипотез на одних и тех же данных чреваты возможностью ошибочных выводов. Если теория, предсказания которой мы используем для проверки конструктной валидности, относительно нова и не стала еще общепринятой истиной, мы просто не сможем определить, связан ли отрицательный результат исследования с невалидностью показателя, или причиной всему — ложные теоретические представления. Крометого, может оказаться, что мы отберем худший из показателей, ибо именно онподдерживает неверную теорию. Поэтому проверка конструктной валидности индикаторов и проверка теорий требуют от нас разных исследований, множественных показателей и разных матриц данных.
3. Конструирование индексов и шкал
Использование нескольких индикаторов, как было показано выше, увеличивает валидность и надежность измерения переменных. Здесь, однако, возникает новая проблема: как использовать полученные значения индикаторов для того, чтобы охарактеризовать каждый «случай» (каждого респондента, группу, страну и т. п.) одним числовым значением, однозначно определяющим его положение на одномерном континууме переменной-признака, для измерения которой мы использовали данный набор индикаторов. Иными словами, нужно осуществить обратный переход от набора значений эмпирических индикаторов, описывающих каждую конкретную единицу анализа, к упорядочению всех единиц анализа по оси интересующей нас переменной. Такое упорядочение и называется собственно шкалой, мерой выраженности переменной-признака, а логика перехода от набора наблюдаемых значений к шкальным значениям называется моделью шкалирования. Заметим сразу, что некий набор индикаторов — например, набор оценочных шкал — может использоваться для измерения более чем одной переменной, и, следовательно, данные о наблюдаемых значениях этих индикаторов в принципе позволяют упорядочить «случай» по нескольким переменным, т.е. по нескольким шкалам. Однако это уже задача многомерного шкалирования, мы же пока ограничимся обсуждением одномерных шкал и индексов.
Если вернуться к структурированной матрице данных «переменная х случай», то можно увидеть, что процедура конструирования шкалы может быть описана и как процедура «сжатия» матрицы данных, уменьшения ее размерности. Предположим, три строки нашей матрицы соответствуют переменным-индикаторам «доход», «род занятий» и «образование». Мы включили эти индикаторы в наше исследование ради того, чтобы охарактеризовать социально-экономический статус каждого респондента, т.е. расположить их от низкого статуса к высокому. Если мы вместо трех строк, соответствующих доходу, образованию и профессии, введем в нашу матрицу данных одну строку, отражающую положение каждого респондента на сконструированной нами шкале СЭС, размерность матрицы уменьшится. Однако сначала нам нужно решить, как объединить три значения — три строки матрицы — в одно, т. е. нам нужно избрать модель шкалирования.
Пусть, скажем, три строки нашей матрицы данных — это полученные каким-то образом (тестирование, опрос экспертов и т. п.) оценки «жизнерадостности», «энергичности» и «независимости». Исследователь предполагает, что эти три индикатора могут быть использованы для измерения важной для его теории переменной «сила Я». Все, что ему нужно сделать — это решить, как перевести оценки в строках 1—3 в оценки «силы Я» (см. рис. 2).
Рис. 2. Фрагмент матрицы данных «переменные х субъекты»
Переменные- индикаторы |
Субъект («случай») | |||
Л.М. | Ф.Ж. | К.Р. | … | |
1. жизнерадостность | 2 | 0 | 2 | … |
2. энергичность | 2 | 2 | 2 | … |
3. независимость | 0 | 2 | 2 | … |
|
Самый простой и очевидный способ — это суммировать для каждого индивида оценки по каждому индикатору. Получившийся суммарный балл будет отражать индивидуальные различия в «силе Я», так как позволит упорядочить всех респондентов от минимального к максимальному значению этой переменной (в нашем примере — от 0 до 6 баллов). Еще одно преимущество суммирования — увеличение разброса индивидуальных значений. Действительно, максимально возможное различие по первичным индикаторам составляло 2 балла (от 0 до 2). В суммарном показателе разница между индивидуальными значениями может составить 6 баллов. Следовательно, суммарный балл — это более «чуткий» и надежный инструмент для упорядочения и может быть назван шкалой в смысле определения, данного нами выше. Однако в социологии суммарные показатели чаще называют индексами, чтобы подчеркнуть их единственное важное отличие от «больших» шкал. Индекс позволяет эффективно «свернуть» информацию, содержавшуюся в исходных индикаторах (вопросах, пунктах, тестах), однако от суммарного балла нельзя вернуться к исходной матрице, точнее, к тому паттерну ответов, который стоит за данным значением индекса. Если сформулировать это корректнее, индекс не позволяет учитывать различия в структуре ответов респондентов. Если снова обратиться к рисунку 12, то можно заметить, что субъекты Л. М. и Ф.Ж. имеют одинаковый суммарный балл, равный 4 (достаточно высокое значение!). Но можно ли считать несущественным то обстоятельство, что у Л. М. нулевой уровень независимости, а Ф. Ж. получил тот же суммарный балл из-за недостатка оптимизма? Предположим, даже довольно мрачный человек может обладать значительной «силой Я», но следует ли считать столь же «сильным» того, кто легко поддается давлению окружения?
В принципе индексы безусловно применимы в тех случаях, когда модель измерения предполагает, что некая латентная, т. е. не измеряемая непосредственно переменная, может быть измерена с помощью совокупности качественно однородных показателей. Во многих случаях различия в значимости, важности отдельных индикаторов можно учесть с помощью «взвешивания», пересчета значений с учетом «веса» каждого индикатора в латентной переменной. Так в примере с «силой Я» можно домножить все индивидуальные значения в строке «независимость» на 2, если принять предположение о том, что независимость влияет на латентную переменную с двукратным эффектом.
Экономисты часто используют индексы розничных цен, отражающие динамику стоимости жизни. При этом разные товарные группы, например, имеющие неодинаковое значение в потребительском бюджете, — как, скажем, хлеб и деликатесы — учитываются с разными весовыми коэффициентами. Но и в этом случае индекс остается несовершенным типом шкалы: эмпирическая информация здесь используется лишь для шкалирования различий между субъектами (или другими единицами анализа), но не для шкалирования различий между пунктами-ответами {эмпирическими индикаторами). Используя «взвешивание», мы вводим априорные ограничения на упорядочение входящих в индекс индикаторов, не зависящие от данных наблюдения.
Своеобразным переходом между моделью суммарного балла (индекса) и основными моделями шкалирования является шкала Р. Ликерта (Лайкерта). Исходным материалом для ее построения служат оценочные шкалы согласия-несогласия с суждениями, которые выражают более или менее «благожелательную» установку. Количество категорий ответа — «согласен», «совершенно согласен» и т. п. — обычно варьирует от двух до семи. Респондент получает балл по каждому суждению в зависимости от избранного им ответа. Присуждаемый данному ответу балл в свою очередь определяется «благожелательностью» ответа по отношению к измеряемой установке (интенсивностью согласия с суждением), т. е. ответы также упорядочены на одномерном континууме (от крайне негативной установки к крайне позитивной). Баллы, полученные за каждый ответ, суммируются. Суммарный балл, полученный индивидуумом, характеризует уже его собственное положение на установочном континууме (например, «консерватор», «умеренный консерватор», «умеренный либерал», «либерал»). Отметим сразу, что эта же модель шкалирования может использоваться и для измерения мотивации или осведомленности (соответственно респондента просят оценить степень важности какого-то объекта или сказать, верно или неверно определенное утверждение). Для отбора списка суждений, составляющих шкалу Ликерта, исходный список высказываний предъявляют репрезентативной выборке респондентов (так называемой выборке стандартизации). В окончательный список попадают те высказывания, для которых были получены высокие оценки надежности — согласованности и валидности. Обычно используют описанные нами ранее методы оценки надежности и валидности (коррелирование с суммарным баллом, сравнение «крайних групп» и т. п.).
Приведем в качестве примера некоторые высказывания «Теста для измерения художественно-эстетической потребности молодежи» (в скобках дан ключ к каждому высказыванию, показывающий, за какой ответ присуждается балл):
1. Думаю, что вполне можно обойтись без общения с произведениями искусства (неверно).
2. Я не люблю стихов (неверно).
3. Я коллекционирую записи классической музыки (верно).
Шкалирование по описанной модели дает ординальный уровень измерения.
Шкалы социальной дистанции Э. Богардуса — старейшая модель социологического шкалирования, не утратившая, однако, своей популярности. Исследователь разрабатывает совокупность вопросов, отражающих различную степень близости отношений с определенной социальной или этнической группой, например:
1. Согласны ли Вы, чтобы хорваты жили с Вами в одном городе?
2. Согласны ли Вы жить по соседству с хорватами?
3. Согласны ли Вы работать в одном отделе (учреждении) с хорватом?
4. Позволите ли Вы своей дочери выйти замуж за хорвата?
Предполагается, что согласие с каждым последующим утверждением отражает переход к очередной градации ординальной шкалы установок — от меньшей близости к большей. Существенным требованием к избранной совокупности вопросов является их содержательная валидность, иными словами, здесь необходимы экспертные процедуры, описанные выше. Важно также убедиться в обоснованности предположения об одномерности шкалируемой переменной. Если в данных, полученных при использовании шкал социальной дистанции, встречаются «нелогичные» (так называемые нешкалируемые) индивидуальные паттерны ответов, причиной чаще всего бывает влияние другой переменной. Примером нешкалируемого паттерна ответов может служить ситуация, когда респондент, отрицательно ответивший на «слабые» вопросы, неожиданно соглашается с более «сильными», предполагающими высокую степень близости (среди специалистов по социологическим методам имеет хождение соответствующая шутка: если человек, не желающий жить в одном городе с черными, согласен выдать свою дочь замуж за черного, это не ошибка измерения: просто он одинаково ненавидит негров и собственную дочь).
Шкала равнокажущихся интервалов Л. Терстоуна позволяет достичь более высокого уровня измерения установок, чем ординальный. Она представляет собой целый класс методов интервального шкалирования и будет рассмотрена здесь в качестве наиболее простого примера.
Первая шкала равнокажущихся интервалов была описана в работе 1929 года и предназначалась для измерения остановок по отношению к церкви как социальному институту. Этой работой мы воспользуемся для того, чтобы проиллюстрировать основные этапы предложенной Терстоуном процедуры.
Шкала Терстоуна позволяет расположить и суждения, и индивидов вдоль одномерного континуума установки, полюсам которого соответствует крайне благожелательное и крайне негативное отношение к объекту установки (церкви, партии, прогрессивному налогообложению или чему-либо еще). Шкальный балл суждения или индивида отражает степень этой благожелательности или неблагожелательности.
На первом этапе исследователь составляет максимально широкий список суждений (высказываний), выражающих интересующую его установку. Так, Терстоун собирал мнения коллег, студентов, высказывания из публикаций, касающихся церкви. Здесь уместны также интервьюирование, использование открытых вопросов («Что Вы думаете о...?»), групповая дискуссия и т. п. Собранные суждения были подвергнуты первичному отбору. Исследователи отсеяли те высказывания, которые не удовлетворяли обычным требованиям к конструированию вопросов — двусмысленные, слишком длинные, содержащие специальные термины и т.п.. При первичном отборе суждений для шкалы Терстоуна используют и некоторые специальные критерии:
1. Исключаются суждения, относящиеся скорее к прошлому, чем к настоящему (например, «В средневековье церковь играла важную роль в общественной жизни»).
2. Исключаются суждения, описывающие факты, а не мнения и отношения. Конечно, далеко не всегда можно отделить высказывания, описывающие фактическое положение дел, от прочих. Скажем, слова «Бог любит нас всех» — факт
10-09-2015, 15:28