Создание надежных тестов: личностные опросники, разработка заданий

которая могла бы быть, несомненно, рекомендована в свете приведенного выше пункта (2)! Кроме того, как указывает Messick (1960), социальная желательность сама по себе допускает значительные индивидуальные различия : то, что социально желательно для члена парламента, почти наверное не является таковым для лондонского докера.

Исходя из этих трех причин, не рекомендуется прибегать к такому радикальному и, по-видимому, недостаточно эффективному шагу, как конструирование спаренных заданий, подобранных по их социальной желательности.

Избегайте явно социально желательных / нежелательных заданий

Существует ряд характеристик и качеств, с которыми мало кто захочет согласиться, по крайней мере в среде образованных европейцев. Они настолько очевидны, что когда мы проиллюстрируем их ниже несколькими примерами утверждений, то они покажутся явно абсурдными. Вот несколько примеров утверждений, которые являются явно социально желательными или нежелательными:

(1) Я с трудом переношу неудачи: (да, нет).

(2) Я не понимаю юмор: (да, нет).

(3) Я постоянно лгу: (да, нет).

(4) Я мало сексуален: (да, нет).

(5) Я сексуальный психопат: (да, нет).

(6) Я не могу контролировать свои эмоции: (да, нет).

(7) Я завистливый и ревнивый человек: (да, нет).

(8) Я скупой: (да, нет).

(9) Когда возможно, я отлыниваю от работы: (да, нет).

(10) Я лгу, чтобы избавиться от хлопот: (да, нет).

(11)Я ненавижу негров: (да, нет).

(12) Я в основе своей антисемит: (да, нет).

По нашему опыту разработки тестов, мы были бы сильно удивлены, если бы любой из двенадцати приведенных примеров оказался приемлемым даже для исследовательского теста. Например, для тестов личности, используемых в профотборе, они будут совершенно бесполезными. Представьте себе утверждение (11)в тесте, предназначенном для работников социального обеспечения, или утверждение (12) в тесте, предложенном человеку, надеющемуся получить работу в фирме, владельцем которой является еврей.

Измерение социально желательных или нежелательных черт

Если измерению подлежат социально желательные или нежелательные черты, при разработке заданий следует избегать прямолинейного подхода, как в перечисленных выше утверждениях. Два примера пояснят сказанное.

Пример 1. Задание для измерения скупости. Поскольку (см. утверждение 8 выше) прямой подход не годится, я утверждал при разработке теста AI3Q, что скупой человек вполне мог бы думать, что содержащиеся в народной мудрости высказывания о бережливости очень разумны, тоща как на менее скупого они не произвели бы впечатления. Следовательно, я попытался сформулировать задание следующим образом: "Каждый ребенок должен знать, что бережливость лучше богатства." Похоже, что в этом задании ответы как "да", так и "нет", не имеют отношения к социальной желательности (не являются социально одобряемыми). Действительно, этот вопрос оказался удачным по всем результатам анализа заданий.

Пример 2. Задание для выявления мстительности. Мало кто подтвердит утверждение: "Я мстителен." Однако, как уже говорилось, мстительные индивидуумы обычно проецируют свою мстительность на других, т.е. действуют механизмы защиты. Таким образом, я сконструировал утверждение: "Поступками большинства революционеров руководит мстительная жестокость." Я подумал, что мало кого из испытуемых можно было бы действительно причислить к революционерам, так что мнения обследуемых будут отражать их собственные защитные реакции и стремления. Это задание оказалось удачным, и я полагаю, что проекция - это механизм, действие которого может быть использовано в формулировании вопросов, которые слишком социально нежелательны, чтобы задавать их прямо.

Пример 3. Задание для выявления лености. Если опираться на механизм проекции, то можно сформулировать утверждение так: "Промышленность сегодня находится в плачевном состоянии, потому что рабочие в основном ленивы." Следует заметить, что если это утверждение рассматривается некоторыми испытуемыми как факт, то есть не "включает" проективный механизм, то анализ заданий полностью выявит это: вопрос не будет работать.

Использование шкалы лжи

Некоторые авторы (например, Айзенк в тестах ЕРI и EPQ) вводят особую группу заданий для выявления тех лиц, которые склонны давать социально одобряемые ответы. Они состоят из вопросов, касающихся незначительных проступков, которые, увы, иногда совершаются большинством людей. Набравший наибольшее количество баллов по такой шкале рассматривается как дающий социально одобряемые ответы, а поэтому его показатели по тесту могут быть проигнорированы. Хотя Eysenck и Eysenck (1976), исходя из факторного анализа заданий теста EPQ утверждают, что шкала лжи измеряет определенную личностную переменную, для практического тестирования со значительным потоком испытуемых этот прием для обнаружения установки на социально одобряемые ответы весьма полезен.

Вот некоторые типичные утверждения шкалы лжи: "Я никогда не лгу"; "Я всегда прихожу вовремя на встречи и свидания"; "Я всегда плачу за проезд на транспорте".

Адекватный анализ заданий и валидизация теста

Несмотря на все сказанное, я по-прежнему утверждал бы, что при соответствующем анализе и отборе заданий во время разработки теста, при тщательной валидизации теста, как и в случае с установкой на согласие, влиянием тенденции к социально одобряемым ответам можно пренебречь.

(1) Анализ заданий. По определению, наличие в тесте задания, провоцирующего социально одобряемые реакции, должно приводить к тому, что распределение ответов на него будет смещено, то есть не будет соответствовать нормальному распределению. Таким образом, устранением из теста заданий с распределением ответов, отличным от нормального, мы избавимся от действия установки на социально одобряемые ответы. Более того, если большинство заданий дают нормальное распределение ответов и они нагружены некоторым общим фактором, тогда установка на социально одобряемые ответы не может оказывать сильное влияние и на другие задания, относящиеся к тому же фактору. Подобные аргументы приводятся при анализе заданий с использованием бисериальной корреляции результатов выполнения каждого задания с общим показателем по тесту. Таким образом, при адекватном анализе те задания, результат выполнения которых подвержен влиянию установки на социально одобряемые ответы, должны быть устранены, если только, по нелепой случайности, все задания, выбранные нами для теста, не оказались измеряющими эту черту. Возможность возникновения этой ситуации должна проверяться при валидизации теста.

(2) Валидизация теста. Более важной процедурой, нежели проверка на тенденцию к социально одобряемым ответам, является валидизация теста. Если мы покажем, что тест валиден, то тогда не имеет значения, влияет ли на его выполнение установка на социально одобряемые ответы, или нет. Один из путей доказательства того, что тест свободен от действия установки на социально одобряемые ответы, - показать при исследовании валидности, что он не связан со шкалой социальной желательности Кроуна-Марлоу (Crowne-Marlowe Social Desirability Scale; Crowne и Marlowe, 1964), шкалой, coстоящей из явно социально желательных (нежелательных) утверждений.

Выводы относительно установки на социально одобряемые ответы

Нет сомнения, что установка на социально одобряемые ответы может влиять на результаты выполнения заданий, и, следовательно, на показатели тестов личности. Несмотря на это, ее влияние может быть минимизировано. Вот некоторые выводы:

(1) Следует всячески избегать заданий с явно социально желательной или нежелательной окраской.

(2) Процедура анализа заданий позволит устранить те задания, ответы на которые явно смещены в одном направлении ("да" или "нет").

(3) Должна быть всегда продемонстрирована валидность теста, что позволит окончательно устранить все задания, в ответах на которые сказывается установка на социальную желательность.

(4) Нет необходимости предпринимать столь тщательно разрабатываемые меры предосторожности против установки на социальную желательность, как это делал Edwards (1957).

Другие установки на ответы

Тенденция подтверждать крайние ответы

Это тенденция, сказывающаяся в рейтинговых шкалах и таких тестах, как, например, тест личностных шкал Комрея (Cornrey Personality Scales; Cornrey, 1970), то есть тех, в форму заданий которых входят рейтинговые шкалы. С моей точки зрения, преимущества рейтинговых шкал (в плане чувства удовлетворения у тех испытуемых, которые полагают, что на вопросы лучше отвечать в такой форме) сводятся на нет проблемами, возникающими с теми испытуемыми, которые склонны подтверждать крайние ответы. Для того, чтобы не спутать их с лицами, имеющими высокие показатели по тесту, сбалансированная шкала уже не поможет, потому что при такой установке каждый из крайних пунктов шкалы одинаково привлекателен. Единственный способ избежать этой проблемы - не использовать задания данного типа. Если же мы по каким-либо причинам вынуждены использовать такие шкалы, то тщательный анализ заданий и валидизация переменных теста, вероятно, смогут устранить те вопросы (утверждения), которые особенно побуждают испытуемых проявлять эту установку.

Как утверждает Guilford (1959), наиболее благоприятной почвой для проявления любых установок на ответы являются те задания, которые неопределенны, неоднозначны и неконкретны. Значение этого утверждения невозможно преувеличить. Формулирование заданий путем следования указанным выше правилам позволит минимизировать влияние установок. Более того, тщательная валидизация теста продемонстрирует, что влияние этих искажающих факторов незначительно. Однако, это влияние не будет столь несущественным, если не будут приняты меры предосторожности. Применительно к установкам на крайние ответы можем рекомендовать избегать использовать задания типа рейтинговых.

Тенденция к подтверждению средних значений

Несомненно, лучший способ избежать проявления этой установки - это использовать дихотомические задания. Однако, у некоторых испытуемых возникают сложности при работе с дихотомическими заданиями. Они считают, что на них невозможно отвечать, а поэтому (для этих испытуемых) желательно введение некоторой средней категории ответов. Исследования (Bendig, 1959) показали столь высокую корреляцию между дихотомическими и трихотомическими заданиями, что риск проявления побочных явлений, подобных обсуждаемому, не оправдывает использования последних.

Хорошо сформулированные задания могут быть написаны так, что выбор средней категории не будет притягательным для испытуемых. Эта категория ответов особенно привлекательна тогда, когда оба крайних значения в равной степени не затрагивают, безразличны для испытуемых. Например: "Что бы вы предпочли: (а) осмотреть консервный завод; (б) пойти в местный музей; (в) не знаю?" Как могут быть выявлены такие вопросы при проверке теста в том случае, когда мы используем дихотомические задания? Автор данной книги использовал такой прием: во время проверки теста он снабдил его специальной инструкцией, в которой указывалось, что все задания, при выполнении которых испытуемым потребовалась средняя категория ответов, должны быть помечены крестиком. От тех заданий, которые часто отмечаются таким образом, лучше отказаться, если только они не оказались особенно эффективными в ходе анализа заданий.

Задания, для которых необходима средняя категория ответов, не смогут пройти процедуру анализа и будут автоматически устранены, а исследование валидности может показать, что установка на средние ответы не является существенным источником ошибок.

Довольно об установках на ответы. Если будут использоваться те приемы, о которых речь шла выше, то мы склонны полагать, что влияние установок на ответы будет минимальным. Дальнейшая валидизация тестов покажет, действительно ли это так.

Содержание вопросов (утверждений)

До сих пор при обсуждении принципов конструирования заданий основное внимание уделялось их форме. При этом мы предполагали, что знаем, какие черты (особенности) пытаемся тестировать. Тем не менее, справедливо было бы спросить, каким же именно образом мы принимаем решения о содержании заданий. Трудно делать общие заключения об этом, поскольку многое зависит от особенностей конкретной области поведения, для диагностики которой мы хотим разрабатывать тест личности. Чтобы проиллюстрировать, как принимать решения о содержании тестов, я приведу несколько примеров.

Теоретический пример

Kline (1968) выполнил экспериментальное исследование особенностей анального характера (Freud, 1908), в ходе которого для конструируемого теста было поставлено большое количество эмпирических задач. Существует ли анальный характер? Если да, то измеряется ли он другими личностными опросниками? Имеет ли он отношение к научению ребенка справлять большую нужду? Изменяется ли он от культуры к культуре, как следовало бы ожидать, исходя из психоаналитической теории? Чтобы ответить на эти вопросы, было необходимо сконструировать и валидизировать инструмент для измерения анального характера. Чтобы сделать это, я должен был решить, какие черты должны войти в тест.

Далее следует краткое описание того, как содержание вопросов (утверждений) было отшлифовано, прежде чем они превратились в задания теста. Получившийся в результате этого тест (Ai3Q), похоже, выдержал подробные критически проверки (см. Kline, 1978). Были подробно изучены психоаналитические описания анального характера (напр., Abraham, 1921; Jones, 1923; Menninger, 1943), и составлен список всех черт и специфических примеров поведения. Примеры из публикации Jones (1923) перечислены ниже.

(1) Промедление в удовлетворении потребностей, доводимое до их интенсивной концентрации, монотонная настойчивость, своевольная независимость - уверенность, что никто не может сделать что-либо так хорошо, как он сам.

(2) Неспособность перепоручать работу.

(3) Мелочное внимание к подробностям.

(4) Нежность к детям.

(5) Склонность к доминированию.

Подобным образом был собран длинный подробный список черт и особенностей поведения. Затем они были преобразованы в задания теста с использованием всех тех правил и приемов, которые обсуждались в данной главе.

Практический пример

Нет сомнений в том, что полезно иметь инструмент для измерения агрессивности, например, в центре по перевоспитанию правонарушителей или для малолетних заключенных. Основным подходом в этом случае было бы составление списка всех проявлений агрессивности, которые только можно вообразить, преобразование их в задания и апробация на соответствующей выборке. Следует отметить, что при таком подходе не стоит вопрос о том, что есть агрессия как личностное измерение. Для этого необходимо специальное исследование. Так, факторный анализ заданий продемонстрировал бы, есть ли только одно измерение, ряд коррелирующих между собой измерений, несколько некоррелирующих измерений или ни одного реального синдрома поведения, которые могли бы быть значимо описаны как агрессивность.

Получение содержания задания

Возвращаясь к нашему примеру, отметим, что есть набор признаков агрессивного поведения, которые бы могли быть использованы в заданиях: постоянно дерется (не в шутку); когда раздражен, вступает в драку по любому поводу; использует в драке разбитые бутылки; носит с собой бритвы, кастеты, велосипедные цепи, складные ножи, ремни с металлическими бляхами, имеет тяжелые ботинки; бьет упавших противников ногами; избивал кого-либо до потери сознания; страдал от несправедливости и оскорблений; кричит, если раздражен; разбрасывает вещи по комнате; лжет, чтобы раздразнить конкурентов; придумывает страшные истории. Затем подобный список при помощи приемов, описанных в данной главе, может быть преобразован в задания теста.

Заключение

При тех сложных и неизбежно неточных инструкциях для конструирования заданий тестов личности, приведенных в данной главе, наиболее ценным может оказаться краткое пошаговое описание интересующей нас процедуры. Оно и приводится ниже. Полное обоснование всех этих положений содержится в тексте главы.

(1) Перечислите черты и особенности поведения из описаний в психологической литературе.

(2) Преобразуйте описание каждой черты или особенности поведения в задание. Это лучше всего сделать при помощи обычных форм заданий опросников: (а) дихотомических заданий (типа "да-нет"); (б) трихотомических заданий (типа "да-?-нет"): (в) альтернативных заданий; (г) заданий типа "нравится-не нравится"; (д) заданий с вынужденным выбором; (е) заданий с рейтинговыми шкалами. Выбор формы задания зависит от особенностей используемого материала и оценки преимуществ и недостатков каждого типа заданий.

(3) Независимо от используемого типа заданий старайтесь, чтобы назначение каждого задания не было слишком очевидным.

(4) формулируйте каждое задание понятно и недвусмысленно.

(5) Насколько возможно, обеспечьте, чтобы каждое задание относилось к какой-либо конкретной области поведения.

(6) В каждом задании должен содержаться только один вопрос или одно утверждение.

(7) Избегайте использовать термины частоты и другие субъективные выражения.

(8) Когда это возможно, задания должны касаться поведения, а не чувств и отношений.

(9) Обеспечьте, чтобы ответы на задания давались быстро.

(10) Избегайте влияния основных установок на ответы, таких как установка на согласие и установка на социально одобряемые ответы.

(11) Вероятность проявления установки на согласие лучше всего уменьшается формулированием понятных заданий и использованием сбалансированных шкал.

(12) Проверьте при помощи процедур анализа заданий то, что тенденция к согласию - несущественный фактор.

(13) Установки на социально одобряемые ответы легче всего избежать путем тщательного формулирования заданий.

(14) Проверьте при помощи техники анализа заданий, что установка на социально одобряемые ответы - несущественный фактор.

(15) Избегайте с помощью адекватной формы заданий влияния установок на выбор крайних или средних категорий ответов.

(16) Проверьте при помощи процедуры валидизации, что влияние установок на ответы не является существенным. Если тесты валидны, то установки на ответы не могут оказывать влияние на их показатели.

10-09-2015, 03:10

Страницы: 1 2 3

Создание надежных тестов: личностные опросники, разработка заданий

Разделы сайта