Корреляция как метод статистического анализа в психологических исследованиях применяется очень часто. Всем, кто работает с применением корреляционного анализа, т.е. выясняет посредством этого метода тесноту связи двух рядов, следует напомнить, что коэффициент, как бы высок он ни был, нельзя интерпретировать как показатель наличия причинной связи между коррелируемыми рядами. Если коэффициент и может быть как-то использован в обсуждении вопроса о возможных причинных связях, то только в том случае, когда содержательная логика исследования и выдвигаемые при этом теоретические соображения позволяют опереться как на один из аргументов и на значение коэффициента корреляции.
В изложении метода корреляции речь шла исключительно о линейных корреляциях, которые изображены на схемах №1,2, 4. Но там же приведена схема криволинейной корреляции (№ 5). Вообще говоря, вероятно, и в психике человека протекают процессы, взаимосвязь которых не имеет линейного вида. Вычисление нелинейных корреляций и, главное их истолкование не относятся к простейшим статистическим методам, о которых говорится в этой главе. Но об их существовании следует знать.
Наконец, полезно напомнить, что корреляции по Пирсону (с определенными ограничениями и в определенных сочетаниях) создают ту базу, на которой открываются возможности перехода к так называемому факторному анализу. (Наиболее ясное изложение сути факторного анализа см.: Теплов Б.М. Типологические особенности в н.д. человека. М., 1967. Т. 5. С. 239).
Метод определения меры различия между наблюдаемыми и предполагаемыми (теоретическими) численностями — хи-квадрат.
Ранее были рассмотрены различные отношения между выборками: количественное преобладание какого-то признака, представленного в одной из выборок, теснота связи между выборками. Но есть еще одно важное отношение между ними: количественная разница распределений, благодаря которой при сопоставлении выборок открывается возможность прийти к содержательным выводам. Это отношение обнаруживается при сопоставлении распределений численностей. Допустим, что сравниваются две выборки, выпускников двух школ. Часть выпускников каждой школы сдавали экзамены в вузы. Из первой школы сдавали экзамены 100 человек, из них 82 успешно, не сдали 18. Таково распределение численности в первой выборке. Из второй школы сдавали экзамены в вузы 87 человек, выдержали 44 человека, не сдали — 43. Таково распределение численностей во второй выборке. Достаточно ли этих данных, чтобы утверждать, что подготовленность к вузовским экзаменам выпускников этих школ неодинакова? На первый взгляд, разница налицо:
лучше подготовлены выпускники первой школы. Однако при таком раскладе численностей возможно влияние случайности. Поэтому встает вопрос, можно ли, считаясь с представленными распределениями, прийти к статистически обоснованному выводу о мере подготовленности к экзаменам в вузы той и другой выборки.
Метод, с помощью которого подвергаются статистическому анализу описанные распределения численностей, получил название хи-квадрат, его обозначают греческой буквой x 2 с показателем степени. Он был разработан математиком Пирсоном. Метод x 2 весьма универсален, применим во многих исследованиях, пригоден для статистического анализа распределения численностей разнообразных количественных материалов, относящихся ко всем статистическим шкалам, в том числе и к шкале наименований.
Техника вычисления хи-квадрата довольно проста. Рассмотрим пример со сдачей экзаменов в вузы выпускниками первой и второй школ. В условии сказано, что всего намерены были сдавать экзамены 187 человек: 100 учащихся (53,5%) из первой школы и 87 (46,5%) из второй. Предположим, что выпускники обеих школ подготовлены одинаково, тогда и доли сдавших и не сдавших будут такие же, как доли их представленности в общем числе сдающих. Всего сдало экзамены 126 выпускников (82 + 44). Согласно высказанному предположению, 53,5% от этого числа должны бы были прийтись на 1-ю школу — это составит 66,9 от 126 — и 46,5% на 2-ю школу, что составит 58,9 от 126. Такое же рассуждение повторяем и относительно несдавших. Их всего 61 человек (18 + 43). На 1-ю школу, как нам известно, должно, по предположению, прийтись 53,5% от этого числа, т.е. 33,0 от 61, а на долю 2-й школы — 46,5%, т.е. 28,1 от 61. Нуль-гипотеза, имеющая в данном раскладе тот смысл, что между выпускниками нет различия, при таком соотношении сдавших и несдавших подтвердилась бы. Однако в условиях этого исследования показано другое распределение. Количество выпускников 1-й школы, сдавших экзамены, составляет 82, а не 66,9, как можно было бы предположить, исходя из нуль-гипотезы. Соответственно количество выпускников 2-й школы, сдавших экзамены, составляет в действительности всего 44, а не 58,9. Точно также, сравнивая количество несдавших (по условию с предполагаемым распределением) найдем по 1-й школе 18, а не 33, а по 2-й школе — 43, а не 28,1.
Расхождения между действительными распределениями и распределениями, которые могли бы иметь место, если исходить из нуль-гипотез, налицо. Они-то и учитываются при вычислении x 2 . Все сказанное удобно представить в виде таблицы-графика распределения численностей (табл. 7). Количества, которые были бы получены при принятии нуль-гипотезы, заключены в скобки. В правом углу буквенное обозначение клетки.
Таблица 7
Школа | Число сдавших | Число несдавших | Всего | Долевые отношения, % |
Первая | 82 А (66,9) |
18 В (33,0) |
100 (100) |
53,5 |
Вторая | 44 С (58,9) |
43 Д (28,1) |
87 (87) |
46,5 |
Всего | 126 | 61 | 187 | 100 |
Получены разности по клеткам (знак разности несущественен). Клетки:
А fA = 82—66,9= 15,1;
В fB = 18 — 33 = 15,0;
С fC = 44 — 58,9 = 14,9;
Д fD = 43—28,1= 14,9. Формула хи-квадрат:
где f 0 — наблюдаемые численности; f e — предполагаемые (теоретические) численности.
В рассмотренном материале x 2 = 15,12 /66,9 + 152 /33 + 14,92 /58,9 + 14,92 /28,1= 288/66,9 + 225/33 + 222/58,9 + 222/28,1= 3,4 + 6,8 + 3,8 + 7,9 = 21,9
Для получения числа степеней свободы нужно воспользоваться формулой (только для хи-квадрат): fd = ( k - 1)(с - 1) = (2 - 1) х (2 - 1) = 1 степень свободы, где k — число столбцов, с — число строк в таблице с анализируемым материалом.
Обратимся к таблице уровней значимости для одной степени свободы для хи-квадрат: x 2 0,99 = 6,6. Следовательно, полученная величина вполне достаточна для отклонения h 0 . Есть все основания для содержательного вывода о различной степени подготовленности выпускников обеих школ к экзаменам в вузы.
Все вычисления, приводимые в этой главе, ведутся с точностью до первого знака, т.е. вычисляются целые и десятые. Этим объясняется та, в общем-то, несущественная разница при вычислениях одной и той же величины разными способами. Никакого практического значения встречающиеся расхождения в величинах не имеют.
Полезно знать, что коэффициент хи-квадрат и коэффициент четырехпольной корреляции взаимосвязаны и, поскольку известна численность и распределение сопоставляемых выборок, указанные коэффициенты могут быть определены один через другой.
Как показывает само название этого метода, числовой материал, подлежащий статистическому анализу, может быть распределен в таблице-графике, имеющей четыре поля. Такое расположение материала облегчает все последующие действия с ним. Чтобы рассмотреть технику вычисления коэффициента четырехпольной корреляции — он обозначается символом j (фи), — можно воспользоваться тем примером, где речь шла о вычислении коэффициента x 2 . Выпускники двух школ сравнивались между собой по подготовленности к вузовским экзаменам.
Школы | Сдали | Не сдали | Всего |
Первая | 82 a | 18 b | 100 a + b |
Вторая | 44 c | 43 d | 87 c + d |
Итого: | 126 а + с | 61 b + d | 187 |
Заменив буквенные обозначения числами, получим:
Для получения коэффициента х 2 нужно воспользоваться формулой х 2 = j2 · n. В данном примере х 2 = 0,342 ·187 = 0,1156 · 187 = = 21,7. Этот же коэффициент х 2 вычислялся другим приемом. Получено значение 21,9. Расхождение вызвано разницей в технике вычислений.
Коэффициент четырехпольной корреляции j может принимать значения от 0 до 1, причем знак получаемого j не принимается во внимание.
Психологу, намеренному воспользоваться для статистического анализа своих материалов методом хи-квадрат, нужно знать о некоторых обязательных требованиях этого метода; о них не упоминалось в приведенных примерах. При вычислении коэффициента х 2 необходимо брать для анализа только абсолютные численности выборок, но не относительные, в частности, не проценты. Необходимость учитывать это свойство объясняется тем, что значение коэффициента х 2 зависит от абсолютных величин рассматриваемых распределений. Так, сравнение выборок с численностями 60 и 40 даст совершенно не тот результат, что сравнение выборок с численностями 6 и 4, хотя процентное отношение распределений в обоих случаях одинаково (60 и 40%).
Далее, для вычисления коэффициента х 2 нужно, чтобы в каждой клетке таблицы-графика было не менее пяти наблюдений. Наконец, нужно со вниманием относиться к определению числа степеней свободы; неверное определение этого числа повлечет за собой неверное определение уровня значимости коэффициента по таблице.
Этим заканчивается рассмотрение статистических методов, относящихся ко второму типу задач.
В этих задачах независимо от того, будут ли они практического или теоретического содержания, психолог сопоставляет, сравнивает между собой несколько выборок. При этом не следует забывать, что цель исследования не всегда состоит в том, чтобы при сопоставлении отвергнуть нуль-гипотезу. Иногда конечная или промежуточная цель исследования состоит в том, чтобы, допустим, сравнивая выборки, подтвердить нуль-гипотезу. Самый простой пример: исследователь желает составить большую выборку, для чего необходимо объединить в ней учащихся нескольких школ. Естественно, решающее значение имеет доказательство того, что группы учащихся из разных школ относятся к одной совокупности, нужно, чтобы примененные критерии подтвердили это, а значит, статистика должна подтвердить при сравнении групп нуль-гипотезу. Подтвердить или отвергнуть нуль-гипотезу при сопоставлении выборок — в этом и состоит назначение статистических критериев; наиболее простые из них были изложены в предшествующем тексте. Конечно, информация, которую выявят статистические методы, может быть противоречива утверждениям, которые намерен защищать исследователь. В таком случае ему придется внести поправки в свои утверждения или отказаться от них.
Переходим к задачам третьего типа — задачам, рассматривающим динамические, временные ряды.
Предположим, что психологу дано задание собрать информацию о состоянии умственной работоспособности школьников 8-х классов, начиная со второй недели учебного года и до девятой недели включительно. Одной из методик, с помощью которых можно фиксировать состояние умственной работоспособности, считается тест Крепелина. Он состоит из большого количества примеров, в каждом из них нужно складывать два двузначных числа; учитывается общее число правильно решенных примеров. Каждые 3 минуты испытуемые по сигналу экспериментатора отмечают черточкой сделанное. Общая длительность эксперимента в зависимости от возраста составит 9, 12 или 15 минут. Этой методикой и воспользовался психолог. Он начал с того, что сформировал из учащихся, средние успехи которых оценивались за предыдущее полугодие баллами 4 и 5, выборку из 10 человек. Все они изъявили желание участвовать в эксперименте. С этими учащимися психолог в течение первой недели учебного года провел по 12 тренировочных занятий; это было необходимо, иначе рост продуктивности вследствие упражняемости замаскировал бы изменения в динамике работоспособности. Затем начался эксперимент: по субботам после уроков учащиеся этой выборки в течение 12 минут работали с тестом Крепелина. Эксперимент, как было сказано, продолжался 8 недель. Были получены следующие данные, средние по всей выборке (рис. 4).
Визуальная оценка полученного динамического ряда свидетельствует о снижении умственной работоспособности, в чем, конечно, нет ничего удивительного. Однако снижение идет не вполне равномерно. Это ясно видно из графика.
Недели эксперимента | I | II | III | IV | V | VI | VII | VIII |
Средняя продуктивность по тесту Крепелина | 92 | 94 | 90 | 92 | 81 | 74 | 78 | 70 |
Основная тенденция изменения умственной работоспособности вполне ясна. Наблюдаемые, в общем, незначительные отклонения от этой тенденции могут быть на графике устранены методом сглаживания. В этом случае применим метод скользящей средней. Для сглаживания суммируются три показателя у — в данном примере это показатели продуктивности по тесту, — далее, опуская по одному показателю, суммируются одна за другой триады. Средняя каждой триады принимается за показатель сглаженной ломанной, если ориентироваться по графику. Смысл проводимого действия состоит в том, что основная тенденция выступает более отчетливо.
92 | 92 | 88 | 82 | 77 | 74 | — средние по триадам | |
92 | 94 | 90 | 92 | 81 | 74 | 78 | 70 |
В только что рассмотренном примере сглаживание имеет такой вид:
Результаты сглаживания приобретают большую наглядность при нанесении их на график. Выступает основная тенденция динамики умственной работоспособности. Судя по показателям, полученным после сглаживания, в течение первых трех экспериментальных недель значительного снижения работоспособности не наблюдается, а далее идет непрерывное и резкое ее снижение. Сглаживание, как видно на графике, устранило колебания в работоспособности, отмеченные на первичном графике после V недели. При сглаживании по триадам общее число точек уменьшается на 2.
Какое значение имеет выделение посредством сглаживания основной тенденции? Если условия, благодаря которым возникла основная тенденция, сохранятся, то и эта тенденция с высокой вероятностью сохранится и, таким образом, по основной тенденции может быть построен прогноз, как будут развиваться изучаемые явления. Но такой прогноз возможен только при стабильности определенных условий. Для его построения нужен не только формальный, но и содержательный анализ; он же позволяет раскрыть значение факторов, вызвавших отклонения в ту или другую сторону от основной тенденции.
е Техника метода скользящей средней дает возможность выбирать различные способы объединения показателей для сглаживания. Таковыми могут быть не только триады, но при достаточно большом числе показателей (порядка 30—40 и более) для выведения скользящей средней могут быть выбраны пентады (объединения пяти показателей) и даже септиды (семь показателей).
Нужно иметь в виду, что наглядный и простой метод скользящей средней малопригоден для сглаживания динамики процессов, развитие которых во времени не имеет линейной формы (см.: рис. 3, схема 5, с. 265). Сглаживание методом скользящей средней в таких случаях может привести к искажению действительной тенденции развивающегося процесса. Исследователю следует внимательно всмотреться в материал, подлежащий сглаживанию, чтобы решить, имеет ли он право воспользоваться этим методом. Если криволинейная зависимость отражена в достаточно больших отрезках кривой, то каждый из этих отрезков в отдельности может быть подвергнут сглаживанию. Таково ограничение в использовании метода скользящей средней.
Анализируя выраженную на графике основную тенденцию в ее приближении к прямой, можно заметить, что метод не дает меры наклона, угла, который образуется между полученной после сглаживания приближающейся к прямой ломаной и осью абсцисс. Между тем, узнав величину этого угла, исследователь получит информацию о том, с какой скоростью изменяются изучаемые явления во времени: чем круче наклон и соответственно чем меньше внешний угол сглаженной кривой с осью абсцисс, тем больший путь проходит за единицу времени изменяющийся процесс. Это хорошо видно на рис. 5.
|
|
|
Рис.5
Точные сведения о мере наклона отрезка прямой, полученного после сглаживания, дает метод наименьших квадратов.
Для получения параметров отрезка прямой нужно обратиться к отношению единиц времени (х) и показателей развивающего процесса (у).
Для нахождения параметров отрезка прямой, который после сглаживания представит основную тенденцию изменяющегося ряда, проделываются вычисления по определенным формулам.
Формула прямой: у = а + bх, где у означает показатели ряда, х — единицы времени, по которым прослеживаются изменения изучаемого ряда. Надлежит узнать величины а и b. Величина а необходима для установления точки, с которой берет свое начало отрезок прямой, b — необходимо для установления степени наклона отрезка прямой по отношению к оси абсцисс (оси иксов).
Для вычисления вышеуказанных параметров а и b имеется система двух уравнений с двумя неизвестными:
па + åxb = åу ;
åxa + åx 2 b = åху;
х и у в этой формуле рассчитываются из фактических данных изучаемого ряда.
Порядок вычислений. Шестиклассники Саня и Толя в течение пяти дней упражнялись в бросках мяча в корзину. Показатели Сани приведены в таблице (х — единица времени, у число попаданий мячом в корзину. В таблице приведены вычисления и других, требуемых формулой, величин; п = 5).
х | у | х 2 | ху |
1 | 3 | 1 | 3 |
2 | 4 | 4 | 8 |
3 | 6 | 9 | 18 |
4 | 5 | 16 | 20 |
5 | 8 | 25 | 40 |
åx = 15; åу = 26; åx 2 = 55;åху = 89 5a + 15b = 26;
15a + 55b = 89.
Нахождение неизвестных а и b производится обычным способом исключения одного неизвестного. Члены первого уравнения для этого умножаются на 3
15a + 45b = 78.
Из второго уравнения вычитается первое, вычисляем b:
10b = 11; b = 1,1.
Подставив числовое значение b в первое уравнение, можно получить числовое значение а:
5a + 16,5 = 26;
5a = 9,5; a = 1,9.
Поскольку известны оба параметра отрезка прямой, можно определить все значения параметров по пяти точкам, по формуле у = 1,9 + 1,1х.
y 1 = 1,9 + 1,1 =3,0;
y 2 = 1,9+2,2=4,1;
y 3 = 1,9+3,3=5,2;
y 4 = 1.9 + 4,4 = 6,3;
y 5 =1,9 + 5,5=7,4.
Как было сказано ранее, сверстник Сани Толя упражнялся в том же умении. Так же, как и у Сани, количество дней упражнения было равно 5. Ниже приводятся результаты Толи и показаны все другие величины, которые необходимы для вычисления величин, требуемых формулой.
х | у | х 2 | ху |
1 | 3 | 1 | 3 |
2 | 6 | 4 | 12 |
3 | 5 | 9 | 15 |
4 | 8 | 16 | 32 |
5 | 10 | 25 | 50 |
åx = 15; åy = 32; åx 2 = 55; åxy =112.
Обозначения здесь такие же, что и в предыдущем примере.
9-09-2015, 17:43