Чтобы подтвердить или отвергнуть существование причинно-следственных отношений, исследователю зачастую приходится продумывать целые серии экспериментов. Если они будут правильно построены и проведены, то статистика поможет извлечь из результатов этих экспериментов информацию, которая необходима исследователю, чтобы либо обосновать и подтвердить свою гипотезу, либо признать ее недоказанной.
Статистические методы, примеры их применения для принятия решения
Первый тип задач
Допустим, что школьному психологу нужно представить краткую информацию о развитии психомоторных функций учащихся шестых классов. В этих классах обучается 50 учеников. В процессе выполнения своей программы психолог провел диагностическое изучение двигательной скорости, применив ранее описанную методику (описание дано на первой странице данного раздела).
Для реализации своей программы психологу надлежало получить количественные характеристики, свидетельствующие о состоянии изучаемой функции — ее центральной тенденции, величины, показывающей размах колебания, в пределах которого находятся данные отдельных учеников, и то, как распределяются эти данные. Какими методами вести обработку, зависит от того, в какой статистической шкале измерены значения исследуемого признака. Визуальное ознакомление с полученными данными показывает, что возможно вычисление среднего арифметического , выражающего центральную тенденцию , и среднеквадратического отклонения , показывающего размах и особенности варьирования экспериментальных результатов.
Нельзя ограничиться вычислением только среднего арифметического, так как оно не дает полных сведений об изучаемой выборке.
Вот пример.
В одном купе вагона поместилась бабушка 60 лет с четырьмя внуками: один — 4 лет, двое — по 5 лет и один — 6 лет. Среднее арифметическое возраста всех пассажиров этого купе 80/5= 16.
В другом купе расположилась компания молодежи: двое — 15-летних, один — 16-летний и двое — 17-летних. Средний возраст пассажиров этого купе также равен 80/5= 16. Таким образом, по средним арифметическим пассажиры этих купе как бы и не отличаются. Но если обратиться к особенностям варьирования, то сразу можно установить, что в одном купе возраст пассажиров варьируется в пределах 56 единиц, а во втором — в пределах 2.
Для вычисления среднего арифметического применяется формула:
" х = ∑ х / n
а для среднеквадратического отклонения формула:
σ = √∑ (х - " х )2 / n
В этих формулах "х означает среднее арифметическое, х — каждую величину изучаемого ряда, ∑ означает сумму; σ означает среднеквадратическое отклонение; буквой n обозначают число членов изучаемого ряда.
Ниже представлен весь ход его обработки.
В опытах участвовало 50 испытуемых. Каждый из них выполнил 25 проб, по 1 мин каждая. Вычислено среднее для каждого испытуемого. Полученный ряд упорядочен, и все индивидуальные результаты представлены в последовательности от меньшего к большему.
85-93-93-99-101-105-109-110-111-115-115-116-116-117-117-117-118-119-121-121-122-124-124-124-124-125-125-125-127-127-127-127-127-128-130-131-132-132-133-134-134-135-138-138-140-143-144-146-150-158.
Для удобства дальнейшей обработки эти первичные данные соединены в группы. Благодаря группировке отчетливее выступает присущее данному ряду распределение величин и их численностей. Отчасти упрощается и вычисление среднего арифметического и среднеквадратического отклонения. Этим компенсируется количественное искажение информации, неизбежное при вычислениях на сгруппированных данных.
При выборе группового интервала следует принять во внимание такие соображения. Если ряд не очень велик, например содержит до 100 элементов, то и число групп не должно быть очень велико, например порядка 8-12. Желательно, чтобы при группировании начальная величина — при соблюдении последовательности от меньшей величины к большей — была меньше самой меньшей величины ряда, а самая большая — больше самой большой величины изучаемого ряда. Если ряд, как в данном случае, начинается с 85, группирование нужно начать с меньшей величины, а поскольку ряд завершается числом 158, то и группирование должно завершаться большей величиной. В ряду, который нами изучается, с учетом высказанных соображений можно выбрать групповой интервал в 9 единиц и произвести разбивку ряда на группы, начав с 83. Тогда последняя группа будет завершаться величиной, превышающей значение последней величины ряда (т. е. 159). Число групп будет равно 9. В табл. 1 представлены группы в их последовательности и все другие величины для вычисления среднего арифметического и среднеквадратического отклонения. Таблица состоит из 8 столбцов.
1-й столбец — группы, полученные после разбиения изучаемого ряда.
2-й столбец — средние значения интервалов по каждой группе.
3-й столбец показывает результаты «ручной» разноски величин ряда или иксов (каждая величина занесена в соответствующую ее значению группу в виде черточки).
4-й столбец — итог подсчета результатов разноски.
5-й столбец — произведения величин 2-го столбца на величины 4-го столбца по строчкам. Итоги 4-го и 5-го столбцов дают суммы, необходимые для вычисления среднего арифметического.
Таблица 1
Вычисление среднего арифметического и среднеквадратического
отклонения
Границы интервалов | Средние интервалов х | Результат разноски |
Итоги разноски |
f *х | х – "х | (х - " х )2 | f *(х - "х)2 |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
83-91 | 87 | I | 1 | 87 | -36 | 1296 | 1296 |
92-100 | 96 | 3 | 288 | -27 | 729 | 2187 | |
101-109 | 105 | 3 | 315 | -18 | 324 | 972 | |
110-118 | 114 | 10 | 1140 | -9 | 81 | 810 | |
119-127 | 123 | 16 | 1968 | 0 | 0 | 0 | |
128-136 | 132 | 9 | 1188 | 9 | 81 | 729 | |
137-145 | 141 | 5 | 705 | 18 | 324 | 1620 | |
146-154 | 150 | 2 | 300 | 27 | 729 | 1458 | |
155-163 | 159 | I | 1 | 159 | 36 | 1296 | 1296 |
n = 50 ; ∑f * х = 6150 ; ∑f *(х - " х )2 = 10368
6-й столбец показывает построчные разности между значениями х 2-го столбца и средним арифметическим "х.
7-й столбец — квадрат этих разностей.
8-й столбец показывает построчные произведения значений 4-го и 7-го столбцов. Суммирование величин этого столбца дает итог, необходимый для вычисления среднеквадратического отклонения.
Включение буквы f, означающей, насколько часто встречалась та или другая величина, ничего не изменяет в формулах среднего арифметического и среднеквадратического отклонения. Поэтому формулы
" х = ∑х/ n = ∑f *х/ n
Как и формулы вполне тождественны.
σ = √∑ (х - " х )2 / n = √∑f * (х - " х )2 / n
Остается показать, как вычисляются по формулам среднее арифметическое и среднеквадратическое отклонение. Обратимся к величинам, полученным в табл. 1:
" х = 6150/50 = 123
При составлении табл. 1 это число было заранее вычислено, без него нельзя было бы получить числовые значения 6, 7 и 8-го столбцов таблицы.
σ = √10368/50 = √207,3 = 14,4
При обработке изучаемого ряда оказалось возможным применение параметрического метода; визуально можно заметить, что распределение численностей приближается к нормальному.
Нормальное распределение обладает некоторыми весьма полезными для исследователя свойствами. Так, в границах "х ± σ находится примерно 68 % всего ряда или всей выборки. В границах "х ± 2σ находится примерно 95 %, а в границах "х ± 3σ - 99,7 % выборки. В практике исследований часто берут границы "х ± 2/3σ. В этих границах при нормальном распределении будут находиться 50 % выборки; распределение это симметрично, поэтому 25 % окажутся ниже, а 25 % выше границ "х ± 2/3σ. Все эти расчеты не требуют никакой дополнительной проверки при условии, что изучаемый ряд имеет нормальное распределение, а число элементов в нем велико, порядка нескольких сотен или тысяч.
Для рассматриваемого примера необходимо также вычислить коэффициент вариации по формуле:
V = σ/ "х ·100 %.
В примере, который был рассмотрен выше,
V = 14,4/123 ·100% = 11,7%.
Выполнив все эти вычисления, психолог может представить информацию об изучении двигательной скорости с помощью примененной методики в шестых классах. Согласно результатам изучения в шестых классах, получены:
· среднее арифметическое — 123;
· среднеквадратическое отклонение — 14,4;
· коэффициент вариации — 11,7 %.
Если значения изучаемого признака измерены в порядковой шкале, то в качестве меры центральной тенденции выступает медиана, а характеристикой диапазона варьирования выступает среднее квартальное отклонение.
Вот пример.
После проведения диагностических испытаний уровня умственного развития учеников шестого класса все полученные данные были упорядочены, т. е. расположены в последовательности от меньшей величины к большей. Испытания проходили 18 учащихся. Буквами обозначены учащиеся, числами — полученные ими баллы по тесту, столбцы под буквами R — ранги (табл. 2).
Процедура ранжирования состоит в следующем. Все числа ряда в их последовательности получают по своим порядковым местам присваиваемые им ранги. Если какие-нибудь числа повторяются, то всем повторяющимся числам присваивается один и тот же ранг — средний из общей суммы занятых этими числами мест. Так, числу «28» в изучаемом ряду присвоен ранг «2». Затем следуют трижды повторяющиеся числа «39». На них приходятся занятые ими ранговые места «3», «4», «5». Поэтому этим числам присваивается один и тот же средний ранг, в данном случае — «4». Поскольку места до 5 включительно заняты, то следующее число получает ранг «6» и т. д.
Таблица 2
Ранжирование результатов
Учащиеся | Баллы по тесту | Ранг (R) | Учащиеся | Баллы по тесту | Ранг (R) |
А | 25 | 1 | К | 68 | 10 |
Б | 28 | 2 | Л | 69 | 11,5 |
В | 39 | 4 | м | 69 | 11,5 |
Г | 39 | 4 | н | 70 | 14,5 |
д | 39 | 4 | О | 70 | 14,5 |
Е | 45 | 6 | п | 70 | 14,5 |
Ж | 50 | 7 | р | 70 | 14,5 |
3 | 52 | 8,5 | с | 74 | 17,5 |
И | 52 | 8,5 | т | 74 | 17,5 |
При обработке ряда, не имеющего признаков нормального распределения, иначе — непараметрического ряда, — для величины, которая выражала бы его центральную тенденцию, более всего пригодна медиана, т. е. величина, расположенная в середине ряда. Ее определяют по срединному рангу по формуле.
Медиана ряда определяется по ранговой медиане:
MeR = (n +1)/2
где n — число членов ряда.
Возьмем, к примеру, ряд в семь членов: 3-5-6-7-9-10-11.
Проранжировав этот ряд, имеем:
1-2-3-4-5-6-7.
Ранговая медиана
MeR = (7 + 1)/2 = 4 ,
дает медиану рассматриваемого ряда Me = 7.
Возьмем ряд в восемь членов: 3-5-6-7-9-10-11-12.
Проранжировав этот ряд, имеем:
1-2-3-4-5-6-7-8.
Ранговая медиана в этом ряду равна:
MeR = (8+1)/2 = 4,5
Этому рангу соответствует середина между двумя величинами, имеющими ранг 4 и ранг 5, т. е. между 7 и 9. Медиана этого ряда равна:
Me = (7 + 9)/2 =8
Следует обратить внимание на то, что величины 8 в составе ряда пет, но таково значение медианы этого ряда.
Вернемся к изучаемому ряду. Он состоит из 18 членов. Его ранговая медиана равна:
MeR = (18+1)/2= 9,5.
Она расположится между 9-й и 10-й величиной ряда. 9-я величина ряда - 52, 10-я величина ряда - 68. Медиана занимает срединное место между этими величинами, следовательно:
Me = (52 + 68)/2 = 60
По обе стороны от этой величины находится по 50% величин ряда. Характеристику распределения численностей в непараметрическом ряду можно получить из отношения его квартилей. Квартилью называется величина, отграничивающая 1/4 всех величин ряда. Квартиль первая - ее обозначение Q1- вычисляется по формуле:
Q1 = R1 + Rn/2(лев) / 2
Это полусумма первого и последнего рангов первой, левой от медианы половины ряда; квартиль третья, обозначаемая Q3, вычисляется, по формуле:
Q3 = Rn/2 + Rn/2(прав) / 2
т. е. как полусумма первого и последнего рангов второй, правой от медианы половины ряда. Берутся порядковые значения рангов по их последовательности в ряду. В обрабатываемом ряду
Q1 = (1+9)/2 = 5, Q3 = (10+18)/2 = 14
Рангу 5 в этом ряду соответствует величина 39, а рангу 14 - величина 70.
Для характеристики распределения в непараметрическом ряду вычисляется среднее квартальное отклонение, обозначаемое Q.
Формула для Q такова:
Q = (Q3 - Q1)/2
В обрабатываемом ряду Q3 = 70, a Q1 = 39, следовательно:
Q = (70 – 39)/2 =15,5.
Были рассмотрены статистическая обработка параметрического ряда ("х и σ) и статистическая обработка непараметрического ряда (Me и Q). Параметрический ряд относится к шкале интервалов, непараметрический — к шкале порядка. Но встречаются также ряды, относящиеся к шкале наименований. Наиболее краткая, но малоинформативная характеристика такого ряда может быть получена с помощью моды — величины в ряду, имеющей наибольшую численность из числа п — членов ряда. Следует заметить, что моду можно лишь условно считать выражением центральной тенденции в ряду, относящемуся к шкале наименований. Она выражает наиболее типичную величину ряда.
Рассмотрим пример, где речь идет об участниках некой конференции; в их числе 3 англичанина, 2 датчанина, 5 немцев, 1 русский и 2 француза. Мода в данном ряду приходится на участников конференции — немцев. Число членов ряда — 13, а мода Мо = 5.
9-09-2015, 16:15