Надежность теста валидность теста. Надежность теста

Содержание

Надежность теста валидность теста. Надежность теста
Типы валидности тестов. ВВЕДЕНИЕ
Надежность валидность стандартизация тестов. Стандартизация, надежность и валидность теста
Валидность и надежность теста. Валидность психологических тестов
Методы оценки надежности теста;. Методы оценки надежности теста

Надежность теста валидность теста. Надежность теста

Надежностью теста называется степень совпадения результатов с повторным тестированием одних и тех же людей в одинаковых условиях. Надежность оценивается по величине коэффициента корреляции. В качестве надежности теста используют коэффициент корреляции между результатами первого и повторного тестирования.

При анализе надежности теста выделяют две ее разновидности:

• воспроизводимость;
• объективность.

Для проверки надежности тестирования проводят повторный тест, который называется —ретест (табл. 7).

Таблица 7

Сравнение результатов обследования спортсменов теста и рстсста

Показатели	Тест	Ретест	изм. в %
Масса тела, кг	63,3±0,8	63,1 ±0,8	-0,3
ЧСС (покой)	72,3±2,3	74,4±2,2	2,9
САД, мм рт. ст.	118,1±1,1	120,4±2,8	1,7
ДАД, мм рт. ст.	72,9±1,0	72,4± 1,3	-0,7
А Дер., мм рт. ст.	87,8±0,9	88,3±1,3	0,6
ДП, отн. ед.	85,4±2,9	90,0±3,9	5,4
ЖЕЛ, л	4787,5±82,2	4869,4±105,9	1,7
ЖИ, отн. ед.	75,8±1,2	77,2±1,6	1,8

Динамометрия, пр.	48,4±1,6	47,8±1,2	-1,2
Динамометрия, лев.	44,0±1,2	41,9±1,2	-4,8
Становая тяга	104,2±1,8	105,9±2,0	1,6
Вертикальный прыжок, см	49,1±1,3	48,1±1,1	-2,0
ЧСС (нагрузка)	161,6±1,9	164,7±1,9	1,9
PWC 170, кг/мин	1014,7±28,4	975,5±23,0	-3,9
PWC 170/кг массы тела	16,0±0,3	15,5±0,3	-3,1

Методом повторного испытания проверяется воспроизводимость результатов тестирования (табл. 7). Объективностью (согласованностью) теста называют степень независимости получаемых результатов от личных качеств человека, проводящего тестирование. Чем процедура тестирования проще, тем большая объективность тестирования может быть получена. И наоборот, объективность тестирования снижается при повышении гребований к квалификации человека, проводящего тестирование.

Вариацию результатов при повторных измерениях называют внутрииндивидуальной, внутригрупповой или внутриклассовой. Основными причинами такой вариации результатов тестирования, которая искажает оценку истинного состояния подготовленности спортсмена, то есть вносит определенную ошибку или погрешность в эту оценку, являются следующие обстоятельства:

1) случайные изменения состояния испытуемых в процессе тестирования (психологический стресс, привыкание, утомление, изменение мотивации к выполнению теста, изменение концентрации внимания, нестабильность исходной позы и других условий процедуры измерений при тестировании);
2) неконтролируемые изменения внешних условий (температура, влажность, ветер, солнечная радиация, присутствие посторонних лиц и т.п.);
3) нестабильность метрологических характеристик технических средств измерения (ТСИ), используемых при тестировании. Нестабильность может быть вызвана несколькими причинами, обусловленными несовершенством применяемых ТСИ: погрешностью результатов измерения из-за изменений напряжения сети, нестабильностью характеристик электронных измерительных приборов и датчиков при изменениях температуры, влажности, наличием электромагнитных помех и т.п. Следует отметить, что по этой причине погрешности измерений могут составлять значительные величины;
4) изменения состояния экспериментатора (оператора, тренера, педагога, судьи), осуществляющего или оценивающего результаты тестирования, и замена одного экспериментатора другим;
5) несовершенство теста для оценки данного качества или конкретного показателя подготовленности.

Типы валидности тестов. ВВЕДЕНИЕ

Достоверность психодиагностического измерения определяется валидностью (соответствием тестовых данных измеряемому свойству), надежностью и прогностичностью применяемых психологических методик.

Валидность теста -- понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает. Характеристика психодиагностической методики как валидной свидетельствует о ее соответствии и пригодности для оценивания именно того психологического качества, для которого она предназначается.

Когда говорят о степени валидности, рассматривается то, насколько результаты исследования соответствуют поставленным задачам (однако при этом валидность не измеряется в каких-либо условных единицах).

Характеристика валидности методики включает в себя не только сведения о том, что данная методика на самом деле измеряет, но также информацию об условиях, о сфере ее применения.

Валидность считается фундаментальным понятием экспериментальной психологии и психодиагностики. Выражение валидности в общих терминах наименования принципиально невозможно, так как ни один тест нельзя охарактеризовать высоким или низким уровнем валидности абстрактно, не учитывая его конкретной целенаправленности. На деле между наименованием теста и его практическим назначением нередко существует несоответствие.

Валидность теста должна определяться только относительно его специального использования. Шнейдер Л.Б. Основы экспериментальной психологии. М.: Изда-тельство «МПСИ», 2011. - 376 с.

Надежность валидность стандартизация тестов. Стандартизация, надежность и валидность теста

   Рассмотрим понятия стандартизации, надежности и валидности теста с позиций классической эмпирико-статистической теории. В соответствии с этой теорией конструирование тестов для изменения психологических свойств и состояний основано на шкале интервалов. Измеряемое психическое свойство считается линейным и одномерным. Предполагается также, что распределение совокупности людей, обладающих данным свойством, описывается кривой нормального распределения.
   В основе психологического тестирования лежит классическая теория погрешности измерений. Считается, что тест – такой же измерительный прибор, как любой физический прибор, и результаты, которые он показывает, зависят от величины свойства у испытуемого, а также от самой процедуры измерения. Любое свойство психики имеет «истинный» показатель, а показания по тесту отклоняются от истинного на величину случайной погрешности. На показания теста влияет и «систематическая» погрешность, но она сводится к прибавлению (вычитанию) константы к «истинной» величине параметра, что для интервальной шкалы значения не имеет.
    Надежность теста. Если тест проводить много раз, то среднее значение будет характеристикой «истинной» величины параметра. Под надежностью теста принято понимать устойчивость результатов к воздействию случайных факторов, внешних и внутренних. Наиболее часто проводится оценка ретестовой надежности. Чем теснее коррелируют результаты начального и повторного (обычно отсроченного на несколько месяцев) проведения теста, тем он надежнее.
   Предполагается, что существует неограниченное количество заданий, которые могут «работать» на измеряемое свойство. Тест есть лишь выборка заданий из их генеральной совокупности. В идеале можно создать сколько угодно эквивалентных форм теста, поэтому определение надежности теста можно провести путем корреляции параллельных форм или эквивалентных равных частей, полученных путем расщепления тестового задания на две части. Поскольку в реальном тесте число заданий ограничено (не более 100), то оценка надежности теста всегда приблизительна. Тест считается надежным, если коэффициент корреляции результатов составляет не менее 0,75.
    Валидность теста. Проблеме валидности в классической теории теста уделяется много внимания, однако теоретически она никак не решается. Валидность означает пригодность теста измерять то свойство, для измерения которого он предназначен. Следовательно, чем больше на результат выполнения теста или отдельного задания влияет измеряемое свойство и чем меньше другие переменные (в том числе внешние), тем тест валиднее.
   Тест валиден (и надежен), если на его результаты влияет лишь измеряемое свойство. Тест невалиден (и ненадежен), если результаты тестирования определяются влиянием нерелевантных переменных.
   Существуют следующие виды валидности теста.
    Очевидная валидность. Тест считается валидным, если у испытуемого складывается впечатление, что он измеряет то, что должен измерять.
    Конкретная валидность (конвергентная – дивергентная валидность). Тест должен хорошо коррелировать с тестами, измеряющими конкретное свойство либо близкое ему по содержанию, и иметь низкие корреляции с тестами, измеряющими заведомо иные свойства.
    Прогностическая валидность. Тест должен коррелировать с отдаленными по времени внешними критериями.
    Содержательная валидность. Тест должен охватывать всю область изучаемого поведения.
    Конструктная валидность. Предполагает полное описание измеряемой переменной, выдвижение системы гипотез о связях ее с другими переменными, эмпирическое подтверждение (неопровержение) этих гипотез.
   С теоретической точки зрения единственным способом установления «внутренней» валидности теста и отдельных заданий является метод факторного анализа (и аналогичные), который позволяет: а) выявлять латентные (скрытые) свойства и вычислять значение «факторных нагрузок» – коэффициенты детерминации свойств тех или иных поведенческих признаков; б) определять меру влияния каждого латентного свойства на результаты тестирования.
    Стандартизация теста заключается в приведении процедуры оценок к общепринятым нормативам. Стандартизация предполагает преобразование нормальной или искусственно нормализованной шкалы первичных оценок в шкальные оценки (подробнее об этом см. 5.2). Тестовые нормы, полученные в ходе стандартизации, представляют собой систему шкал с характеристиками распределения тестового балла для различных выборок. Они не являются «внутренними» свойствами теста, а лишь облегчают его практическое применение.

Валидность и надежность теста. Валидность психологических тестов

Валидность психологических тестов отражает соответствие их результатов сущности измеряемых психологических феноменов. Например, насколько результат теста агрессивности отражает реальный уровень агрессивности респондента.

Можно выделить два основных способа определения валидности психологических тестов.

Первый способ выявления валидности психологического теста предполагает соотнесение результатов теста с аналогичными показателями других тестов. Например, для проверки валидности теста на самооценку можно сделать следующее:

провести тестирование испытуемых по новому тесту;
выявить самооценку испытуемых по другому тесту (предполагается, что он валиден);
рассчитать корреляцию показателей самооценки по двум психодиагностическим методикам;
статистически значимая корреляция даст основания говорить о валидности нового теста.

Такой способ позволяет выявить так называемую конструктную валидность. Она отражает соответствие выявляемого психологического показателя психологическому конструкту.

Второй способ выявления валидности психологического теста предполагает соотнесение результатов теста с внешними критериями. Такая валидность называется критериальная валидность психологического теста.

Например, показателем критериальной валидности теста склонности к отклоняющемуся поведению может быть реальное число правонарушений подростка. Применительно к тесту мотивации достижений показателем критериальной валидности может быть успешность выполнения той или иной деятельности.

Методы оценки надежности теста;. Методы оценки надежности теста

До включения в тест задача должна быть оценена с точки зрения объективности, надёжности, валидности, трудности и дискриминативности.

Объективной задача может быть признана тогда, когда она несколькими (не менее трёх) независимыми экспертами-психологами оценивается как соответствующая признаку, который подлежит измерению.

Надёжной задача является, если при её повторном предъявлении она вызывает у испытуемого эквивалентную первому предъявлению реакцию.

Валидной задача считается тогда, когда в соответствии с критерием она чаще всего правильно решается теми испытуемыми, у которых измеряемый признак более выражен, чем у других испытуемых. (Например, в интеллектуальном тесте валидными будут те задачи, которые правильно решают испытуемые с более высоким интеллектом, чем с более низким).

Трудность задачи рассчитывается из соотношения процента правильных ответов на данную задачу с учётом объёма репрезентативной выборки испытуемых. Оптимальными для теста являются задачи, индекс трудности которых равен 50 %.

Коэффициент дискриминативности, или согласованности, отдельной задачи с тестом позволяет оценить, насколько точно задача дифференцирует испытуемых по измеряемому признаку. Он равен коэффициенту корреляции между средним результатом анализируемой задачи (по принципу: правильный - неправильный ответ) и средним первичным результатом по всем задачам теста.

Психологический диагноз предполагает использование и анализ результатов исследования, полученных с помощью различных методик. Причём все данные должны быть представлены в единой шкале, то есть все первичные результаты тестовых исследований необходимо преобразовать таким образом, чтобы они оказались сопоставимыми - стандартизация шкал теста.

Под надёжностью теста понимается степень точности, с которой тест измеряет определённое свойство или способ поведения личности. Надёжность теста – это характеристика точности его как измерительного инструмента, его устойчивости к действию помех (как внешних, так и внутренних). Эмпирическое определение надёжности теста является обязательным условием его допуска для использования в практической деятельности психолога.

В психометрике обоснование получили три метода оценки надёжности тестов:

1) метод повторного тестирования (метод тест-ретест);

2) метод тестирования параллельной, или эквивалентной, формой теста;

3) метод деления, или расщепления теста на части. Оценка надёжности по методу повторного тестирования требует, чтобы тест дважды предъявлялся одной и той же выборке испытуемых через какое-то время. Длительность временного промежутка определяется содержанием и характером задач теста.

Второй метод оценки надёжности теста требует наличия параллельной, то есть эквивалентной, формы теста, например формы "А" и "Б". Репрезентативную выборку испытуемых, на которой проверяется надёжность теста, случайным образом делят на две примерно равночисленные группы. Затем первой группе предъявляются задачи формы "А", а второй группе – задачи формы "Б". Через некоторое время (не более одной недели) задачи формы "Б" решает первая группа, а формы "А" - вторая. После этого для всей репрезентативной выборки испытуемых отдельно вычисляются первичные результаты для форм "А" и "Б", которые затем подвергаются корреляции.

Общим недостатком первых двух методов оценки надёжности теста является то, что они зачастую дают заниженные или завышенные коэффициенты надёжности. Дело в том, что дисперсия результатов, на основе которой рассчитывается коэффициент корреляции, неоднородна по своему составу. Наряду с дисперсией действительных индивидуальных различий в неё входят частные дисперсии, обусловленные влиянием как внутренних, психологических, причин (колебания внимания, усталость и др.), так и внешних (уличный шум, поведение и высказывания исследователя и т. п.). При этом сила и сочетание этих причин в первом и во втором тестировании могут быть различными, и оценить их влияние или полностью их нейтрализовать оказывается невозможным.

Поэтому, особенно при проверке надёжности тестов мощности (например, интеллектуальных тестов) и достижений, предпочтение следует отдавать третьему методу, поскольку он предполагает лишь однократное тестирование. Третий метод оценки надёжности включает два различных приёма расчёта: разделение тестовых задач на две части, например по принципу "чётные и нечётные", и расчёт коэффициента консистентности задач теста.