Валидность и надежность теста. Надежность психологических тестов
Валидность и надежность теста. Надежность психологических тестов
В обычной жизни надежность человека или какого-либо предмета означает уверенность в том, что на него можно положиться. Как же проверяют, что на психологический тест можно положиться?
Первый способ проверки надежности психологического теста – анализ устойчивости результатов теста. Действительно, если результаты использования теста на одной и той же выборке существенно не меняются при нескольких тестированиях, то это может служить критерием его надежности.
Повторное тестирование называется ретест. Его проводят с интервалом от недели до года. Затем анализируют корреляции нескольких замеров. Если корреляции между результатами ретестов не ниже 0,76, то такой тест считается надежным.
Недостатки ретестовой проверки надежности психологического теста.
1. Некоторые психологические показатели неустойчивы и изменчивы. Например, измеряя настроение, самочувствие в разное время дня или в разные дни, можно получить разные результаты, и это не будет следствием ненадежности теста.
2. При неоднократном заполнении одного и того же теста испытуемые к нему «привыкают». Они могут помнить свои ответы и отвечать так же. Могут, наоборот, менять ответы в сторону социальной желательности. Таким образом, ретестовая надежность не будет в полной мере отражать надежность теста.
Второй способ проверки надежности психологического теста – анализ согласованности различных частей теста. Например, в тесте один показатель, который диагностируется 10-ю вопросами. Согласованность данного теста определяется высокой корреляцией ответов на каждый вопрос с общим результатом по шкале.
Часто для определения согласованности психологического теста его расщепляют на две части. Можно это сделать, отбирая вопросы через один. Можно разделить первую и вторую половину теста. Далее анализируют корреляции ответов двух расщепленных частей теста. Чем выше корреляция, тем выше согласованность теста и его надежность.
Итак, надежность психологического теста – это характеристика его формальной пригодности для диагностики психологических показателей. Например, если тест диагностики тревожности надежен, то это значит, что при его использовании на разных выборках, в разное время вы будете получать схожие результаты. Но будут ли эти результаты характеризовать именно тревожность испытуемых? Надежность психологического теста этого не гарантирует. За это отвечает другой показатель – валидность психологического теста.
Соотношение валидности и надежности. Валидность и надежность измерения
Проблема достоверности полученных эмпирических данных и выводов, истинности теории остро стоит в любой отрасли науки. Есть она и в социологии. Как отличить научную теорию от вымысла? Как построить программу исследования, чтобы его результаты можно было использовать в науке?
Самый эффективный инструмент — установить валидность и надежность своего измерительного инструмента и программы исследования в целом.
В социологии валидность понимают довольно широко — как достоверность, истинность, адекватность, правдоподобность, устойчивость данных измерения, но чаще всего — как обоснованность. К примеру, доказать валидность теории значит обосновать ее правдоподобность. Измерение (анкетный вопрос, серия вопросов, тест) считается валидным, если с его помощью было зафиксировано то понятие или свойство, которое запланировано к измерению.
Валидность. Мы нс так уж часто имеем возможность непосредственно измерить понятия, используемые в социологических теориях. Такие понятия, как власть, демократия и представительство, не так просто представить количественно, как понятия типа длины и веса. Нам приходится пользоваться показателями, лишь косвенно соответствующими понятиям, которые они представляют. А в таком случае всегда существует опасность, что выбранные показатели будут неадекватно отражать понятия, которые мы хотим с их помощью измерять. Для обозначения степени соответствия измерений понятиям, кото-
рые эти измерения должны отражать, используется термин валидность. Интересоваться валидностью измерения — то же самое, что интересоваться, действительно ли с помощью данного измерения мы измеряем то, что предполагали. Обеспечение валидности часто считается основной проблемой, связанной с измерением в социальных науках.
Чтобы быть валидным, измерение должно быть исчерпывающим и полным. Если, например, мы сравниваем качество коммунальных служб в разных городах, у нас может возникнуть искушение считать показателем качества системы образования количество преподавателей в школах. Это — неуместное измерение, поскольку количество работающих в системе школьного образования в значительной степени определяется количеством учащихся и размерами города и может иметь мало общего с качеством образования. Если за показатель качества системы образования принять отношение количества учащихся к количеству учителей, мы получим более уместное измерение, так что различия, вызванные размерами города, уменьшатся или вообще исчезнут. Тем не менее измерение все еще останется недостаточным. Образование — это не только преподаватели. Образование — это также школьные задания, фильмы, книги, учебные пособия и множество других факторов. Рассмотрение каждого из этих факторов в отрыве от остальных может создать неверное впечатление о качестве системы образования. Система школьного образования может иметь в высшей степени благоприятное соотношение учащихся и преподавателей, однако недостаточное количество средств обучения и учебных материалов. Было бы ошибкой утверждать, что эта система школьного образования не отличается от системы с таким же соотношением учащихся и преподавателей и прекрасными средствами обучения и учебными материалами. Если мы стремимся к валидности, мы должны попытаться выбрать такие измерения, которые были бы и уместными, и полными.
Надежность теста это. Надежность теста
Надежность теста - Относительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых; независимость методики от действия случайных факторов.
Показатели надежности методик зависят от многих причин. Основные из них:
- нестабильность самого диагностируемого свойства
- небрежно составленная инструкция
- задания по своему характеру слишком разнородны
- нечетко сформулированы указания по предъявлению методики испытуемым
- иные несовершенства психодиагностической методики
- меняющаяся ситуация обследования (разное время дня, разная освещенность помещения, наличие или отсутствие посторонних шумов и т.п.)
- различия в манере поведения психодиагноста
- колебания в функциональном состоянии испытуемого
- личностные изменения самих испытуемых (особенно характерно для школьных возрастов, когда даже за месяц у испытуемых может произойти значительный рывок в развитии)
- изменение отношения к психодиагностике со стороны испытуемых
- элементы субъективности в способах оценки и интерпретации результатов (человеческий фактор; особенно актуально для проективных методик)
Если все эти факторы иметь в виду и постараться в каждом из них устранить условия, снижающие точность измерений, то можно добиться приемлемого уровня надежности теста. Следует учесть, что в реальной жизни методика используется в разных условиях, поэтому для повышения надежности ее необходимо очень тщательно и подробно излагать условия проведения в руководстве.
Повторное применение надежной методики должно давать сходные оценки. Как пишет известный теоретик психодиагностики А. Анастази (1982), вряд ли можно с доверием относиться к тесту интеллекта, если по нему в начале недели ребенок имел показатель, равный 110, а к концу 80. Должны совпадать как сами результаты, так и порядковое место (ранг) испытуемого в группе. При повторении опыта возможны некоторые расхождения, но важно, чтобы они были незначительными в пределах одной группы.
Надежность лучше определяется на наиболее однородных выборках, т.е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т.п. Для каждой такой выборки приводятся свои коэффициенты надежности. Приводимый показатель надежности применим только к группам, подобным тем, на которых он определялся. Если методика применяется к выборке, отличающейся от той, на которой проверялась ее надежность, то эта процедура должна быть проведена заново.
Для вычисления показателей надежности обычно применяют коэффициенты корреляции. Надежность тем выше, чем больше полученный коэффициент корреляции приближается к единице.
К.М. Гуревич предлагает определять надежность по трем показателям:
- показатель, характеризующий измерительный инструмент (коэффициентом надежности)
- показатель, характеризующий стабильность измеряемого свойства (коэффициентом стабильности)
- показатель оценки влияния личности экспериментатора (коэффициентом константности)
Следует учитывать, что в погоне за надежностью методики можно потерять ее валидность. Под влиянием разных обстоятельств психические свойства человека могут довольно резко меняться. Психодиагностика практически не имеет дела с неизменяемыми на протяжении жизни качествами (т.е. врожденными). Для методик, диагностирующих психическое состояние, само понятие "надежность" практически неуместно.
Литература
Гуревич К.М. Психологическая диагностика. Учебное пособие. М., 1997.Валидность и надежность исследования. Надежность и валидность методики
Итак, введем определения базовых понятий, которые необходимы для построения логически связного контекста научного подхода для измерения эффективности методов профотбора. Это понятия «надежность» и «валидность».
Надежность теста — это устойчивость результатов теста к воздействию со стороны различных случайных факторов-помех, т.е. помехоустойчивость.
Существует великое множество этих неконтролируемых и варьирующих факторов, и они в каждой конкретной ситуации воздействуют в непредсказуемой комбинации, которая приводит к появлению ошибки измерения, или стохастической погрешности истинного значения тестового балла. Надежность измерения — хорошо известное и изученное свойство в рамках физической метрологии. Для простоты поясним «надежность» на примере физического измерения линейных размеров земельных участков. Если мы берем для измерения легкую и растяжимую резинку (вместо более твердой металлической рулетки), то она оказывается в большей степени подверженной воздействию ветра, изгибов поверхности земли, силе натяжения со стороны двух участников, которые держат ее с двух концов, и т.п., т.е. воздействию со стороны множества факторов, которые вносят погрешность в результат измерения. Примеры факторов-помех, которые воздействуют на испытуемого в момент выполнения им тестовых заданий: посторонние отвлекающие звуки речи и шумы, различия в освещенности, мелькание каких-то посторонних предметов в фоновом зрительном поле, вибрация, возможные сбои в электросети — все, что мешает концентрации внимания на задании. От испытуемого к испытуемому и от сеанса к сеансу различаются освещенность, время суток, время, отведенное организатором тестирования для вводной информации (устной части инструкции), интонации, с которыми произносится вводная информация, и множество других случайных факторов, которые также приводят к ошибке измерения, разбросу значений вокруг истинного показателя.