Надежность и валидность психологических тестов

Валидность – это один из базовых критериев в психодиагностике тестов, методик, определяющий их качество, близкое к понятию достоверности. Применяется, когда нужно узнать насколько хорошо методика измеряет именно то, на что она ориентирована, соответственно то, насколько лучше отображается исследуемое качество, тем большая валидность данной методики.

Вопрос о валидности возникает сперва в процессе разработки материала, потом после применения теста или методики, если необходимо узнать, соответствует ли степень выраженности определяемой характеристики личности и методом измерения этого свойства.

Понятие валидности выражается корреляцией результатов, которые получились в результате применения теста или методики с другими характеристиками, которые также исследуются, и ее можно также аргументировать комплексно, с помощью разных приемов и критериев. Используются разные виды валидности: концептуальная, конструктивная, критериальная, содержательная валидности, со свойственными методами установления их степени достоверности. Иногда критерий достоверности является обязательным требованием к проверке психодиагностических методов, если они вызывают сомнения.

Чтобы психологическое исследование имело реальную ценность, оно должно быть не только валидным, а еще и надежным одновременно. Надежность позволяет экспериментатору быть уверенным в том, что исследуемое значение очень близко к истинному показателю. А валидный критерий важен тем, что он указывает, что изучается именно то, что экспериментатор предполагает. Важно обратить внимание на тот факт, что данный критерий может предположить надежность, но надежность предположить валидность не может. Надежные значения могут быть не валидными, но валидные обязаны быть надежными, в этом вся суть успешного исследования, тестирования.

Надежность психологических тестов

В обычной жизни надежность человека или какого-либо предмета означает уверенность в том, что на него можно положиться. Как же проверяют, что на психологический тест можно положиться?

Первый способ проверки надежности психологического теста – анализ устойчивости результатов теста. Действительно, если результаты использования теста на одной и той же выборке существенно не меняются при нескольких тестированиях, то это может служить критерием его надежности.

Повторное тестирование называется ретест. Его проводят с интервалом от недели до года. Затем анализируют корреляции нескольких замеров. Если корреляции между результатами ретестов не ниже 0,76, то такой тест считается надежным.

Недостатки ретестовой проверки надежности психологического теста.

1. Некоторые психологические показатели неустойчивы и изменчивы. Например, измеряя настроение, самочувствие в разное время дня или в разные дни, можно получить разные результаты, и это не будет следствием ненадежности теста.

2. При неоднократном заполнении одного и того же теста испытуемые к нему «привыкают». Они могут помнить свои ответы и отвечать так же. Могут, наоборот, менять ответы в сторону социальной желательности. Таким образом, ретестовая надежность не будет в полной мере отражать надежность теста.

Второй способ проверки надежности психологического теста – анализ согласованности различных частей теста. Например, в тесте один показатель, который диагностируется 10-ю вопросами. Согласованность данного теста определяется высокой корреляцией ответов на каждый вопрос с общим результатом по шкале.

Часто для определения согласованности психологического теста его расщепляют на две части. Можно это сделать, отбирая вопросы через один. Можно разделить первую и вторую половину теста. Далее анализируют корреляции ответов двух расщепленных частей теста. Чем выше корреляция, тем выше согласованность теста и его надежность.

Итак, надежность психологического теста – это характеристика его формальной пригодности для диагностики психологических показателей. Например, если тест диагностики тревожности надежен, то это значит, что при его использовании на разных выборках, в разное время вы будете получать схожие результаты. Но будут ли эти результаты характеризовать именно тревожность испытуемых? Надежность психологического теста этого не гарантирует. За это отвечает другой показатель – валидность психологического теста.

Психометрические свойства методик психодиагностики

Психометрической основой любой методики являются шкалы. Понятие «шкала» трактуется в широком и узком значении: в первом случае шкала – это конкретная методика, во втором случае – это измерительная шкала, фиксирующая исследуемые признаки. Каждому элементу методики соответствует определенный балл или индекс, который формирует выраженность того или иного психического явления.

Измерительные шкалы разделяют на:

Метрические: интервальные, шкалы отношений.
Неметрические: номинативные, порядковые.

Название шкалы	Пояснение, примеры
Номинативная (шкала наименований)	На основе общего свойства или символа относит наблюдаемое явление к соответствующему классу. Шкала наименований самая распространенная в исследовательских психодиагностических методиках. Эта шкала используется, например, в тест-опросниках. Отрицание или утверждение испытуемого сравнивается с ответами в ключе. Также номинативная шкала может предполагать выбор одного или нескольких признаков из предложенных.
Порядковая	Разделяет сумму признаков на элементы, исходя из принципа «больше – меньше». Таким образом, она расставляет результаты в порядке возрастания или убывания. Порядковая шкала используется в тесте цветового выбора. Испытуемому предлагается выбрать один из квадратов на белом фоне, после чего выбранная фигура откладывается в сторону, и процедура повторяется. Результат: расставленные по степени привлекательности для испытуемого цвета. Каждой фигуре присваивается свой порядковый номер.
Интервальная	Элементы упорядочены не только по принципу выраженности измеряемого признака, но и на основе распределения признаков по размеру, что выражается интервалами между числами, приписываемыми степени выраженности измеряемого признака. Интервальные шкалы часто используются при стандартизации первичных тестовых показателей.
Отношений	Упорядочивает элементы по числовому значению, соблюдая между ними пропорциональность. Объекты разделены согласно измеряемому свойству. Числа, которые приравниваются к классам объектов, пропорциональны степени выраженности исследуемых свойств. Используется, например, при определении порогов чувствительности анализаторов. Часто применяется в психофизике.

После определения используемой шкалы для формирования теста, нужно определить коэффициент психометрических свойств методики.

К ним относятся:

Репрезентативность.
Стандартность.
Надежность.
Валидность.

Репрезентативность – это свойство, которое распространяется на выборку испытуемых. Оно может характеризовать как популяцию, так и генеральную совокупность. Репрезентативность имеет два параметра: качественный и количественный. Качественный параметр характеризует выбор испытуемых и способы построения выборки.

Количественный параметр – это объем выборки, выраженный в числах.

В психологических исследованиях это свойство определяет, насколько возможно обобщение результатов. Например, изучаются отношения мужчин и женщин. Если взять испытуемых разного возраста (школьников, студентов, взрослых, пенсионеров), то репрезентативность такой выборки будет низкой.

Однако, если испытуемые будут примерно одного возраста и сферы деятельности (только школьники, студенты, взрослые, пенсионеры обоих полов), то репрезентативность будет высокой. В психодиагностике репрезентативность используется для того, чтобы обозначить возможность применения методики на всю генеральную совокупность.

Стандартность – это упрощение методики, приведение частей ПДМ и процедуры применения к единым нормам. ПДМ должны быть универсальны и применимы разными специалистами в различных ситуациях. При отклонении структуры ПДМ от стандартов, её результаты будет невозможно сравнить с результатами других исследований. Нестандартизованные методики используются в основном для научных исследований.

С их помощью изучаются новые психические явления. Но такой методикой нельзя пользоваться в психодиагностических целях. Ещё один важный параметр ПДМ – надежность. Она характеризует точность, устойчивость и стабильность результатов, полученных с помощью конкретной методики.

Высокая надежность методики исключает действие посторонних факторов и существенно приближает эксперимент к «чистому». Критерий надежности и валидности – это разные понятия. Причем надежность трактуется шире, чем валидность: надежность > валидность.

Например, в выходной день человек получает возможность провести время либо на рыбалке, либо на охоте. Если он решает идти на охоту, но берёт с собой удочку, то его выбор не будет валиден. Однако, если человек пошел на охоту с ружьем, и оно дало осечку, значит, выбранный метод ненадежен.

Валидность психологических тестов

Валидность психологических тестов отражает соответствие их результатов сущности измеряемых психологических феноменов. Например, насколько результат теста агрессивности отражает реальный уровень агрессивности респондента.

Можно выделить два основных способа определения валидности психологических тестов.

Первый способ выявления валидности психологического теста предполагает соотнесение результатов теста с аналогичными показателями других тестов. Например, для проверки валидности теста на самооценку можно сделать следующее:

провести тестирование испытуемых по новому тесту;
выявить самооценку испытуемых по другому тесту (предполагается, что он валиден);
рассчитать корреляцию показателей самооценки по двум психодиагностическим методикам;
статистически значимая корреляция даст основания говорить о валидности нового теста.

Такой способ позволяет выявить так называемую конструктную валидность. Она отражает соответствие выявляемого психологического показателя психологическому конструкту.

Второй способ выявления валидности психологического теста предполагает соотнесение результатов теста с внешними критериями. Такая валидность называется критериальная валидность психологического теста.

Например, показателем критериальной валидности теста склонности к отклоняющемуся поведению может быть реальное число правонарушений подростка. Применительно к тесту мотивации достижений показателем критериальной валидности может быть успешность выполнения той или иной деятельности.

Что такое валидность методики

Методика, в отличие от метода – это набор определенных действий специалиста, направленных на соответствующий результат. Метод исследования может включать в себя несколько методик. Например, метод анкетирования по классификации Б. Г. Ананьева может осуществляться с помощью разных тест-опросников.

Валидность в психологии — это соответствие целостности психодиагностической методики и отдельных её частей исследуемой психической характеристике.

ПДМ может включать несколько шкал. Например, тест-опросник, определяющий уровень невротизации-психопатизации, состоит из следующих шкал: психопатизация, невротизация и шкала «лжи». Третья измерительная шкала используется для проверки искренности испытуемого. Самая распространенная причина лжи – мотивация одобрения. Этот фактор сильно искажает статистические и индивидуальные данные.

Валидная ПДМ – это методика, диагностирующая только заданный экспериментатором узкий спектр характеристик. Она пользуется большим доверием специалистов и применяется в научных исследованиях. Чем выше коэффициент валидности, тем достовернее полученные в ходе эксперимента данные.

Соотношение надежности и валидности психологических тестов

Надежность теста отражает его качество как метода диагностики, с точки зрения формальных показателей. Без учета содержательного анализа результатов.

Валидность оценивает именно содержательные результаты теста. Насколько они соответствуют реальным психологическим феноменам.

Надежный тест может не быть валидным. Например, тест инициативности может показывать высокую ретестовую надежность и согласованность частей. Однако, с содержательной точки зрения, результаты теста отражают не столько инициативность, сколько силу воли. То есть, надежность данного теста высокая, а валидность низкая.

В практике психологического тестирования надежность тестов с помощью ретеста. Валидность психологических тестов, как правило, проверяется с помощью анализа взаимосвязей с показателями других тестов, измеряющих аналогичные или схожие психологические показатели.

Угрожающие факторы

Валидность в психологии – это свойство качественной методики, но могут возникнуть факторы, искажающие теоретически правильно построенную ПДМ. Побочные факторы сильнее проявляются в работе с плохо организованными стимулами или новыми, неясными ранее для испытуемого задачами.

Трудность составляет изучение неуравновешенных и неуверенных в себе индивидов. Главными угрозами высокой валидности являются особые характеристики тестируемого и ситуационные явления.

Достоверность результатов снижают:

ошибки испытуемого;
ошибки специалиста;
ошибки, вызванные условиями или неправильного проведения диагностики.

Если диагностика не предполагает обязательного нахождения специалиста в помещении, то его присутствие может исказить результаты исследования. Комментарии и интерпретация тестовых задания тоже снижают достоверность полученных данных.

Испытуемый, заинтересованный в намеренных погрешностях тестирования или представлении себя в выгодном свете перед руководством, искажает результаты диагностики. Не меньшую опасность представляет психофизиологическое состояние тестируемого. Например, индивид сильно голоден, утомлен или страдает от мигрени.

Посторонний шум, голос, возможность обсуждать тестовые задания с другими испытуемыми, снижают точность результатов. Это относится к ошибкам условий и процедуры диагностики.