Cтандартизация, надёжность и валидность теста 

Основными требованиями к тесту являются стандартизация, надёжность и валидность.

Стандартизация теста подразумевает единообразие процедуры проведения и оценки выполнения тестовых заданий. Для того чтобы показатели, полученные разными людьми, были сравнимы, условия тестирования должны быть одинаковыми для всех. Такое требование – всего лишь конкретное применение принципа контроля условий любого научного наблюдения. В тестовой ситуации единственной независимой переменной часто оказывается сам обследуемый. Чтобы обеспечить единообразие условий тестирования, создатель теста даёт подробные указания по проведению каждого вновь разработанного теста. Формулирование таких указаний – важная часть стандартизации нового теста. Она включает точные указания, относительно используемого стимульного материала, временных ограничений, устных инструкций испытуемому, пробных образцов заданий, допустимых ответов на вопросы обследуемого и других тонкостей проведения теста. На выполнение некоторых тестов может влиять множество других, не столь очевидных факторов. Например, зачитывая вслух инструкцию или задание, нужно принимать во внимание тон голоса, скорость речи, интонацию, паузы и выражение лица. Не последнее место по значению занимает социокультурная адаптированность теста. Это означает соответствие тестовых заданий и оценок, которые испытуемый получает по этим заданиям, особенностям культуры, сложившимся в том или ином обществе, где данный тест используется, если он заимствован в другой стране. Если тест повторно используется в условиях, которые существенно отличаются от тех, где он был первоначально создан, то почти всегда требуется соотнесение этих условий друг с другом или адаптация теста к новым условиям.
Другой важный этап в стандартизации теста – установление норм. Норма теста – это средний уровень развития большой совокупности людей, похожих на данного испытуемого по ряду социально-демографических характеристик. Психологические тесты не имеют заранее определённых стандартов их успешного или неуспешного выполнения; критерии выполнения каждого теста устанавливаются опытным путём. В большинстве случаев тестовый показатель индивидуума выявляется на основе сравнения с оценками, полученными по данному тесту другими людьми. Норма теста обычно определяется в результате тестирования большой выборки испытуемых определённого возраста и пола и усреднения полученных оценок с их последующим разделением по возрасту, полу и ряду других показателей. Эта группа людей называется выборкой стандартизации и служит для установления норм. Всякая норма обычно со временем изменяется вместе с естественными изменениями, которые с годами происходят в психологии людей, поэтому есть правило, согласно которому нормы теста, особенно интеллектуального, должны пересматриваться, как минимум один раз в пять лет.
Психологический тест характеризуется не только как стандартизированное, но и как объективное измерение различных качеств и свойств. Степень объективности теста зависит от того, в какой мере процедура тестирования, вычисление первичных оценок по тесту и их трактовка независимы от субъективных суждений лица, проводящего тестирование. Теоретически у любого человека оценка по тесту должна быть одной и той же, независимо от того, кто проводит эксперимент, но на практике абсолютная объективность недостижима. Составители тестов стремятся создать приемлемый уровень объективности, что составляет одну из целей при конструировании тестов.
Надёжность – характеристика методики, отражающая точность психодиагностических измерений, а также устойчивость результатов теста к действию посторонних случайных факторов. Надёжность теста проявляется в согласованности оценок у испытуемых при их повторном тестировании тем же самым тестом или его эквивалентной формой. Прежде чем приступать к широкому использованию психологического теста, необходимо провести тщательную объективную проверку его надёжности. Результаты тестирования зависят от множества факторов: качества измерительного инструмента, правильности понимания инструкции испытуемым, поведения экспериментатора, психологического состояния испытуемого. Изменение любого из этих факторов в ходе проведения эксперимента обычно приводит к снижению степени надёжности измерений. В основе надёжности теста лежит представление об истинных оценках и ошибках измерения. Для выявления ошибки измерения используют метод ретестирования – повторное обследование одной и той же выборки испытуемых. Однако, несмотря на простоту и возможность определения устойчивости результатов теста в течение времени, недостаток метода состоит в том, что субъект помнит свои ответы, и в случае тестов способностей это может существенно влиять на повторные ответы. Если нужно исключить влияние запоминания на результаты ответов как систематический источник ошибки и учесть влияние временного интервала на ответы, то можно использовать две совокупности заданий, разработанных или отобранных по одной схеме – параллельные тесты. Однако на практике сложно создать параллельные формы одного и того же теста. Факторов, влияющих на надёжность тестирования, достаточно много и обеспечивать постоянство их всех практически невозможно, но они гораздо меньше влияют на достоверность получаемых результатов, главным же является надёжность самой методики.
Валидность теста свидетельствует о степени его пригодности для оценивания именно того психологического качества, для измерения которого он предназначается. Она предусматривает прямую проверку того, насколько хорошо тест выполняет свою функцию. Характеристика валидности методики включает в себя не только сведения о том, что данная методика на самом деле измеряет, но и информирует об условиях, о сфере её применения. Существует несколько разновидностей валидности, каждую из которых нужно рассматривать и оценивать отдельно, когда стоит вопрос о выяснении валидности психодиагностической методики. Валидность может быть внутренней (конструктной) и внешней (критериальной). Внутренняя валидность определяет насколько полно тестовые баллы отражают исследуемые психические свойства или умения и знания, обозначает соответствие содержащихся в методике заданий, суждений и тому подобное общей цели и замыслу методики в целом. Тестовая методика считается внутренне невалидной или недостаточно внутренне валидной тогда, все или часть включённых в неё вопросов и заданий измеряют не то, что требуется от данной методики. Внешняя валидность определяет полезность тестового измерения в качестве предсказателя поведения, насколько тестовые баллы связаны с некоторой другой деятельностью, речь идёт о связи между показателями методики и наиболее важными, ключевыми внешними признаками, относящимися к поведению испытуемого. Валидность по критерию (внешняя) может быть предсказательной и конкурентной, они связаны между собой, но могут рассматриваться независимо друг от друга. Предсказательная валидность отражает степень, с которой будущий уровень по критерию может быть предсказан предшествующей деятельностью по тесту. Конкурентная валидность отражает степень, с которой тест может быть использован для оценки у индивида актуального уровня по критерию. Предсказательная валидность включает отрезок времени, в течение которого может что-то случиться (люди обучаются, приобретают опыт, подвергаются лечению). Для многих тестов (решение по отбору, назначение лечения и другое) предсказательная валидность даёт возможность определить целесообразность использования теста или батареи тестов в каждом отдельном случае. Конкурентная валидность отражает только статус индивида в фиксируемое время. Валидность бывает также теоретическая и практическая (эмпирическая). Теоретическая валидность определяется по соответствию показателей исследуемого качества, полученных с помощью данной методики, показателям, полученным посредством других методик – таких, с показателями которых должна существовать теоретически обоснованная зависимость. Теоретическую валидность проверяют по корреляциям показателей одного и того же свойства, получаемых при помощи разных методик, опирающихся или исходящих из одной и той же теории. Эмпирическая валидность проверяется по соответствию диагностических показателей реальному поведению, наблюдаемым действиям и реакциям испытуемого. Если с помощью тестирования оцениваются черты характера испытуемого, то применяемая методика будет считаться практически или эмпирически валидной тогда, когда будет установлено, что данный человек ведёт себя в жизни именно так, как предсказывает методика, то есть в соответствии с имеющейся у него чертой характера.
По критерию эмпирической валидности тесты проверяют путём сравнения их показателей с реальным жизненным поведением или результатами практической деятельности людей. Существуют основные признаки, по которым можно судить о том, является или нет данный метод тестирования валидным. К ним можно отнести поведенческие показатели (реакции, действия и поступки испытуемого в разнообразных жизненных ситуациях), достижения исследуемого в различных сферах деятельности (учебной, трудовой, творческой), данные, свидетельствующие о выполнении контрольных проб и заданий, а также получаемые с помощью других методик, имеющих с проверяемой методикой достоверно установленную связь. При создании методики сразу оценить её валидность трудно, обычно валидность теста проверяется и уточняется в процессе его достаточно длительного использования.