МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ АЛТАЙСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ Алтайский государственный университет Институт гуманитарных наук Кафедра общей и прикладной психологии Я. К. Смирнова ПРАКТИКУМ ПО ПСИХОДИАГНОСТИКЕ Учебное пособие Барнаул 2022 Об издании – 1, 2 сведения об издании УДК 159.9: 06.6 (075.8) ББК 88.566 я 73 С 506 Автор: Смирнова Яна Константиновна Рецензент: д-р психол. наук, проф. И.А. Ральникова С 506 Смирнова, Я.К. Практикум по психодиагностике : учебное пособие / Я.К. Смирнова ; Алтайский государственный университет. – Барнаул : АлтГУ, 2022. – 1 DVD-R (5,2 Мб). – Систем. требования: Intel Pentium 1,6 GHz и более ; 512 Мб (RAM) ; Microsoft Windows 7 и выше ; Adobe Reader. – Загл. с титул. экрана. – Текст : электронный. Учебное электронное издание Издание 2-е переработанное и дополненное В основу учебного пособия положен материал лекционного курса, чита- емого автором на факультете психологии и педагогики Алтайского государ- ственного университета. Учебное пособие посвящено важным вопросам теории измерения и статистическим основам психометрической теории. Цель учебного пособия обеспечить студентов методическими материалами в квалифицирован- ной подготовке в рамках курсов «психодиагностика» и «практикум по психоди- агностике» по методике и технике психометрического конструирования психо- диагностических методик, проведения психодиагностического обследования и психодиагностического исследования в различных областях психологии; осво- ению знаний, умений и навыков профессионального пользователя психодиа- гностического инструментария. © Я. К. Смирнова, 2022 © Алтайский государственный университет, 2022 производственно-технические сведения Публикуется в авторской редакции Верстка: Котова О.В. Дата подписания к использованию: 23.09.2022 Объем издания: 5,2 Мб Комплектация издания: 1 DVD-R Тираж 35 дисков ФГБОУ ВО «Алтайский государственный университет» 656049, Барнаул, ул. Ленина, 61 Оглавление ГЛАВА 1 ПСИХОМЕТРИЧЕСКИЙ ПРОЦЕСС РАЗРАБОТКИ ТЕСТОВ 1.1 Тест как стандартизованный метод психодиагностики 1.2 Процедура стандартизации психологических тестов как объективное измерение 1.3 Классическая теория тестов ГЛАВА 2 ПСИХОМЕТРИЧЕСКАЯ НАДЁЖНОСТЬ ТЕСТА 2.1. Содержательная характеристика надёжности теста 2.2. Виды надёжности 2.3 Формализованное вычисление надежности и точности. ГЛАВА 3 ВАЛИДНОСТЬ ТЕСТА 3.1 Содержательная характеристика валидности теста 3.2 Виды валидности 3.3. Эмпирическая проверка валидности ГЛАВА 4 ОСНОВНЫЕ ПОЛОЖЕНИЯ IRT 4.1. Основные допущения IRT 4.2. Математические модели IRT 4.3 Дискриминативность теста. ГЛАВА 5 РЕПРЕЗЕНТАТИВНОСТЬ ТЕСТОВЫХ НОРМ 5.1. Нормативно-ориентированные и критериально-ориентированные тестовые нормы 5.2 Нормативно-ориентированный подход к стандартизации тестовых баллов. 5.3 Статистическая природа тестовых шкал ЗАДАНИЕ ПО РАЗРАБОТКЕ ПАСПОРТА ТЕСТА. ЗАДАНИЕ ПО РАЗРАБОТКЕ СТАНДАРТИЗИРОВАННОГО САМООТЧЁТА. БИБЛИОГРАФТЧЕСКИЙ СПИСОК ГЛОССАРИЙ ГЛАВА 1 ПСИХОМЕТРИЧЕСКИЙ ПРОЦЕСС РАЗРАБОТКИ ТЕСТОВ 1.1 Тест как стандартизованный метод психодиагностики Практическая психодиагностика предполагает свод правил применения психодиагностических инструментов, основанных на знании свойств измеряе- мых переменных и измеряющих инструментов, на знании этических и профес- сиональных норм психодиагностической работы. Психодиагностика как теоретическая дисциплина рассматривает зако- номерности вынесения валидных и надежных диагностических суждений (диа- гнозов), с помощью которых осуществляется переход от признаков или индика- торов определенного состояния, процесса к констатации этих психологических «переменных». Основной предмет психодиагностики связан с измерением психологиче- ских объектов относительно диагностического критерия (нормативно- критериальными и ипсотивными диагностическими показателями). Предмет психодиагностики (как научной дисциплины общей психодиа- гностики) – составляют универсальные принципы (феномен, природа) природы и строения диагностируемых психологических процессов, состояний и свойств, а так же фундаментальные законы и закономерности построения инструмента измерений. Таким образом, предмет на современном этапе психодиагностики – за- кономерности вынесения валидных и надёжных диагностических суждений в правила, с помощью которых осуществляется переход от признаков определён- ного психологического процесса, состояния, свойства к констатации и наличии их выраженности у индивида. Существует несколько подходов, раскрывающих предмет психодиагно- стики. 1. Инструментальный подход. Психодиагностика понимается как про- цесс выявления и измерения индивидуально-психологических особенностей человека с помощью специальных методов: наблюдения, тестирования, беседы и т.д. Поэтому ключевые задачи психодиагностики сводятся к следующим: 1) Выбор и непосредственное применения диагностических средств для выявления индивидуального своеобразия конкретного человека или установле- ния различий психологической организации разных групп людей. 2) Расширение сфер практического использования имеющихся психодиа- гностических средств. 2. Конструирующий подход. Психодиагностика признается самостоя- тельной научной дисциплиной, главное назначение которой разработка методов выявления и изучения индивидуальных психологических и психофизиологиче- ских особенностей человека. С позиций конструирующего подхода, наиболее важные задачи психодиагностики следующие: 1) Конструирование новых психодиагностических средств и модифика- ция уже имеющихся. 2) Разрабока методов прогнозирования психического развития и поведе- ния в зависимости от разных природных и специальных факторов и учловий существования. 3) Создание методических приемов выявления и измерении интегральных психических образований – таких как психическое здоровье, психическое раз- витие, индивидуальность и т.д. 3. Гностический подход. Его суть – признание за психодиагностикой способности в распознании психической реальности. Его особенность заключа- ется в том, что акцент делается на раскрытии индивидуального своеобразия и неповторимости внутреннего мира каждого человека. В рамках данного подхо- да решаются следующие задачи: 1) Определение общих закономерностей становления и развития психи- ческих образований. 2) Установление связи между единичными проявлениями психического феномена и знанием его сущности. 3) Распознание индивидуальных особенностей в общих проявлениях пси- хики человека. 4) Соотнесение индивидуальной картины поведения или состояния кон- кретного человека с известными типами и установленными ранее среднестати- стическими нормами 4. Интегральный подход. Суть – ориентация на теоретические аспекты психодиагностики. Он обобщает длительную историю развития теории и куль- туры психодиагностики и рассматривает ее в виде самостоятельной научной дисциплины, занимающейся проблемами постановки психологического диагно- за. В данном направлении решаются следующие задачи: 1) Анализ исторической обусловленности возникновения и эволюции психодиагностических идей. 2) Изучение структурных элементов и направлений современной психо- диагностики. 3) Разработка стратегий и методологических принципов психодиагности- ки. В психологической диагностике выделяют преимущественно два направ- ления к распознанию, а затем и к измерению психологических особенностей человека: номотетический и идеографический. Номотетический подход к описанию личности человека выделят в про- тивовес идеографическому подходу. Рассмотрим несколько подробнее суть этих подходов. Разделение номотетического и идеографического подходов началось с публикации Виндельбандом (1904) своей монографии «История и наука». В ней разводятся два направления научного анализа: с естественнонаучной и с гума- нитарной ориентацией. Идеографический способ исследования ориентирован на описание и объяснение сложного целого (например, конкретной личности). Описание должно быть максимально полным и конкретным, единичный элемент пред- ставляется, при этом, как уникальный феномен. Номотетический способ исследования ориентирован на открытие об- щих закономерностей, справедливых для любого частного случая. Виндельбанд считал, что любой объект можно изучать любым из этих способов. Оба они имеют как свои достоинства, так и недостатки. Основная критика в адрес идеографического метода следующая: во-первых, отсутствие объективности, т.е. полученные с его помощью результаты в определенной степени зависят от теоретической ориентации психодиагноста и его опыта; во- вторых, с помощью этого метода невозможно открыть общие законы. В рамках идеографического подхода информация о таких показателях групповой стати- стики, как среднее значение, коэффициенты корреляций и другие статистики, оказываются, как правило, бесполезными. Номотетический подход также подвергался критике: действительно, на его основе можно открыть новые законы, однако, зная эти законы, невозможно составить достаточно полное представление о конкретной личности, поскольку каждая конкретная личность уникальна. 1. Номотетический (от лат. norma – образец). Этот подход подразумевает выяснение индивидуальных особенностей и соотнесение их с нормой. 2. Идеографический (от греч. idea+gramma – идеограмма, письменный знак, означающий целое понятие.). Этот подход основан на распознании инди- видуальных особенностей человека и их описание. Переход от поверхностных, наблюдаемых симптомов и признаков к диа- гностическому выводу в научной психодиагностике требует применения осо- бых методик и процедур – измерительных тестов и качественно- количественных экспертных шкал. Таким образом, к основным понятиям пси- ходиагностики следует прежде всего отнести диагностические признаки и диагностические категории. Признаки отличаются тем, что их можно непосредственно наблюдать и регистрировать. Категории скрыты от непосредственного наблюдения. Поэтому в социальных науках их принято называть «латентными переменными». Для количественных категорий часто используется также название «диагностиче- ские факторы». Диагностический вывод – это переход от наблюдаемых признаков к уровню скрытых категорий. Особая трудность психологической диагностики заключается в том, что между признаками и категориями не существует стро- гих взаимнооднозначных связей. Например, один и тот же внешний поступок ребенка (вырвал листок из дневника) может быть обусловлен совершенно раз- личными психологическими причинами (повышенный уровень скрытого фак- тора «склонность к обману» или повышенный уровень другого скрытого фак- тора «страх наказания»). Для однозначного вывода одного симптома (одного поступка), как правило, недостаточно. Нужно проанализировать комплекс симптомов, то есть серию поступков в разных ситуациях (рис. 1). Рисунок 1 – Соотношение наблюдаемых диагностических признаков и ненаблю- даемых диагностических категорий В практической работе психодиагностика предпринимается не ради полу- чения информации о психических свойствах как таковых, а ради прогноза, определенного социально значимого поведения – критериального поведения и соответствующего критериального показателя. Если полагать, что психологический измерительный инструмент (тест, опросник, анкета и т.д.) является микроэкспериментом, то в его структуре (схе- ме) независимая переменная представляет собой стандартный стимул, реакция на который известна и статистически определена (рис. 2). Каждая реакция, действие или результат действия испытуемого в процес- се тестирования (т.е. зависимая переменная) в результате диагностики тоже подлежит стандартной интерпретации. Обьект измерения: Выявленые психо- свойство личности, R1 Стандартный пси- логчиеские при- группы, психоло- знаки объекта из- хологический сти- R2 мул гический феномен мерения R3 Рисунок 2 – Схема процедуры психодиагностического измерения объекта Не обходимо охарктерезовать понятие «критериальное поведение». Например: в учебной деятельности критериальное поведение – это успешное обучение, а критериальный показатель – это элементарная успевае- мость учащегося. Когда нас интересует моральная воспитанность школьника или наличие определенных противоправных тенденций в развитии личности, то в качестве критериального поведения выступает соблюдение моральных и дис- циплинарных норм в школе, дома, во дворе, а в юридическом смысле – элемен- тарное законопослушное поведение. На производстве критериальный показа- тель – это производительность труда. В сфере здравоохранения – это общий уровень физического здоровья (работоспособность). Когда возможно успешное прогнозирование? Когда измеренное нами психическое свойство находится в причинных отношениях с критериальным поведением, то есть буквально служит причиной появления этого поведения. Тогда на основе информации об этом свойстве мы можем предупреждать неже- лательное поведение и стараться изменить условия обучения и развития ребен- ка так, чтобы, воздействуя на психическое свойство в желательном направле- нии, вызвать желательное поведение (рис. 3). --------------► – Связь проявление р – Связь причинного влияния Рисунок 3 – Связь психических свойств с критериями эффективности психодиа- гностики Систематический перебор различных симптомов, связанных с гипотети- ческим скрытым фактором, обеспечивают тесты. Тест в психодиагностике – это серия однотипных стандартизированных кратких испытаний, которым подвер- гается испытуемый – носитель предполагаемого скрытого фактора. Различные тестовые задания призваны выявить у испытуемого различные симптомы, свя- занные с тестируемым скрытым фактором. Сумма результатов этих кратких ис- пытаний говорит об уровне измеряемого фактора (здесь, для большей ясности, имеется в виду самая простая схема подсчета тестового балла). За внешней простотой научных тестов скрывается большая исследова- тельская работа по их разработке и апробации. Различение практического обследования и научного дифференциально- диагностического исследования является одним из важнейших в современной тестологической культуре Обследование – это применение готового, уже разработанного теста. Его результат – сведения о психических свойствах конкретного обследованного че- ловека (испытуемого). Дифференциально-диагностическое исследование – это комплекс тео- ретических и экспериментальных работ, направленных на формулирование концепции измеряемого психического свойства (скрытого фактора, влияющего на эффективность и характер деятельности), на выявление диагностических признаков (или «эмпирических индикаторов»), по которым можно получать информацию о заданном свойстве, это создание и испытание методики реги- страции выявленных признаков. Нередко за более короткой и внешне простой методикой скрывается более сложное и трудоемкое исследование, которое бы- ло необходимо выполнить для его разработки. Таким образом, современное понятие «психодиагностики» тесно связано с понятием психологическое тестирование, но не сводится к нему полностью, так как кроме тестовых (стандартизированных, измерительных) существуют экспертные (основанные на качественных экспертных оценках), или, как при- нято чаще называть, «клинические» психодиагностические методики. В разных научных психологических школах и разных странах психодиа- гностика развивалась с разной системой приоритетов: в одних школах (евро- пейская традиция, особенно в области медико-психиатрической психодиагно- стики) преимущественное внимание уделялось развитию клинических методов (беседа, слабостандартизи-рованные проективные методики), в других школах (американская традиция, особенно в области образования и индустриально- психологической практики отбора кадров) интенсивно развивались стандарти- зированные тестовые методы. В настоящее время в современных наиболее эф- фективных зарубежных и отечественных научно-практических центрах активно используются и взаимодополняют друг друга оба этих подхода. В наиболее логически строгой, обобщенно-формализованной форме эти логико-методические принципы отражены в психометрике – математизирован- ной технологии создания стандартизированных, измерительных психодиагно- стических методик. Современная психометрика требует, чтобы любой тест, претендующий на то, чтобы считаться научным, обладал необходимыми пси- хометрическими свойствами. Это свойства валидности, надежности, репрезен- тативности. В психометрике обоснованы определенные правила и методы из- мерения указанных психометрических свойств, - тестов. Следование этим пра- вилам и методам обеспечивает объективный контроль за степенью научности, любого нового предложенного теста, а также за степенью реальной ценности старого теста, который вполне может по определенным причинам устареть и перестать «работать» правильно. Итак, в психологии психодиагностика служит своеобразным мостом между наукой и практикой: наукой об индивидуальных психологических раз- личиях (дифференциальная психология) и практикой постановки психологиче- ского диагноза. Как и в сфере точных наук, в психологии это соединение науч- ных знаний и практических задач достигается не непосредственно, а на основе технологии. Психологический диагноз – краткое емкое обозначение актуального со- стояния психической системы или ее параметров, обусловливающего особен- ности поведения и деятельности конкретного человека, представленное в виде диагностической категории (понятия) или утверждения (умозаключения), на основе которого возможно прогнозирование дальнейшего развития (будущего состояния) и формулирование рекомендаций Л.С. Выготский выделил и описал 3 ступени (уровни) психологического диагноза: 1 ступень – симптоматический или эмпирический диагноз. Подобный ди- агноз может ограничиваться только констатацией определенных психических особенностей или симптомов, на основании которых делается практический вывод. Одним из основных методов постановки симптоматического диагноза выступает наблюдение и самонаблюдение, для которых характерен высокий уровень субъективизма 2 ступень – этиологический диагноз. Этот вид диагноза учитывает не только наличие определенных психологических симптомов, но и причины их возникновения, выяснение возможных причин переживаний, поведения, отно- шений человека. Это важный элемент психологического диагноза, но необхо- димо иметь в виду, что поступки человека, поведение и взаимоотношение с окружающими людьми детерминируются многими факторами, проанализиро- вать которые не всегда возможно. В связи с этим точность этиологического ди- агноза может быть недостаточно высокой. 3 ступень – типологический диагноз. Сущность типологического диагно- за заключается в определении места и значения полученных результатов в среднестатистическом ряду, а так же в целостной картине личности. Такой ди- агноз неразрывно связан с прогнозом, который строится на умении понимать внутреннюю логику развития психического феномена Высокий уровень развития психометрики, ставшей практически синони- мом тестологии (науки о тестах), иногда приводит к тому, что даже специали- сты склонны ставить знак равенства между понятиями «тестирование» и «пси- хологическое тестирование». Но, в строгом смысле, большинство тестов в пе- дагогике и профобучении, сходных с психологическими тестами по процедур- ным признакам, на самом деле не являются психологическими по их предмет- ной направленности. Психологическими тестами следует считать только тесты, направленные на измерение психических свойств. Тестирование знаний по определенным предметам школьной программы, а также специальных навыков и умений в профессиональных (профориентаци- онных) тестах не дает информации о психических свойствах. Эти тесты следует называть соответственно педагогическими и профессиональньши тестами. Ненадежным и недостаточно формализованным, но хорошо знакомым нам ва- риантом педагогических тестов являются обычные школьные и вузовские кон- трольные и экзамены. Броская особенность профессиональных тестов – исполь- зование особых тренажеров, в которых специально воспроизводится модель ка- кой-то производственной задачи. Педагогические и профессиональные тесты дают нам информацию о знаниях и умениях, но не о способностях, чертах и мо- тивах человека. Ясно, что знания и умения подвергаются более быстрой и лег- кой коррекции (обучению и изменению), чем психические свойства личности. Это более оперативная диагностика, чем психодиагностика. Хороший, точный психологический диагноз позволяет прогнозировать поведение человека на го- раздо более протяженном отрезке его жизни (хотя, возможно, и менее точно). Определение понятия психологического теста Психологическое тестирование – это всегда анализ выборки поведения. Психологический тест в сущности есть объективное и стандартизованное изме- рение выборки поведения (А. Анастази). Психологические тесты, подобно экс- периментам в других науках, проводятся на малой, но тщательно отобранной выборке поведения индивида. Диагностическая, или предсказательная, значимость психологического теста зависит от того, насколько он может служить показателем относительно широкой и существенной области поведения. Измерение выборки поведения, задаваемого тестом, очень редко оказывается, если вообще оказывается, целью психологического тестирования. Знание ребенком какого-то списка из 50 слов, так же как и выполнение конкретной серии из 20 арифметических задач, сами по себе не представляют большого интереса. Но если можно установить непо- средственную связь между знанием ребенком данного списка слов и его общим словарным запасом или же между показателем, полученным при решении арифметических задач, и индивидуальным выполнением счетных операций на работе, то тест выполнил свою задачу. Определение, используемое здесь, принадлежит Кэттеллу и его коллегам (напр., Cattell, 1957). Объективный тест - это тест, цель которого скрыта от ис- пытуемого (а поэтому результаты не могут быть фальсифицированы), и данные, полученные с его помощью, могут быть оценены независимо от лица, прово- дящего тестирование и интерпретацию. Приведем краткое изложение. Психологические тесты могут отличаться один от другого по следую- щим признакам: (1) Инструкции. Ясно, что они важны, поскольку определяют то, как ис- пытуемый воспринимает тест (хотя испытуемые могут не всегда придавать им значение). (2) Материал теста. Он может быть взят из социальной области или, например, из физики. (3) Особенности оценивания полученных от испытуемого ответов. Понятно, что эти три элемента не являются независимыми, так как ин- струкции должны отражать определенный стимульный материал. Кэттелл и Уорбертон предпочли объединить первые два элемента и обо- значить это термином «стимульно-инструктивная ситуация» (stimulus- instruction situation). СТИМУЛЬНО-ИНСТРУКТИВНАЯ СИТУАЦИЯ Стимульно-инструктивная ситуация изменяется в зависимости от ряда параметров: 1. Реакция или ее отсутствие. В общем требуется реакция на стимул. Но это не всегда так, как, например, в тестах на чувствительность к боли. 2. Ограниченность versus неограниченность способов реагирования. В тестировании не известны случаи неограниченного разнообразия ответов. Предполагается, что испытуемые (как аргументируют Кэттелл и Уор- бертон) не будут жевать материал тестов или портить его. Однако ответы могут быть относительно свободными, как, например, в тесте Роршаха, или с накла- дываемыми на них ограничениями, как при измерении времени реакции. 3. Ответы, придуманные (созданные самостоятельно) versus отобранные из набора вариантов. Значение этого параметра очевидно. Примером последних являются ответы типа «правда-неправда``, а примером первых - описание ри- сунков Теста тематической апперцепции (Thematic Apperception Test - TAT). 4. Единичные versus повторяющиеся ответы. 5. Последовательность ответов: упорядоченная versus неупорядоченная. Это относится к тому, до какой степени от испытуемых требуется давать ответы в определенном порядке. 6. Однородность versus разнородность ответов. В некоторых тестах тре- буются ответы одного и того же вида, а в других предусмотрены ответы раз- личных типов. 7. Естественность темпа versus ограниченность времени на ответы. Сравните такие инструкции, как, например: «Работайте со свойственной вам скоростью», «Не тратьте слишком много времени на каждый вопрос» и «Работайте настолько быстро, насколько это возможно.» 8. Завершенность (окончательность) реакции versus реагирование на ре- акцию. Испытуемый реагирует либо на материал теста, либо на свою собствен- ную реакцию, например, тот или иной стимул как-либо оценивается, вызывает ассоциации или воспоминания. Cattell и Warburton (1967) считают, что это основные, не требующие до- полнительной аргументации, параметры вариативности, связанные со стимуль- но-инструктивной ситуацией. Однако, ими представлены и три других, более субъективных параметра, которые при разработке объективных тестов могут приобрести особое значение. 9. Явный смысл versus неявный. Некоторые тесты не имеют никакого вне их лежащего значения, такие как измеряющие время реакции. Однако в определенных тестах (там, где интересуются мнением о чем-либо) это присут- ствует. Большинство видов искажений и сложностей, связанных с субъектив- ным истолкованием слов и понятий возникают именно в тех тестах, значение которых неявно. 10. Представление теста в виде отдельных заданий versus целостное представление. Этот параметр касается различий между тестами, состоящими из отдельных заданий или из одного единственного. 11. Психологическая сущность действия, необходимого для выполнения задания. Этот параметр учитывает, требуется ли для ответа: (а) знания (напр., верное суждение); (б) мнение о чувствах, отношениях; или (в) опознание или распознание. Как утверждают Cattell и Warburton (1967), существуют еще два пара- метра: 12. Различия в мотивах приемлемости ситуации тестирования. 13. Различия в свободе выхода из ситуации тестирования. Вышесказанное обуславливает существование 2 типов стимульно- инструктивных ситуаций. Значение приведенных классификационных принципов огромно: если бы мы конструировали такой материал для объективных тестов, в целом со- державший бы в себе все эти параметры, то использовали бы все возможные виды материала. Это особенно важно, поскольку при применении этих тестов всегда есть опасность, что для данного теста специфично проявляется больше вариативности, чем это желательно. Параметры оценивания ответов: 1. Объективность versus субъективность оценивания. Этот момент каса- ется в основном тех тестов, в которых используются задания на самооценку. Будет ли ответ испытуемого оцениваться так, как это предполагается инструкцией или каким-либо неизвестным для него образом? В этом нет ника- кого обмана для испытуемых. Например, объективным тестом является тест критических оценок (Critical Evaluations Test, Т8, Cattell и Warburton (1967)). В нем испытуемых просят указать, является ли определенная производительность труда, - например, если у официантки уходит десять минут на то, чтобы прине- сти шесть порций на столик, - очень хорошей, хорошей, плохой, очень плохой. А в этом тесте между прочим определяется количество критических оценок. Субъективное содержание заданий не имеет отношения к оценке. Таким обра- зом, этот тест, внешне напоминающий опросник, является, фактически, полно- стью объективным, как это и определено в начале данной главы. Разумеется, все те тесты, которые будут обсуждаться в этой главе, являются объективными в смысле этого первого параметра. 2. Целостное поведение (весь организм) versus физиологическая реакция (часть организма). Типичной физиологической реакцией может быть покрасне- ние от смущения или тремор. 3. Измерение одного возможного ответа versus классификация разнооб- разных ответов (параметрическое оценивание versus непараметрическое) . Па- раметрически измеряются такие особенности ответа: время, количество оши- бок, повторений. Непараметрически раскрывается количество и разнообразие классов ответов. В этом смысле многие тесты на креативность оцениваются не- параметрически. 4. Общее количество ответов versus часть, соответствующая некоторому критерию. Это пересекается с описанным выше третьим параметром, посколь- ку, как указывают Cattell и Warburton, различные оценки могут быть любой из указанных здесь категорий. 5. Единый однородный показатель versus разнотипные относительные показатели. Определить единый показатель можно только тогда, когда тест оценивается в целом, как в случае личностных опросников. Разнотипные отно- сительные показатели могут определяться в следующих формах: различия во времени выполнения первой и второй частей теста; запоминание материала при обычных условиях и при отвлекающих обстоятельствах. И, наконец, Cattell и Warburton добавили шестой параметр: 6. Нормативное оценивание versus ипсативное (личностное). Однако этот параметр, по-видимому, представляет совершенно иной тип классифика- ции, чем та, о которой шла речь выше, так как он оказывает влияние на все те- сты и более правильно было бы отнести его к области стандартизации, а не конструирования тестов. Если мы примем в рассмотрение и этот параметр, у нас получится 26 возможных типов оценивания ответов. Таким образом, выделенные параметры, связанные со стимульно- инструктивной ситуацией и оцениванием ответов, позволят нам конструиро- вать тесты любого типа. Однако, такой подход, хотя и является полезным, все же не может помочь нам в том, что касается содержания объективных тестов. Cattell и Warburton (1967) выделяют основание для выбора содержания заданий (в дополнение к таксономии, призванной помочь в выборе формы те- стов). 1. Различаются два вида ситуаций (ситуационализм, фактически, не яв- ляется противоположностью психологии черт): побуждающие (incentives) и связанные с осуществлением действия (complexities). 2. При изменении побудителей (incentives) изменяются показатели ди- намических тестов. При изменении деятельностей (complexities) изменяются также показатели тестов способностей. Тесты темперамента включают все остальные ситуации. 3. Определение побудителей (incentives): побудители порождают стрем- ление к некоторой цели и являются символом цели или удовлетворения от до- стижения цели, что само по себе может быть выявлено только анализом этого процесса. Это статистический анализ последовательности поведения во време- ни. Данная последовательность является набором действий, ведущих к дости- жению цели. Побуждающая ситуация, таким образом, распознается по ее отно- шению к цели (то есть по общим колебаниям в силе стремления и постоянству доминирования). Kline и Grindley (1974) действительно показали именно такие флуктуа- ции между динамическими измерениями и ситуациями. 4. Определение деятельностей (complexities). Когда побудители в дан- ных обстоятельствах уже распознаны, можно определить и деятельность: это все то, что не является побудителем. 5. Конечно, на практике это означает, что измерение динамики и спо- собностей тесно взаимосвязано. Однако, могут быть получены относительно "чистые" средства измерения для каждой из этих областей. Например, если бы у нас были очень простые средства измерения способностей, то различия в по- казателях отражали бы не способности, а динамику (например, насколько ис- пытуемые старательно выполняют задание). Таким образом, можно так управ- лять уровнями деятельностей и побудителей, что объективные тесты могут стать практически ``чистыми" средствами измерения каждой модальности. 6. Нет необходимости говорить, что все тесты, сконструированные та- ким образом, должны быть подвергнуты проверке при помощи факторного анализа. Нужно убедиться, что то, что они измеряют, соответствует тому, что от них ожидали. Все тесты, предположительно измеряющие способности, должны дать близкие результаты, то же касается измерения мотивационных, динамических переменных. С этим логическим обоснованием, с различиями между побудителями и деятельностями, у разработчика объективных тестов уже есть некоторое руководство, по крайней мере относительно выявления то- го, что его тесты измеряют, хотя все они по-прежнему должны подвергаться последующей проверке факторным анализом. В связи с этим следует заметить, что тестовые задания не обязательно строятся на сходстве с поведением, которое тест должен предсказать. Здесь только важно, чтобы между ними и поведением существовала эмпирическая связь. Степень сходства между тестовой выборкой поведения и поведением прогнозируемым достаточно произвольна. Тест может полностью соответство- вать какой-то части предсказываемого поведения. Таковы, например, тест на знание иностранных слов, в котором у уча- щихся спрашиваются 20 из 50 вновь выученных слов, или тест на знание пра- вил дорожного движения для получения водительских прав. Но, например, за- дания тестов профессиональной пригодности, применяемых перед началом обучения специальности, мало похожи на те, которые Особенно сложным является вопрос о диагностическом и прогностиче- ском значении интеллектуальных тестов. Суммарные показатели выполнения тестов, и прежде всего суммарный общий интеллектуальный показатель IQ, не дают основания ни для диагноза, ни для прогноза (предсказания). Как отмечает А. Анастази, они говорят только об успешности выполнения содержащегося в данном тесте набора заданий, т.е. выше, ниже или на уровне средних, установ- ленных в результате стандартизации норм, выполнены задания теста. Диффе- ренциально-диагностическое и прогностическое значение тесты, вероятно, мо- гут иметь в том случае, когда они обнаруживают качественное своеобразие раз- вития, позволяют судить о проявлении каких-то существенных его закономер- ностей. В частности, такие данные можно получить при анализе характера соот- ношения показателей по всем (если они достаточно разнообразны) субтестам, входящим в данный тест. Возможности прогнозирования в дифференциальной психологической диагностике возрастают при сопоставлении результатов повторных тестирова- ний, проводимых через достаточные для выявления динамики развития сроки. При этом в расчет обязательно должен приниматься характер заданий, ибо ина- че нельзя судить ни об особенностях структуры психической деятельности, ни о проявлении определенных закономерностей. Таким образом. полноценный анализ результатов тестирования предполагает качественно-количественный анализ. Используется ли при этом термин «диагноз» или термин «предсказание» - разница невелика. Обычно предсказание подразумевает временную оценку, например будущее выполнение индивидом какой-либо деятельности, исходя из результатов выполнения им теста в настоящее время. Вместе с тем в широком смысле диагноз таких наличных состояний, как умственная отсталость или эмоциональные расстройства, также содержит пред- сказание того, как будет вести себя индивид в ситуациях, отличных от тесто- вых. Логически проще рассматривать все тесты как выборки поведения, анализ которых позволяет предсказать поведение в других случаях. Разные типы те- стов поэтому могут рассматриваться лишь как разновидности этой основной схемы. В отечественной и зарубежной литературе представлено огромное разно- образие определений понятия психологического теста. Ниже приведены неко- торые из них. Психологический тест в сущности есть объективное и стандартизованное измерение выборки поведения. Тест – стандартизованное, часто ограниченное во времени испытание, предназначенное для установления количественных (и качественных) индиви- дуально психологических различий. Под тестом понимается специфический инструмент для оценивания пси- хологических качеств личности. Он состоит из совокупности заданий или во- просов, предлагаемых в стандартных условиях и предназначенных для выявле- ния частичных типов поведения Все определения содержат следующие общие моменты:  во-первых, тест – один из методов измерения в психодиагностике наряду с такими, как проективные методы, стандартизованные самоотчеты, ин- тервью, аппаратурные методы и др.;  во-вторых, это метод измерения свойств личности и особенностей интеллекта;  в-третьих, это метод измерения, который характеризуется высокой степенью объективности, надежности и валидности. Объективность, валидность и надежность – требования, которым должен удовлетворять каждый тест. Рассмотрению этих понятий посвящены следую- щие параграфы. Под тестом (англ. test– проба, испытание, проверка) понимается ансамбль стандартизированных, стимулирующих определенную форму активности, часто ограниченных по времени выполнения заданий, результаты которых поддаются количественной (и качественной) оценке и позволяют установить индивиду- ально-психологические особенности личности (Л.Ф.Бурлачук). Термин «тест», получивший чрезвычайно широкое распространение в различных областях знания в смысле испытания, проверки, имеет давнюю ис- торию. По Р. Пэнто и М. Гравитц (1972), слово «тест» происходит из ста- рофранцузского языка и является синонимом слова «чашка» (лат. testa – ваза из глины). Этим словом обозначали небольшие сосуды из обожженной глины, ис- пользовавшиеся алхимиками для проведения опытов. В русском языке слово «тест» долгое время имело два значения: 1) испытательная присяга, религиозная английская клятва, которую каж- дый вступающий в общественную должность должен давать, чтобы доказать, что он не тайный католик; 2) плоский плавильный сосуд или сосуд из выщелоченной золы для выде- ления олова из золота или серебра. Таким образом существует три направления для характеристики теста:  Тест – испытательно-оценочная направленность.  Тест – как измерение – индивидуальный подход.  Тест – как инструмент стандартизированного измерения выборки поведения (психометрическое определение).  Тест – как испытание – тесты структуры интеллекта.  Тест – как оценка – тесты достижений (ОЦЕНКА – ЭТО МЕТОДИ- КА, НЕ ТЕСТ).  Тест – научно разработанные, профессионально составленные диа- гностические методики, прошедшие апробацию и стандартизацию.  Тест (как диагностический инструмент) – диагностическая методи- ка-диагностическая техника (НО ТОЛЬКО ОБОЗНАЧЕНИЕ) Представим наиболее распространённые определения теста.  Тест – как психодиагностический инструмент, обеспечивающий переход от поверхностных, наблюдаемых структур регистрации диагностируе- мых признаков к скрытым, латентным признакам (диагностическая категория) (А.Г. Шмелёв).  Тесты (англ. test – испытание, проверка, проба) – это стандартизи- рованные и обычно краткие и ограниченные во времени испытания, предназна- ченные для установления количественных и качественных индивидуально- психологических различий между людьми (М. К. Акимова)  Тест – стандартизованное, часто ограниченное во времени испыта- ние (ИЗМЕРЕНИЕ) предназначенного для установления (ИЗМЕРЕНИЯ) каче- ственных и колличественных индивидуальных различий. Тест - теоретическое эмпирический обоснованная система высказываний (заданий), позволяющая получить измерение соответсвующих психологических свойств (А. А. Бодалев, В. В.Столин). Тест – систематическая процедура для сравнения поведения двух или бо- лее людей (Кронбах, 1960). Это определение включает три важных компонента: 1. тесты предполагают определенное поведение, 2. образцы поведения должны отбираться систематически, 3. цель теста – сравнение поведения двух или более людей. Тест – метод измерения индивидуально-психологических различий предоставляющий собой кратковременное стандартизированное психометриче- ское испытание методологической задачей которого является необходимость сравнивать между собой оценки, получаемые различными испытуемыми при соблюдении константности самой процедуры исследования. Таким образом, психологический тест определяется как 1) объективное и стандартизованное измерение психологических феноменов; 2) стандартизован- ное испытание, часто ограниченно во времени, предназначенное для установ- ления количественных и качественных индивидуально-психологических раз- личий; 3) специфический инструментарий для оценивания психологических качеств личности, состоящий из совокупности заданий, предлагаемых в стан- дартных условиях. Термин «тест» используется наряду с другим термином – методика (ино- гда – техника). Имеет ли этот термин содержание, отличное от термина «тест»? Для того чтобы ответить на этот вопрос, необходимо вспомнить о становлении советской психодиагностики в 1970-е гг. Слово «тест» в это время имело по из- вестным причинам дополнительное негативное значение, обозначая не только инструмент исследования, но и его «буржуазное происхождение». Поэтому все используемые тесты были переименованы в методики. Сегодня нет оснований отказываться от термина-понятия, с которым связана вся история и нынешний день психодиагностики. Термин «методика» целесообразно сохранить за не- стандартизованными диагностическими инструментами, а также теми из них, которые, как правило, в силу претензий на глобальную диагностику личности, скорее не измеряют ее, а оценивают. К таким диагностическим инструментам в первую очередь относятся проективные методики. Следует также учитывать сложившуюся в русскоязычной литературе традицию употребления термина «опросник».Опросниками (носящий искусственный характер термин «тест- опросник» постепенно вышел из употребления) называют такие психодиагно- стические инструменты, которые, в отличие от других тестов, направлены на субъективную оценку обследуемым самого себя или других людей. Когда психологический тест содержит пункты, отражающие единствен- ную характеристику человека, и ответы на эти пункты не зависят от других ха- рактеристик человека – это одномерный тест. Ответы на каждый вопрос теста определяются одной-единственной характеристикойй. Такой тест будет считаться однородным. Кроме того, пункты или вопросы теста будут обладать свойством концептуальной гомогенности – ответы на каждый пункт будут функцией одной и той же психологчиекой хаарктеристики (рис. 4). Рисунок 4  Одномерный тест Направление стрелок (от черты к ответам) соответствует идеи о том, что психологическая черта влияет на ответы. Психологический тест, включающий пункты, отражающие более одной психологической характеристики – это многомерный тест. Различают два типа многомерных теста. Когда несколько измерений те- ста связаны между собой, тест считается многомерным со связанными изме- рениями (тесты с факторами более высокого порядка). Эти тесты включают группы вопросов, относящихся к различным психологическим характеристи- кам. Группы вопросов называются субтестами. Субтест – группа тестовых заданий, предназначенных для выявления одного из элементов структуры умений, навыков, значимого психического ка- чества, либо относительно самостоятельного раздела знаний (по теме, по раз- делу, по предмету). Рисунок 5  Многомерный тест со связанными измерениями (тест с факторами более высокого порядка) Многомерные тесты с несвязанными измерениями – тест, где изме- рения теста не коррелируют друг с другом. Рисунок 6  Многомерный тест с несвязанными измерениями Пониманию структуры измерений теста помогает эмпирическая проце- дура факторного анализа. Рисунок 7 – Измерения теста и процедура факторного анализа. Батарея тестов – серия специально подобранных для диагностики те- стов, каждый из которых является самостоятельной методикой со своими диа- гностическими характеристиками и возможностями. Обычно батареи тестов в дидактическом тестировании применяются при входном и итоговом контроле уровней подготовки поступающих или выпускников, а также при переходе учащихся с одной ступени обучения на другую. Возможно использование бата- реи тестов и в рубежном контроле для диагностики усвоения межпредметных связей. Батарея – это не просто набор тестов. Их обычно объединяет не только общая диагностическая цель (например, отбор абитуриентов в вуз или распре- деление первоклассников по учебным группам на основе определения исходно- го уровня подготовленности к школе), но и общая система оценивания резуль- татов. «Планка приёма» или «планка отсева» определяются по итогам тестиро- вания по всей батарее, но с учётом минимально необходимого уровня достиже- ний обследуемого по каждому из составляющих батарею тестов. Измерение в психодиагностике связано с количественной оценкой свойств. В основе измерения лежит операция сравнения. Особенности психоло- гического измерения позволяют выделить три его вида и четыре уровня. 1. Нормативное измерение определяется сравнением тестового пока- зателя развития свойства испытуемого со среднегрупповым уровнем. Нормативное на ординальном (ранговом) уровне. Используется так назы- ваемая перцентильная (процентильная) шкала, построение которой не обуслов- лено видом распределения тестовых оценок. Единственное условие – возмож- ность ранжирования показателей по величине. Единицы перцентильной шкалы отличаются тем, что арифметически одинаковые различия перцентильных те- стовых оценок могут не соответствовать равным различиям в интенсивности оцениваемого свойства. Нормативное измерение на интервальном уровне использует предполо- жение о равенстве единиц измерения показателя теста во всем интервале его вариации. Для сравнения показателей разных тестов они переводятся в стан- дартные шкалы. Связь многих статистических параметров с нормальным распределением определяет предпочтительность нормального распределения тестовых оценок. Если эмпирическое распределение отличается от нормального, оно может быть в большинстве случаев нормализовано искусственно (стандартизировано). 1. Критериальное измерение (Popham W., 1978) основано на прямой оценке качества выполнения теста испытуемым без сравнения с другими испы- туемыми в соответствии с определенным объективным уровнем (критерием) развития качества (объективный критерий: выполнение функции). 2. Ипсативное измерение (Broverman D., 1962) нацелено на оценку внутрииндивидуальных соотношений и не связано с изучением межиндивиду- альных различий (сравнение показателя теста в различных ситуациях с показа- телем в нормальном состоянии: пульс после нагрузки – пульс в покое для дан- ного субъекта). Информация, полученная в результате психологического тестирования, шкалируется (С. Стивенс, 1939; 1946). «Модель шкалирования определяет спо- соб выведения баллов, уровень полученного измерения (тип шкалы) и выбор способов оценки функционального единства полученного инструмента измере- ния». В практической психологии принято шкалирование по четырем основным шкалам, хотя их существует больше. Рассмотрим шесть шкал психологического измерения. 1. Описание в естественном языке. Примером практического применения данной шкалы измерения служит составление психологической характеристики какого-либо человека, обратившегося за консультацией или проходящего пси- хологическое освидетельствование в процессе решения кадровых задач. В ней, как правило, излагается текстовой материал, характеризующий данного клиен- та и отличающий его от других людей. Данное описание характерологических и поведенческих особенностей субъекта дает возможность умозрительно срав- нить его психологические признаки с признаками другого человека. Собствен- но говоря, в этом пункте и начинается измерение. Психологическое измерение основывается на методах параметрической и непараметрической статистики. Непараметрические шкалы уже активно используют математические методы. Непараметрические шкалы 2. Нечеткая (размытая) классификация. Содержанием данной шкалы яв- ляется сопоставление признаков реальных объектов с «эталоном». Эталоном может выступать идеальный объект (например, перечень профессионально зна- чимых качеств специалистов) или реальный объект (лучший в профессии), то есть подобие эталону (А). Абсолютного подобия (идентичности) эталону не существует. Поэтому подобие определяется степенью совпадения признаков. В практике распространена следующая ситуация: «В подобно А; С подобно А; но В не подобно С». Если в процессе психодиагностики редко встречается оценка «подобия» психологических характеристик людей при помощи математических расчетов, то в психологии профессий идентичность специальностей определя- ется с использованием коэффициента сопряженности. 3. Строгая классификация (номинальная шкала). Содержание данной шкалы описывается логическим правилом: А – не В; В – не С; С – не D и т. д. Шкала строго определяет отличие одного измеренного признака (или субъекта) от другого. Часто в опросниках «работает» дихотомическая шкала – «да-нет», которая интерпретируется в форме присутствия/отсутствия исследуемого при- знака, то есть «данный признак есть или нет». Например, дифференциально- диагностический опросник Е. Климова интерпретируется в рамках данной шка- лы как наличие у субъекта признаков, относящихся к пяти категориям (типам деятельности): «человек», «техника», «знаковая система», «природа» и «худо- жественный образ». Номинальная принадлежность субъекта к одной из обла- стей определяет у него отсутствие признаков других категорий 4. Шкала порядков (ранговая шкала). Известно по крайней мере два вида ранговых шкал. Это шкала строгой упорядоченности, где действует логическая схема А > B; B > C; C > D и т. д., и шкала нестрогой упорядоченности – «боль- ше или равно – меньше или равно». Параметрические шкалы Когда исследователь может измерить психологический признак, сказав при этом, что данные феномены различаются между собой на такое-то количе- ство условных единиц, то появляется новый уровень измерений, основанный на параметре. Именно на параметрическом уровне измерения базируется матема- тическая статистика. К параметрическим относят шкалу интервалов, шкалу от- ношений и абсолютную шкалу. 5. Шкала интервалов (интервальная). Отличие данной шкалы от других параметрических шкал состоит в том, что начало отсчета (ноль) и интервалы выбраются условно. Здесь действует логическое правило, например, что между психологическими признаками А и В существует различие, измеряемое деся- тью условными единицами. Это интерпретируется так: А больше (или меньше) В на 10 единиц. Если, например, качество «коммуникабельность» субъекта А составляет стандартные 10 стэнов, а субъекта В – 7 стэнов, то по данному при- знаку субъект А более коммуникабелен, чем субъект В на 3 стэна. Из этого примера видно, что и точка отсчета величины признака, и интервал выбраны условно. Однако расчетный стандартизированный интервал дает возможность полагать, что на доверительном уровне (95%) разница между А и В постоянна и равна определенному значению. На практике измерение температуры (по Цель- сию) происходит в шкале интервалов, так как, во-первых, нулевая температура не означает, что температура не отсутствует вообще, а во-вторых, интервалы, выраженные в градусах, являются делением относительным. 6. Шкала отношений. Измерение по шкале отношений осуществляется в области психофизиологических исследований. Содержанием данной шкалы яв- ляется наличие абсолютной точки отсчета, то есть нуля, от которого идет отно- сительно равный отсчет. Примером такой шкалы является измерение длины и веса, где имеется точка отсчета – ноль (отсутствие веса или длины), а интерва- лами являются общепринятые единицы измерения. 7. Абсолютная шкала (Lord F., Novick M., 1968). Данная оценочная шкала применяется в ситуации, когда есть ноль (отсутствие признака или качества), от которого идет отсчет в абсолютных долях. Примерами могут служить физиче- ские измерения, в частности, регистрация количества электронов в атоме, заряд ядра и т. п. Названные одномерные шкалы (кроме абсолютной) могут быть преобра- зованы в другие шкалы более низкого уровня (понижение мощности шкалы). Так, интервальная шкала довольно легко может быть представлена в форме ранговой (по рейтингу балла), а также при наличии критерия (величины при- знака или его границ) – в номинальной. Возможно преобразование шкалы более низкого уровня в шкалу более высокого уровня (повышение мощности шкалы). Одномерные психологические шкалы, полученные в результате измере- ния одного и того же признака у одного и того же объекта при использовании различных инструментов, могут также преобразовываться в многомерные шка- лы путем конструирования функциональных зависимостей между ними. Критериальное психологическое измерение основано на прямой оценке результатов работы испытуемого без сравнения с другими испытуемыми в со- ответствии с определенным объективным уровнем (критерием) развития каче- ства, свойства. Иными словами, в данном случае производится сопоставление эмпирического результата с так называемой объективной нормой или каче- ством выполнения функции. Ипсативное психологическое измерение нацелено на оценку внутриин- дивидуальных соотношений и не связано с изучением межиндивидуальных различий. То есть происходит сравнение показателя методики в различных си- туациях с его же значением в нормальном или ином состоянии. Например, в психофизиологии у конкретного субъекта исследуется пульс после нагрузки в соотношении с пульсом в покое (до нагрузки). В рамках исследования психологических особенностей людей или групп определены четыре уровня измерения. Б. В. Кулагин в книге «Основы профес- сиональной психодиагностики» приводит таблицу, в которой определены наименования уровней измерения и статистические процедуры, им соответ- ствующие, по С. Стивенсу. Рассмотрим основные шкалы психологического измерения и их модифи- кации. Таблица 1 Уровни психологического измерения по С. Стивенсу Уровень изме- Основная Допустимое Статистические Примеры рения операция, преобразование величины для определяющая данного уровня уровень Поминальный Приписывание х' =f(x), где f(x) - Число объектов Приписывание числового одинаковых замена одного в классе (катего- кода лицам с определенными чисел- наиме- числа- наимено- рии) коэффици- социальнодемографическими нований объек- вания другим ент ассоциации характеристиками там, имеющим общий признак Ординальный Ранжирование х2=f(x), где f(x) – Медиана; пер- Ранжирование специалистов объектов по любая монотон- центили по степени профпригодности выраженности но нарастающая определенного функция признака Интервальный Определение Средняя ариф- Шкала температуры по величины раз- метическая; Цельсию личий между дисперсия; ко- объектами эффициент кор- реляции Измерение от- Определение Коэффициент Измерение длины, массы ношений равенства вариации отношений величин Уровни измерения являются базой построения измерительных шкал. Ин- формация, полученная в результате психологического исследования, должна проходить процедуру шкалирования. «Модель шкалирования определяет спо- соб выведения баллов, уровень полученного измерения (тип шкалы) и выбор способов оценки функционального единства полученного инструмента измере- ния». В практической психологии принято шкалирование по четырем основным шкалам, хотя, видимо, их существует больше. 1.2 Процедура стандартизации психологических тестов как объективное измерение Стандартизацией называется процесс унификации, регламентации, при- ведения к единым нормативам процедуры психодиагностики и тестовых пока- зателей. При помощи стандартизации осуществляется сопоставление экспери- ментальных данных, полученных при помощи методик различной размерности. В результате обработки получают сырые балы, которые переводятся в стан- дартные оценки, составленные в соответствии с законом нормального распре- деления. Различают две формы стандартизации: 1. Под стандартизацией понимается обработка данных, регламентация процедуры проведения тестирования и его периодичности, унификация ин- струкции и бланков, способов регистрации результатов, стандартность условий проведения обследования, характеристик контигента обследуемых. 2. Стандартизация как преобразование нормальной (или искусственно нормализованной) шкалы оценок в новую шкалу, основанную на определении места сырой оценки испытуемого в распределении показателей теста в репре- зентативной выборке (А. Анастази). Объективность психологического теста означает, что первичные показа- тели, их оценка и интерпретация не зависят от поведения и субъективных суж- дений экспериментатора. Первичными называют показатели, полученные после обработки данных выполнения респондентом тестовых заданий. Выражаются первичные показатели в так называемых «сырых баллах». Разработка заданий, процедура проведения, обработка результатов теста осуществляется согласно определенным стандартным правилам. Добиться объективности психологического теста можно при выполнении следующих условий: 1. единообразие процедуры проведения теста для получения сравни- мых с нормой результатов; 2. единообразие оценки выполнения теста; 3. определение нормы выполнения теста для сопоставления с ними показателей, полученных в результате обработки данных тестирования (см. здесь «третий этап стандартизации»). Эти три условия называют этапами стандартизации психологического те- ста. Этапы стандартизации Gulliksen З. Отмечает, что при разработке теста и психологического оце- нивания обычно учитывает пять основных требований: 1. отбор тестовых заданий 2. присвоение определённой оценки за их решение 3. точность тестового балла 4. обоснованность тестового балла 5. сравнение оценки с результатами других тестов. На этапе разработки теста, а также любого другого метода проводится процедура стандартизации, которая включает три этапа. Первый этап стандартизации психологического теста состоит в создании единообразной процедуры тестирования. Она включает определение следую- щих моментов диагностической ситуации: 1. условия тестирования (помещение, освещение и др. внешние фак- торы). Очевидно, что объем кратковременной памяти лучше измерять (напри- мер, с помощью субтеста повторения цифровых рядов в тесте Векслера), когда нет внешних раздражителей, таких как посторонние звуки, голоса и т.д. 2. Содержание инструкции и особенности ее предъявления (тон голо- са, паузы, скорость речи и т.д.). Например, в тесте «10 слов» каждое слово должно предъявляться через определенный интервал времени в секундах. 3. Наличие стандартного стимульного материала. Например, досто- верность полученных результатов существенно зависит от того, предлагаются ли респонденту изготовленные самодельные карты Г.Роршаха или стандартные – с определенной цветовой гаммой и цветовыми оттенками. 4. Временные ограничения выполнения данного теста. Например, для выполнения теста Равена взрослому респонденту дается 20 минут. 5. Стандартный бланк для выполнения данного теста. Использование стандартного бланка облегчает процедуру обработки. 6. Учет влияния ситуационных переменных на процесс и результат те- стирования. Под переменными подразумевается состояние испытуемого (уста- лость, перенапряжение и т.д.), нестандартные условия тестирования (плохое освещение, отсутствие вентиляции и др.), прерывание тестирования. 7. Учет влияния поведения диагноста на процесс и результат тестиро- вания. Например, одобрительно-поощряющее поведение экспериментатора во время тестирования может восприниматься респондентом как подсказка «пра- вильного ответа» и др. 8. Учет влияния опыта респондента в тестировании. Естественно, что респондент, который уже не в первый раз проходит процедуру тестирования, преодолел чувство неизвестности и выработал определенное отношение к те- стовой ситуации. Например, если респондент уже выполнял тест Равена, то, скорее всего, не стоит предлагать ему его во второй раз. Второй этап стандартизации психологического теста состоит в создании единообразной оценки выполнения теста: стандартной интерпретации полу- ченных результатов и предварительной стандартной обработки. Этот этап предполагает также сравнение полученных показателей с нормой выполнения этого теста для данного возраста (например, в тестах интеллекта), пола и т.д. (см. ниже). Третий этап стандартизации психологического теста состоит в определе- нии норм выполнения теста. Нормы разрабатываются для различных возрастов, профессий, полов и др. Вот некоторые из существующих видов норм: Н.А. Батурин предлагает схему процесса разработки тестов представлена в таблице 1. Весь процесс создания психодиагностической методики состоит из 14 шагов, сгруппированных в 8 этапов. Каждый шаг имеет отдельную цель, пред- полагающую получение вполне конкретного конечного продукта, на который опираются дальнейшие действия. Цель каждого шага отражена непосредствен- но в его названии. Подразделение на этапы выделяет качественно различные области деятельности в процессе разработки теста. Действия разработчиков на отдельных этапах требуют разных компетенций, разных акцентов в подготовке, и, в отдельных случаях, могут осуществляться даже разными командами специ- алистов. Каждый шаг предполагает специфические задачи, которые будут опи- саны ниже. Таблица 2 Общая схема процесса разработки тестов Этап Основные задачи Этап I. Организационный Шаг 1. Планирование про- - Формулирование предварительных характеристик екта теста - Определение основных источников валидности - Выбор психометрических и исследовательских мо- делей - Составление подробного плана разработки теста - Организационные решения Этап II. Содержательный Шаг 2. Определение со- - Определение исходного теоретического концепта держания - Формирование репрезентативной выборки содер- жания - Описание ключевой феноменологии Шаг 3. Составление спе- - Операционализация содержания цификации теста - Выбор и фиксация формальных характеристик те- ста - Утверждение спецификации Этап III. Подготовительный Шаг 4. Разработка пунктов - Формулирование пунктов - Профессиональная редакция пунктов - Создание банка пунктов Шаг 5. Сборка версий те- - Компоновка пробных версий теста ста для апробации пунктов - Утверждение версии теста для апробации пунктов Этап IV. Исследовательский Шаг 6. Апробация, пунк- - Предварительная апробация пунктов тов и конструирование - Целенаправленный отбор пунктов в соответствии с тестовых шкал выбранной моделью - Конструирование шкал и сборка теста - Проверка внутренней согласованности и дискри- минативности шкал - Утверждение состава и структуры теста Шаг 7. Уточнение проце- - Уточнение последовательности действий и времени дуры тестирования - Разработка и апробирование инструкций - Уточнение алгоритмов регистрации и обработки данных - Утверждение рабочей версии теста Шаг 8. Изучение и про- - Исследование ретестовой надёжности верка валидности и - Проверка критериальной валидности надёжности - Изучение конструктной валидности - Утверждение окончательной версии теста - Корректорская проверка окончательной версии те- ста Этап V. Стандартизационный Шаг 9. Стандартизация - Формирование выборки стандартизации методики - Эмпирические процедуры установления стандартов - Фиксация способов перехода к нормам Этап VI. Интерпретационный Шаг 10. Разработка систе- - Разработка схем интерпретации мы интерпретации резуль- - Подготовка текстов интерпретаций татов - Описание моделей составления отчётов Этап VII. Технический Шаг 11. Написание техни- - Подготовка подробной документации о результа- ческих отчётов тах, полученных на всех этапах разработки теста - Составление технических отчётов о разработке и психометрической проверке теста Шаг 12. Юридическое - Юридические процедуры оформление - Рецензирование методики - Сертификация методики Шаг 13. Издание методики - Подготовка руководства для пользователя - Издание методики Этап VIII. Эксплуатационный Шаг 14. Сопровождение - Развитие методики использования методики - Обучение и консультирование пользователей - Контроль корректности применения и распростра- нения методики В таблице представлена общая схема процесса разработки тестов, приве- дена последовательность этапов и шагов разработки и указаны основные зада- чи, решаемые на каждом из них. Два начальных этапа – I «Организационный» и II «Содержательный» выступают фундаментом создания любой методики, за- давая стратегическую линию разработки и обеспечивая валидность методики на содержательном уровне. Следующие два этапа – III «Подготовительный» и IV «Исследовательский» концентрируют в себе большинство эмпирических про- цедур, привлекаемых к разработке теста. Именно в рамках этих этапов проис- ходит непосредственная разработка и эмпирическая проверка самого тестового инструментария: отбор эффективных пунктов и проверка надёжности и валид- ности методики. Именно эти два этапа, сохраняя общую последовательность действий, отличаются большим разнообразием и вариативностью методов и моделей, которые могут быть использованы разработчиком, и выбор которых зависит от типа теста, особенностей измеряемого содержания, областей приме- нения и т.д. Цель V-го «Стандартизационного» этапа – получение норм для разработанного, апробированного и проверенного теста. Затем, на этой основе, на VI-м «Интерпретационном» этапе происходит разработка комплексной си- стемы интерпретации. Указанные два этапа имеют особое значение для форми- рования пользовательских характеристик теста и во многом определяют его утилитарную ценность. Этап VII-й «Технический» обеспечивает юридическую «легализацию» методики и завершает окончательную подготовку к её выходу «в свет». Последний, VIII-й «Эксплуатационный» этап, как правило, не ограни- чен во времени и предполагает активное участие авторов и издателей в «жиз- ни» методики, что гарантирует её корректное использование, своевременные изменения и, соответственно, практическую пользу от её применения. Самая главная проблема – проблему объективности психодиагности- ческих методик. Именно психометрика разрабатывает технологию создания конкретных психодиагностических методик – тестов – и определяет методологию обеспе- чения научных требований к ним: - надежности – внутренней согласованности частей теста и воспроизво- димости результатов при повторном тестировании; - валидности – отражения в результатах теста именно того свойства, для диагностики которого он предназначен; - дискриминативности – способности отдельных пунктов (заданий) те- ста дифференцировать испытуемых относительно «максимального» и «мини- мального» результата теста. - достоверности – защищенности теста от влияния на результаты стрем- ления обследуемого изменить их в желательную для него сторону; - репрезентативность показывает, что измеряемый признак распреде- лен в выборке примерно так же, как и в генеральной совокупности (проще го- воря, репрезентативность показывает можно ли нормы, рассчитанные для гене- ральной совокупности, использовать для конкретной выборки). Следущие главы раскрывают задачи психометрического доказательства надёжности теста. 1.3 Классическая теория тестов Создателем классической теории тестов (Classical Theory of mental tests) является известный британский психолог, автор факторного анализа, Чальз Эд- вард Спирмен (Charles Edward Spearman) (1863-1945г.). Он родился 10 сентября 1863 года, и четверть своей жизни прослужил в британской армии. По этой причине, степень доктора философии он получил только в возрасте 41 года. Диссертационное исследование Ч.Спирмен выполнял в Лейпцигской лаборато- рии экспериментальной психологии под руководством Вильгельма Вундта (Wilhelm Wundt). В тот период на Ч.Спирмена сильное влияние оказали работы Фрэнсиса Гальтона (Francis Galton) по тестированию интеллекта человека. Уче- никами Ч.Спирмена были R.Cattell и D.Wechsler. В числе его последователей можно назвать A.Anastasi, J. P. Guilford, P.Vernon, C.Burt, A.Jensen. Большой вклад в развитие классической теории тестов внес Льюис Гутт- ман (Louis Guttman, 1916-1987). Всесторонне и полно классическая теория тестов впервые изложена в фундаментальном труде Гарольда Гулликсена (Gulliksen H.,1950 г.). С тех пор теория несколько видоизменялась, в частности совершенствовался математиче- ский аппарат. Классическая теория тестов в современном изложении приведена в книге Crocker L., Aligna J. (1986 г.). Из отечественных исследователей впер- вые описание этой теории дал В.Аванесов (1989 г.). В работе Челышковой М.Б. (2002 г.) приведены сведения о статистическом обосновании качества теста. Классическая теория тестов основывается на следующих пяти основных положениях. 1. Эмпирически полученный результат измерения (X) представляет собой сумму истинного результата измерения (T) и ошибки измерения (E): X = T + E Величины T и E обычно неизвестны. 2. Истинный результат измерения можно выразить как математическое ожидание E(X): T = E(X) 3. Корреляция истинных и ошибочных компонентов по множеству испы- туемых равна нулю, то есть ρTE= 0. 4. Ошибочные компоненты двух любых тестов не коррелируют: ρE1,E2= 0 5. Ошибочные компоненты одного теста не коррелируют с истинными компонентами любого другого теста: ρE1,T2= 0 Кроме этого, основу классической теории тестов составляют два опреде- ления – параллельных и эквивалентных тестов. ПАРАЛЛЕЛЬНЫЕ тесты должны соответствовать требованиям (1-5), ис- тинные компоненты одного теста (T1) должны быть равны истинным компо- нентам другого теста (T2) в каждой выборке испытуемых, отвечающих на оба теста. Предполагается, что T1=T2 и, кроме того, равны дисперсии s 2 1 = s 2 2 . Эквивалентные тесты должны соответствовать всем требованием парал- лельных тестов за исключением одного: истинные компоненты одного теста не обязательно должны равняться истинным компонентам другого параллельного теста, но отличаться они должны на одну и ту же константу с. Условие эквивалентности двух тестов записывается в следующем виде: T1 = T2+c12 где c12 - константа различий результатов первого и второго тестов. На основе приведенных положений построена теория надежности тестов. Далее, примем в качестве исходного положения следующее утверждение то есть, дисперсия полученных тестовых баллов равна сумме дисперсий истинных и ошибочных компонентов. Перепишем это выражение в следующем виде: Правая часть этого равенства представляет собой надежность теста (r). Таким образом надежность теста можно записать в виде: На основе этой формулы в последующем были предложены различные выражения для нахождения коэффициента надежности теста. Надежность теста представляет собой его важнейшую характеристику. Если неизвестна надеж- ность, то результаты тестирования невозможно интерпретировать. Надежность теста характеризует его точность как измерительного инструмента. Высокая надежность означает высокую повторяемость результатов тестирования в оди- наковых условиях. В классической теории тестов важнейшей проблемой является определе- ние истинного тестового балла испытуемого (T). Эмпирический тестовый балл (X) зависит от многих условий – уровня трудности заданий, уровня подготов- ленности испытуемых, количества заданий, условий проведения тестирования и т.д. В группе сильных, хорошо подготовленных испытуемых, результаты те- стирования будут как правило, лучше, чем в группе слабо подготовленных ис- пытуемых. В этой связи остается открытым вопрос о величине меры трудности заданий на генеральной совокупности испытуемых. Проблема заключается в том, что реальные эмпирические данные получают на вовсе не случайных вы- борках испытуемых. Как правило, это учебные группы, представляющие собой множество учащихся достаточно сильно взаимодействующих между собой в процессе учения и обучающиеся в условиях, часто не повторяющихся для дру- гих групп. Найдем sE из уравнения Здесь в явной форме показана зависимость точности измерения от вели- чины стандартного отклонения sX и от надежности теста r. ГЛАВА 2 ПСИХОМЕТРИЧЕСКАЯ НАДЁЖНОСТЬ ТЕСТА 2.1. Содержательная характеристика надёжности теста К числу основных критериев оценки объективности психодиагностиче- ских методик относится надежность. Большой вклад в разработку понятия надёжности внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гил- форд, Л. Кронбах, Р. Торндайк и Е. Хаген и др.). Авторами были разработаны как формально-логический, так и математико-статистический аппарат (прежде всего корреляционный метод и фактический анализ) обоснования степени со- ответствия методик отмеченным критериям. Надежность измерения (англ. reliability of measurement) – воспроиз- водимость результатов измерения, повторяемого при идентичных условиях. Количественная оценка надёжности измерения осуществляется, например, при помощи корреляции результатов повторных измерений. Надёжность измерения детерминируется объективностью самого наблюдателя (экспериментатора), по- стоянством характеристик измерительной аппаратуры и физической неизмен- ностью измеряемых свойств. Многофакторность психологического измерения существенно увеличи- вает вероятность искажения данных. Поэтому в психометрике существует по- казатель, отражающий точность и устойчивость процедуры измерения, ее неза- висимость от случайных варьирующих факторов – надежность. Надежность – одно из трех главных психометрических свойств любой измерительной психодиагностической методики (теста). Надежность – это помехоустойчивость теста, независимость его резуль- тата от действия всевозможных случайных факторов: а) разнообразие внешних материальных условий тестирования, меняю- щихся от одного испытуемого к другому; б) динамичные внутренние факторы, по-разному действующие на раз- ных испытуемых в ходе тестирования; в) информационно-социальные обстоятельства. Разнообразие и измен- чивость этих факторов так велики, что они обусловливают появление у каждого испытуемого непрогнозируемого по размерам и направлению отклонения из- меренного тестового балла от истинного тестового балла (который можно было бы, в принципе, получать в идеальных условиях). Величина этого отклонения определяется как «стандартная ошибка измерения» (Se). В традиционной тестологии термин «надежность» означает относитель- ное постоянство, устойчивость, согласованность результатов теста при первич- ном и повторном его применении на одних и тех же испытуемых (А. Анастази) Представим некоторые из основных понятий надёжности. Надёжность – на сколько различия в тестовых баллах респондентов яв- ляются функцией от истинных различий между ними, а не ошибкой измерения. Устойчивость относительно объекта исследования (Р. Майкл Фер, Верн Р. Ба- карак). Надёжность – согласованность, эквивалентность оценок тестируемых определяемая через вычисление дисперсии ошибки и ошибки измерения. Надежность – характеристика тестовых баллов, которая выводится из наблюдаемого балла, истинного балла, ошибки измерения. Согласованность различий истин6ных баллов с различиями в наблюдае- мых баллах Надёжность отражает степень, в которой различия между наблюдаемы- ми баллами испытуемых согласованы с различия в их истинных баллах. Более точно, надёжность процедуры измерения зависит от степени, в которой наблю- даемые баллы респондентов могут быть приписаны различиям в их истинных тестовых баллах, а не другим (часто неизвестным) характеристикам теста и процедуры тестирования. Степень, в которой эти «другие» характеристики вно- сят вклад в различия в наблюдаемых баллах, называется ошибкой измерения, поскольку она вносит рассогласование между наблюдаемыми и истинными баллами. Это положение об ошибке измерения имеет два важных следствия. 1. Во-первых, ошибки имеют тенденцию взаимно уничтожаться по всей выборке. То есть ошибка увеличивает балл одних респондентов и умень- шает балл других так, что в сумме средний эффект ошибки по всем респонден- там оказывается равным 0. 2. Во-вторых, очевидная случайность ошибки состоит в том, что ошибки не коррелируют с истинным. Ошибка влияет на наблюдаемый балл независимо от истинных уровней самооценки респондента. Поэтому если рас- считать корреляцию между истинными баллами и их ошибками измерения – корреляция равняется 0. Как было отмечено выше, надёжность основана на степени, в которой различия в наблюдаемых баллах согласованы с различиями в истинных баллах. Иначе говоря, надёжность зависит от дисперсии наблюдаемых баллов, дисперсии истинных баллов и дисперсии ошиок. Зная о важности дисперсии для интерпретации и оценки психологиче- ских инструментов, можно понять каким образом первое положение классиче- ской теории тестов (о том, что для каждого испытуемого Xg = X1 + Xе) приво- дит нас к различиям между людьми. В классической теории тестов М. Фер, В. Бакарак отмечают, что есть как минимум четыре подхода к пониманию надежности. Так или иначе, в основе каждого из этих концептуальных подходов лежат связи между наблюдаемыми баллами, истинными баллам и ошибкой измерения, как было описано выше. На одном уровне эти подходы отличаются только методами, которые используют- ся для алгебраический операций с выражениями, связанными с этими диспер- сиями. На другом уровне они представляют различные способы концептуали- зации или характеристики понятия надежности. Таблица 3 Концептуализация надежности теста Концептуальная основа надёжности: наблюдаемые баллы в отношении к … Истинные баллы Ошибка измерения Доля дисперсии Надежность - это отношение дис- Надежность - это отсутствие персии истинных баллов к дис- дисперсии ошибки персии наблюдаемых баллов Корреляции Надежность - это (квадратная) Надежность - это отсутствие корреляция между наблюдаемы- корреляции между наблюдае- ми и истинными баллами мыми баллами и ошибкой 1. Надёжность как отношение дисперсий истинного балла и наблю- даемого балла Наиболее распространённое определение надёжности – это доля диспер- сии наблюдаемого балла, которая может быть отнесена на счёт дисперсии ис- тинного балла: Где Rxx – это коэффициент надёжности. 2. Отсутствие дисперсии ошибки. Второй способ рассмотрения надёжности – как отсутствие ошибки из- мерения. Дисперсия ошибки (S 2е ) представляет степень, в которой ошибка из- мерения по-разному влияет на результаты тестирования разных людей – искус- ственно повышая баллы одних людей и понижая баллы других. Эти эффекты Статистическая основа надёжности в терминах искажают истинные различия между людьми. Поэтому надёжность можно рас- сматривать как степень, в которой ошибка измерения минимальна по сравне- нию с дисперсией наблюдаемых баллов. Надёжность может быть рассмотрена как доля дисперсии наблюдаемых баллов, которая может быть приписана дисперсии истинных баллов: А дисперсия наблюдаемых баллов представляет собой сумму дисперсии истинных баллов и дисперсии ошибки. Где доля дисперсии наблюдаемых баллов выражается через соотноше- ние: Надёжность относительно высока, когда эта доля относительно мала. То есть надёжность теста высока, когда дисперсия ошибки мала по сравнению наблюдаемых баллов. 3. Квадрат корреляции между наблюдаемыми и истинными бал- лами. Надёжность – степень, в которой различия в наблюдаемых баллах согла- сованы с различиями в истинных баллах. Коэффициент корреляции сообщает нам степень, в которой различи в одной переменной согласованы (соответ- ствуют) различиям в другой переменной. Таким образом, надёжность может быть рассмотрена как (квадратная) корреляции между наблюдаемыми и истин- ными баллами: 4. Нулевой квадрат корреляции между наблюдаемыми баллами и ошибкой. Надёжность может также рассмотрена как степень, в которой наблюда- емые баллы не связаны ошибкой измерения. В той степени, в которой различия в наблюдаемых баллах отражают различия в эффектах ошибки (а не истинных баллов), тест надёжен. То есть: Где r2 – квадрат корреляции между наблюдаемыми баллами и ошибкой. Надёжность и стандартная ошибка измерения. Коэффициент надёжности – это показатель, отображающий не степень надёжности теста, а показывает какую среднюю величину ошибки в единицах тестовых баллов можно ожидать при проведении теста на группе людей. Стандартное отклонение ошибки измерения – способ выражения ве- личины ошибки, влияющей на ответы на тест. Стандартная ошибка измерения теста тесно связана с его надёжностью. Надежность теста можно выразить посредством расчета стандартной ошибки измерений – SEM (стандартная ошибка показателя)*. Она расчиты- вается по формуле. SEM = δx √ 1 – Rxx, где δx – стандартное отклонение показателей теста; Rxx – значение коэффициента надежности. Физический смысл SEM заключается в определении дисперсии пока- зателей конкретного теста вокруг «истинного показателя», которая характе- ризуется плотностью нормального распределения данных. Если, например, 68% всех случаев нормального распределения психологических данных по- падает в интервал Mx + δx, то примерно два шанса против одного (68 : 32), что ошибка измерений будет «колебаться» в пределах + 1 SEM. При увели- чении плотности распределения данных, например – Mx + 3 SEM, увеличива- ется и вероятность предсказания (99.7 : 0.3) при соответствующем росте ин- тервала ошибки в обе стороны. Надежность теста один из критериев качества теста, относящийся к точ- ности психологических измерений. Чем больше Надежность теста, тем относи- тельно свободнее он от погрешностей измерения. Надежность теста рассматри- вается при одном подходе: как устойчивость (стабильность) результатов при повторном тестировании; при другом, как проявление степени эквивалентности двух одинаковых по форме и цели (параллельных) тестов. Надежность теста - фундаментальная характеристика теста, которая показывает в какой степени стабильны результаты тестирования при неодно- кратном обследовании. Таблица 4 Надежность теста может определяться путем повторного тестирования (через строго определенный отрезок времени) и вычисления коэффициента корреляции между результатами первого и повторного тестирования. Надеж- ность теста может определяться и путем тестирования с помощью нескольких вариантов одного и того же теста, деления теста на две половины и т.д. Надеж- ность результатов тестирования зависит не только от качества самого теста, но и от процедуры проведения тестирования (она должна быть абсолютно иден- тичной в первом и во втором случае), социально-психологической однородно- сти выборки (н. т. будет различной для детей, мужчин, женщин, солдат первого года – службы, старослужащих солдат и т.д.). И может получиться, что будучи надежным для одной группы людей, тест окажется ненадежным для другой, ре- зультаты тестирования в последнем случае будут неверны. Как можно описать надежный тест? Надежный тест измеряет некое ка- чество, делает это устойчиво, относительно времени, позволяет сравнивать ре- зультаты испытуемых, протестированных в разное время, в разном месте, в разном состоянии. Вариабельность измеряемого признака (вариативность как свойство психологического измерения) и многомерность, системность и сложность предмета психологии также ставят под сомнение любое измерение в психоло- гии. Для повышения качества психологического измерения в психометрике ис- пользуется такой показатель как валидность. На результаты исследования действуют две группы факторов: (1) измен- чивость, присущей самому измеряемому свойству, (2) нестабильность измери- тельной процедуры. Свойства надежности могут изменяться при изменении: 1. условия проведения обследования, 2. характера заданий, 3. степени сложности заданий, 4. психологического состояния испытуемого. 2.2. Виды надёжности Виды надежности (помним, что «вид» - это условное название, это скорее точка зрения на надежность). В отношении видов надежности у разных авторов можно встретить определенное единодушие. Наиболее широкое прак- тическое применение находят несколько типов характеристик надежности: ре- тестовая, экспертная, параллельных форм, частей теста. Охарактеризуем каж- дый вид надежности. При описании видов надежности основной упор делается на работы К.М Гуревича (1969, 1975, 1977, 1979), который, проведя тщательный анализ зару- бежной литературы по этой проблеме, предложил толковать надежность как: 1. надежность самого измерительного инструмента, 2. стабильность изучаемого признака; 3. константность, т.е. относительную независимость результатов от личности экспериментатора 1. Определение надежности измерительного инструмента. От того, как составлена методика, насколько правильно подобраны задания с точки зре- ния их взаимосогласованности, насколько она однородна, зависит точность, объективность любого психологического измерения. Внутренняя однородность методики показывает, что ее задания актуализируют одно и то же свойство, признак. 2. Определение стабильности изучаемого признака. Определить надежность самой методики – это не значит решить все вопросы, связанные с ее применением. Нужно еще установить, насколько устойчив, стабилен при- знак, который исследователь намерен измерять. Было бы методологической ошибкой рассчитывать на абсолютную стабильность психологических призна- ков. В том, что измеряемый признак со временем меняется, нет ничего опасно- го для надежности. Все дело в том, в каких пределах варьируются результаты от опыта к опыту у одного и того же испытуемого, не приводят ли эти колеба- ния к тому, что испытуемый по непонятным причинам оказывается то в начале, то в середине, то в конце выборки. Сделать какие-то конкретные выводы об уровне представленное измеряемого признака у такого испытуемого нельзя. Таким образом, колебания признака не должны иметь непредсказуемого харак- тера. Если не ясны причины резких колебаний, то такой признак не может быть использован в диагностических целях. 3. Определение константности, т е относительной независимости ре- зультатов от личности экспериментатора. Поскольку методика, разработанная для диагностических Для вычисления надежности теста нужны результаты двух испытаний, которые организуются следующими способами: 1-й способ – тестирование с помощью двух параллельных тестов (parallel-form reliability); 2-й способ – повторное тестирование с помощью одного и того же теста (test-retest reliability); 3-й способ – расщепление теста (split-half method). Исследователь должен продемонстрировать надежность (reliability) своих инструментов, поскольку без надежности результаты исследования с использо- ванием этого инструмента не будут реплицироваться, а способность к воспро- изведению результатов является фундаментальной в научном методе. Надеж- ность является корреляцией пункта, шкалы, инструмента с гипотетическим ин- струментом, который точно измеряет то, для чего он предназначен. Поскольку точный инструмент недоступен, надежность оценивается одним из четырех способов: 1. Внутренняя согласованность [internal consistency]. Оценка, базирующа- яся на корреляции между переменными, входящими в данную совокупность (как правило, альфа Кронбаха). 2. Расщепленная надежность [split-half reliability]. Оценка, базирующаяся на корреляции двух эквивалентных форм шкалы (как правило, коэффициент Спирмена-Брауна). 3. Ретестовая надежность [test-retest reliability]. Оценка, базирующаяся на корреляции между двумя или более реализациями того же самого пункта, шка- лы или инструмента в различные периоды времени, в различных местах или в различных популяциях, когда эти две реализации не различаются по другим ре- левантным переменным (как правило, коэффициент Спирмена-Брауна). 4. Межэкспертная надежность [inter-rater reliability]. Оценка, базирующа- яся на корреляции оценок между двумя или более оценщиками, которые оцени- вают тот же самый пункт, шкалу или инструмент (как правило, внутригруппо- вая корреляция, которой существует шесть типов, обсуждаемых ниже). Эти четыре способа оценки надежности не являются ни взаимоисключа- ющими, ни обязательно приводящими к одним и тем же результатам. Все ко- эффициенты надежности являются формами коэффициентов корреляции, одна- ко существует множество типов, обсуждаемых ниже, репрезентирующих раз- личные смыслы надежности и в одном исследовании могут оцениваться сразу несколько видов надежности. Ретестовая надёжность Независимо от желательности сведений об интервале времени между двумя тестированиями, какими соображениями следует руководствоваться при выборе этого интервала? Можно привести немало примеров того, как надеж- ность теста остается высокой в течение нескольких дней или недель, но спустя десять-пятнадцать лет его результаты уже почти не коррелируют с первона- чальными. Ретестовый метод – повторное тестирование выборки испытуемых од- ним и тем же тестом через определенный интервал времени при одних и тех же условиях. Временной интервал зависит от возраста (например, у маленьких де- тей изменения могут произойти в течение одного месяца), а также событий, происходящих с испытуемым в жизни. тест - интервал времени - ретест За индекс надежности принимается коэффициент корреляции между ре- зультатами двух тестирований. Полученная высокая корреляция может быть результатом тренированности испытуемого на заданиях подобного типа; низкая корреляция может быть результатом происшедших изменений с испытуемым, а также может свидетельствовать о ненадежности теста. В целом для любого типа испытуемых интервал между двумя последо- вательными применениями теста обычно не должен превышать 6 мес. Изменения относительного выполнения теста индивидами, происходя- щие в более длительные промежутки времени, уместнее отнести к кумулятив- ным и постепенным, а не к чисто случайным. Более того, они, скорее всего, ха- рактеризуют более широкую сферу поведения, чем та, которая проявляется при выполнении данного теста. Общий уровень развития индивида, его способность к обучению, к пониманию технических устройств, его суждения об искусстве могут за 10 лет существенно измениться. Его личностный статус с годами мо- жет заметно возрасти или упасть вследствие обстоятельств жизни дома, в шко- ле или условий социального окружения, а также по таким причинам, как бо- лезнь или эмоциональное расстройство. Степень влияния таких факторов на психическое развитие индивида яв- ляется важной исследовательской проблемой. Однако этот вопрос не следует смешивать с вопросом надежности конкретного теста. Например, при измере- нии надежности тестов Станфорд-Бине, как правило, соотносят показатели, по- лученные с интервалом не в десять лет или даже в один год, а в несколько недель. Конечно, с этими тестами проводились и долгосрочные ретестовые ис- пытания, но их результаты обычно обсуждаются с точки зрения предсказуемо- сти уровня интеллекта взрослого на основе выполнения теста в детском воз- расте, а не с точки зрения надежности конкретного теста. Понятие надежности в основном ограничивается краткосрочными случайными изменениями, харак- теризующими выполнение теста самого по себе, а не тестируемую область по- ведения. Следует отметить, что в различных поведенческих функциях обычные. колебания проявляются неодинаково. Например, на отточенности движений пальцев могут сказаться самые незначительные изменения в состоянии индиви- да, никак не влияющие на его понимание речи. Надежность ретестовая – предполагает повторное предъявление того же самого теста тем же испытуемым и примерно в тех же условиях, что пер- воначальное, а затем установление корреляции между двумя рядами данных. При использовании этого способа определения надежности нужно отдавать се- бе отчет в том, что испытуемые могут запомнить свои ответы и воспроизвести их во второй раз, поэтому повторное тестирование должно быть отделено от первого более-менее значительным временным интервалом, обычно не менее месяца. Некоторые психологи настаивают на интервале между тестированиями не менее 6 месяцев (Клайн, 1994). Ретестовая надежность – характеристика надежности метода пси- ходиагностики путем повторного обследования с помощью одного и того же теста. Надежность вычисляется по соответствию результатов первого и второ- го обследований или по сохранению ранговых мест испытуемых в выборке при ретесте. Многие исследователи скептически относятся к ретестовой надежности как способу оценки надежности. Среди ее проблем указывается, что короткие интервалы между проведениями инструмента будут стимулировать слишком высокие оценки надежности. Ее недостоверность может возникать вследствие эффекта научения/практики [learning/practice effect] (участники научаются в хо- де первого проведения и присбосабливают свои ответы во втором). Она может возникать в результате эффекта созревания [maturation effect], когда интервал между проведениями слишком длинен (участники меняются со временем). Раз- дражение, вызываемое необходимостью второй раз отвечать на те же пункты, может приводить к искажениям оценок в результате сокращения выборки за счет участников, отказавшихся отвечать повторно. Заметьте, однако, что рете- стовые планы попрежнему широко используются и имеют значительную под- держку. Например, McKelvie (1992) сообщает, что надежность оценок в рете- стовых планах не повышается в результате эффектов памяти. Исследователи, использующие ретестовую надежность, должны внимательно изучить обстоя- тельства исследования на предмет потенциальных угроз валидности, перед тем как приступать к ее оценке. Алгоритм вычисления ретестовой надежности: 1. первичное тестирование на выборке (при N ≥ 30); 2. повторное тестирование через 5-6 месяцев на той же самой выборке; 3. вычисление коэффициента корреляции между первичным и повтор- ным тестированием. Коэффициент надежности rt соответствует коэффициенту корреляции между результатами первичного и повторного обследований. Ретестовая надежность пригодна для ограниченного числа методик. Это: 1) Сенсомоторные пробы, 2) Тесты скорости, 3) Тесты, имеющие большое ко- личество пунктов (ММPI). Одним из «минусов» процедуры определения рете- стовой надежности является «эффект тренировки», который безусловно снижа- ет достовенность надежности теста. Для порядковых шкал в качестве меры устойчивости к повторному те- стированию может быть использован коэффициент ранговой корреляции Спирмена или Кэндалла. Несмотря на кажущуюся простоту и очевидность, методика ретеста при распространении на большинство психологических тестов наталкивается на трудности. Улучшение показателей ретеста как результат тренировки будет, вероятно, различным у разных испытуемых. Более того, если промежуток вре- мени между начальным и повторным тестированием достаточно мал, обследу- емые могут припомнить многие из своих прежних ответов. Иными словами, при повторном тестировании память способствует воспроизведению первона- чальной картины правильных и ошибочных ответов. Следовательно, результа- ты двух предъявлений теста не будут независимыми, и корреляция между ними окажется обманчиво высокой. Проведение теста второй раз может также приве- сти к изменению его природы. В первую очередь это относится к задачам, при решении которых нужно проявить изобретательность. Испытуемый, однажды ухватив принцип решения, в дальнейшем может воспроизводить правильный ответ, минуя промежуточные ступени. Только тесты, на которые повторное применение не оказывает заметного влияния, пригодны для их исследования по методу ретеста. К этой категории принадлежит ряд моторных тестов и тестов сенсорного различения. Для большинства психологических тестов этот метод неприменим. Надежность взаимозаменяемых форм. Один из способов избежать труд- ностей, присущих ретестовой надежности,-применение взаимозаменяемых форм теста. Те же самые испытуемые могут тестироваться в первый раз с по- мощью одной формы, а второй раз-с помощью другой, сравнимой формы. Кор- реляция между показателями, полученными по двум формам, служит коэффи- циентом надежности теста. Заметим, что такой коэффициент надежности изме- ряет как временную стабильность теста, так и согласованность ответов по двум выборкам заданий (или тестовым формам), т. е. этот коэффициент объединяет два типа надежности. Надежность параллельных (взаимосвязанных) форм Под параллельными (parallel), или взаимозаменяемыми (alternate) фор- мами теста понимаются серии заданий, не обязательно дающие первичные ре- зультаты с одинаковыми, но снабженные таблицами эквивалентности. Парал- лельные формы следует отличать от уравненных (matched) форм, состоявших из заданий, попарно уравненных по структуре и содержанию, и эквивалентных (equivalent) форм, не уравненных, но тем не менее дающих результаты, обла- дающие весьма близкими статистическими характеристикам наименование упомянутых серий – сопоставимые (comparable) формы. Надежность параллельных форм предусматривает создание эквива- лентных форм опросника и предъявление их одним и тем же испытуемым для того, чтобы затем оценить корреляцию между полученными результатами. Ос- новная проблема, препятствующая широкому распространению этого способа определения надежности, – необходимость подготовки двух наборов зада- ний, что чрезвычайно сложно, поскольку требуются убедительные доказа- тельства их эквивалентности. Еще одним достаточно популярным видом надежности является надеж- ность параллельных форм. Параллельные (или взаимозаменяемые, или сопо- ставимые) формы: 1. параллельные или взаимозаменяемые (снабженные таблицами эк- вивалентности); 2. уравненные (попарно уравненные по структуре и содержанию зада- ния); 3. эквивалентные (результаты с близкими статистическими характе- ристиками). Надежность взаимозаменяемых форм – повторное тестирование вы- борки испытуемых параллельной формой теста через минимальный интервал времени при одних и тех же условиях. ТЕСТ А ИНТЕРВАЛ ТЕСТ А' эффект переноса принципа заданий часто имеет место. Требования к построению параллельных форм:  параллельные формы должны быть независимо построенными те- стами, но отвечать одним и тем же требованиям;  должны содержать одинаковое количество заданий со сходной сте- пенью трудности;  эквивалентность параллельных форм необходимо проверять рете- стовым методом. Надежность параллельных форм – характеристика надежности ме- тодики с помощью взаимозаменяемых форм теста. При этом одни и те же ис- пытуемые в выборке определения надежности обследуются вначале с исполь- зованием основного набора заданий, а затем – с применением аналогичных до- полнительных. В практике встречается два алгоритма вычисления надежности параллельных форм. Первый алгоритм определения надежности параллельных форм: 1. тестирование группы при помощи формы А теста; 2. тестирование группы при помощи формы Б теста (или сразу, или через определенное время); 3. вычисление коэффициента корреляции между результатами тести- рования разными формами. Второй алгоритм вычисления надежности параллельных форм: 1. разделение всех испытуемых на две группы (первая и вторая); 2. тестирование первой группы при помощи формы А теста; 3. тестирование второй группы при помощи формы Б теста; 4. тестирование первой группы при помощи формы Б теста (или сразу, или через определенное время); 5. тестирование второй группы при помощи формы А теста (или сра- зу, или через определенное время); 6. вычисление коэффициента корреляции между результатами пер- вичного и вторичного исследований. Надежность частей теста В психометрике термин надежность имеет два значения. На одном из них – надежности по внутренней согласованности - если некоторая перемен- ная измеряется частью теста, то другие его части, не будучи согласованными с первой, измеряют нечто другое. Для того чтобы быть валидным, тест должен быть согласованным. Существует несколько способов определения надежно- сти. Надёжность эквивалетных половин теста - согласованность выбороч- ных проверок содержания. Внутренняя согласованность. Надежность частей теста достаточно популярный и просто- просчитываемый вид надежности. Надежность частей теста – характери- стика надежности методики путем анализа устойчивости результатов от- дельных совокупностей тестовых задач или единичных заданий теста. За индекс надежности принимается коэффициент корреляции между ре- зультатами тестирования двумя этими частями. Он называется коэффициен- том внутренней согласованности теста. Основным методом вычисления надежности частей теста является рас- щепление – выполнение испытуемым двух равноценных частей теста. Метод расщепления состоит в том, что тест разбивают на две сопоставимые части. Респондент выполняет задания этих двух частей в течение одного сеанса с по- лучением двух результатов (например, тест Равена содержит две части: четные и нечетные задания). Меру надежности можно определить и на основании однократного при- менения единственной формы теста, пользуясь для этого процедурой расщеп- ления. При таком способе каждый испытуемый получает два результата благо- даря разбиению теста на две сопоставимые части. Очевидно, что надежность, найденная методом расщепления, является мерой согласованности выборок со- держания. Временная стабильность показателей в ней не представлена, по- скольку применяется только один сеанс тестирования. Этот тип коэффициента надежности иногда называют коэффициентом внутренней согласованности, ибо для его определения требуется лишь единственное применение одной формы теста. Первая проблема, с которой мы сталкиваемся, применяя метод расщеп- ления, связана с тем, как разделить тест надвое, чтобы при этом получились наиболее сопоставимые части. Всякий тест можно членить многими способами. Для большинства из них первая и вторая половины, как правило, несопостави- мы вследствие различий в природе и уровнях трудности заданий, а также в свя- зи с увеличивающейся вовлеченностью в тест практики, утомления, скуки и т. д. Адекватная основным целям тестирования процедура разбивает результаты по четным и нечетным заданиям теста. Если задания теста расположены в по- рядке возрастания трудности, то такое разбиение обеспечивает достаточную эквивалентность показателей обеих половин. Одна предосторожность, которую требуется при этом соблюдать, относится к случаю, когда тест содержит группу взаимосвязанных заданий, например, когда несколько вопросов касаются ка- кой-то конкретной диаграммы или одного и того же фрагмента текста. В по- добном случае каждая такая группа заданий должна быть целиком отнесена ли- бо к одной, либо к другой половине. Для оценки надежности методом расщепления выбираются две эквива- лентные по характеру и степени трудности группы задач. Разделение объема заданий достигается одним из способов: 1. распределение заданий на четные и нечетные (в том случае, если задания строго ранжированы по степени субъективной трудности). 2. разделение пунктов по принципу близости или равенства значений индексов трудности (такой принцип пригоден для тестов достижений, в кото- рых обязателен ответ на все пункты). 3. разделение задач по времени решения каждой из частей (для тестов скорости). Разделение заданий теста на равноценные половины является лишь частным случаем надежности частей теста. Расщепление возможно на 3, 4, 5 и более частей. В предельном случае число частей равно числу пунктов. Алгоритм вычисления надежности частей теста: 1. провести однократное тестирование на выборке (при N ≥ 30); 2. расщепить тест (используя один из вышеописанных способов), например на четные – нечетные задания; 3. посчитать коэффициент корреляции между выполнением первой и второй половины теста; 4. для перехода к целой форме вычислить надежность целого теста (или формула Спирмена-Брауна, или формулу Рюлона). Надежность частей теста определяется путем деления опросника на две части (обычно на четные и нечетные задания), после чего и рассчитывает- ся корреляция между этими частями. Обычно к этому способу определения надежности рекомендуется прибегать только в тех случаях, когда необходимо быстро получить результаты. Для определения ретестовой надежности и надежности параллельных форм корреляции подсчитывается на основе коэффициента произведения мо- ментов Пирсона. Эта процедура подсчета рассматривалась нами ранее, в раз- деле, посвященном анализу заданий. Для определения надежности частей те- ста ранее рассчитанный коэффициент произведения моментов Пирсона (между двумя половинами теста) используется в формуле Спирмена–Брауна. Формула Спирмена– Брауна имеет вид: где – надежность, оцененная для всего опросника; – корреляция между двумя половинами опросника. Например, если коэффициент корреляции произведения моментов Пирсона между двумя половинами теста равен 0,80. Надежность отдельных заданий теста Надежность отдельных заданий теста - характеристика надежности методики путем анализа устойчивости результатов отдельных тестовых задач или единичных заданий теста. Алгоритм вычисления надежности отдельных заданий теста: 1. провести однократное тестирование на выборке (при N ≥ 30); 2. используя результаты выполнения каждого задания, подсчитать ко- эффициент Кьюдера-Ричардсона (для заданий «1-0») или коэффициент Кронба- ха (для более дифференцированных заданий); Коэффициент Кьюдера-Ричардсона используется для заданий типа «да- нет», «решил – не решил», «верно-неверно». Экспертная надёжность Надежность субъективных оценок (или экспертная надежность) – характеристика надежности методики путем анализа устойчивости- согласованности экспертных оценок. Алгоритм вычисления экспертной надежности: 1. однократное тестирование на выборке (при N ≥ 30); 2. обработка полученных результатов независимыми экспертами; 3. подсчет коэффициента корреляции между оценками разных экспер- тов; 4. при необходимости проведение программы по повышению согла- сованности экспертов. Особый научный интерес представляют описания программ по повыше- нию согласованности оценок экспертов (начиная от простого обсуждения кри- териев оценки протокола, заканчивая обсуждением видеозаписи и работы с эталонными протоколами и т.п.) Работа в группах по два - три эксперта (оценки которых согласованы) с одной стороны существенно облегчает деятельность психодиагноста на производстве, а с другой стороны влияет на объективность инструментария в целом. Межэкспертная надежность Межэкспертная надежность [inter-rater reliability], которая измеряет од- нородность, требует проведения той же самой формы с теми же самыми людь- ми двумя или более интервьюерами с тем, чтобы установить степень согласия в отношении использования данного инструмента теми, кто его применяет. Список представленных видов надежности теста не ограничен. В том случае, если автор посчитает возможным, и соответственно, аргументировано обоснует, применение любого другого вида надежности безусловно также по- ложительно скажется на общей психометрической картине теста. Таблица 5 Сравнительные методы установления надежности Вид надежности Необходимость Достаточное Источники ошибки индекса надеж- повторного те- число форм ности стирования Ретестовая Есть Одна Запоминание, тренировка, научение, длина интервала. Параллельных Есть Два Запоминание, тренировка, научение, форм недостаточная эквивалентность форм Частей теста Нет Одна Неоднородность содержания, число (методом рас- заданий в тесте щепления) Отдельных Нет Одна Число заданий в тесте неоднородность пунктов содержания, Надежность экс- Нет Одна Число оцениваемых параметров пертов Степень надежности методик зависит от многих причин. Поэтому важ- ной проблемой практической диагностики является выяснение негативных факторов, влияющих на точность измерений. Таблица 6 Надежность методик различных типов: МЕТОДИКА ОБЫЧНЫЙ ИНТЕРВАЛ Личностный тест 0,7 – 0,8 Интеллект-тест 0,8 – 0,9 Тест достижений 0,9 – 0,95 Многие авторы пытались составить классификацию таких факторов. Среди них наиболее часто называются следующие: 1) нестабильность диагностируемого свойства; 2) несовершенство диагностических методик (небрежно составлена ин- струкция, задания по своему характеру разнородны, нечетко сформулированы указания по предъявлению методики испытуемым и т.д.); 3) меняющаяся ситуация обследования (разное время дня, когда прово- дятся эксперименты, разная освещенность помещения, наличие или отсутствие посторонних шумов и т.д.); 4) различия в манере поведения экспериментатора (от опыта к опыту по- разному предъявляет инструкции, по-разному стимулирует выполнение зада- ний и т.д.); 5) колебания в функциональном состоянии испытуемого (в одном экс- перименте отмечается хорошее самочувствие, в другом – утомление и т.д.); 6) элементы субъективности в способах оценки и интерпретации резуль- татов (когда ведется протоколирование ответов испытуемых, оцениваются от- веты по степени полноты, оригинальности и т.п.). 2.3 Формализованное вычисление надежности и точности. Общий разброс (дисперсию) результатов произведенных измерений можно представить как результат действия двух источников разнообразия: са- мого измеряемого свойства и нестабильности измерительной процедуры, обу- словливающей наличие ошибки измерения. Это представление выражено в формуле, описывающей надежность теста и виде отношения истинной диспер- сии к дисперсии эмпирически зарегистрированных баллов: S 2 a  T 2 S x Так как истинная дисперсия и дисперсия ошибки связаны очевидным соотношением, формула легко преобразуется в формулу Рюлона: S 2 a 1 e S 2x S 2где а - надежность теста; e . – дисперсия ошибки. Величина ошибки измерения – обратный индикатор точности измере- ния. Чем больше ошибка, тем шире диапазон неопределенности на шкале (до- верительный интервал индивидуального балла), внутри которого оказывается статистически возможной локализация истинного балла данного испытуемого. Таким образом, для проверки гипотезы о значимости отличия балла испытуе- мого от среднего значения оказывается недостаточным только оценить ошибку среднего, нужно еще оценить ошибку измерения, обусловливающую разброс в положении индивидуального балла (рис. 8). Рисунок - 8. Соотношение распределений Sm – стандартное отклонение эмпири- ческого среднего, St – стандартное отклонение ошибки Для определения ошибки измерения применяют корреляционные мето- ды, позволяющие определить точность (надежность) через устойчивость и со- гласованность результатов, получаемых как на уровне целого теста, так и на уровне отдельных его пунктов. Надежность целого теста имеет две разновидности. 1. Надежность-устойчивость (ретестовая надежность). Измеряется с по- мощью повторного проведения теста на той же выборке испытуемых, обычно через две недели после первого тестирования. Для интервальных шкал подсчи- тывается хорошо известный коэффициент корреляции произведения моментов Пирсона: 2  x1i x2i x1i x2i  r n12  ( x 21i  ( x 2 1i ) / n)( x 2 2i  x2i ) 2 / n) где х1i. - тестовый балл i-го испытуемого при первом измерении; х2i. - тестовый балл того же испытуемого при повторном измерении; n - количество испытуемых. Оценка значимости этого коэффициента основывается на несколько иной логике, чем это обычно делается при проверке нулевой гипотезы - о ра- венстве корреляций нулю. Высокая надежность достигается тогда, когда дис- персия ошибки оказывается пренебрежительно малой. 'Относительную долю дисперсии ошибки легко определить по формуле 2 S 2 S  e0 1 r12 S 2 x Таким образом, для нас существеннее близость к единице, а не отдален- ность от нуля. Обычно в тестологической практике редко удается достичь ко- эффициентов, превышающих 0,8. При г = 0,75 относительная доля стандартной ошибки равна 1 0,75  0,5 . Этой ошибкой, очевидно, нельзя пренебречь. При такой ошибке эмпирически полученное отклонение индивидуального тестового балла от среднего по выборке оказывается, как правило, завышенным. Для того чтобы выяснить «истинное» значение тестового балла индивида, применяется формула x  rxi  (1 r)x где x - истинный балл; хi – эмпирический балл i-го испытуемого; r – эмпирически измеренная надежность теста; x - среднее для теста. Предположим, испытуемый получил балл IQ по шкале Стэнфорда-Бине, равный 120 нормализованным очкам, М = 100, г = 0,9. Тогда истинный балл x = 0,9  120 + 0,1  100 =118. Конечно, требование ретестовой надежности является корректным лишь по отношению к таким психическим характеристикам индивидов, которые сами являются устойчивыми во времени. Если мы создаем тест для измерения эмо- циональных состояний (бодрости, тревоги и т. д.), то, очевидно, требовать от него ретестовой надежности бессмысленно: у испытуемых быстрее изменится состояние, чем они забудут свои ответы по первому тестированию. Для шкал порядка в качестве меры устойчивости к перетестированию используется коэффициент ранговой корреляции Спирмена: 6d 2i p 1 n(n 2 1) , где di – разность рангов /-го испытуемого в первом и втором ранговом ряду. С помощью компьютера определяется более надежный коэффициент ранговой корреляции Кендалла (1975). 2. Надежность – согласованность (одномоментная надежность). Эта разновидность надежности не зависит от устойчивости, имеет осо- бую содержательную и операциональную природу. Простейшим способ ее из- мерения СОСТОИТЕ коррелировании параллельных форм теста (А. Анастази). Чаще всего параллельные формы теста получают расщеплением состав- ного теста на «четную» и «нечетную» половины: к первой относятся четные пункты, ко второй – нечетные. По каждой половине рассчитываются суммар- ные баллы и между двумя рядами баллов по испытуемым определяются допу- стимые (с учетом уровня измерения) коэффициенты корреляции. Если парал- лельные тесты не нормализованы, то предпочтительнее использовать ранговую корреляцию. При таком расщеплении получается коэффициент, относящийся к половинам теста. Для того чтобы найти надежность целого теста пользуются формулой Спирмена-Брауна: 2r r xxx  1 r x где rx - эмпирически рассчитанная корреляция для половин. Коэффициент расщепленной надежности Спирмена-Брауна [Spearman- Brown split-half reliability coefficient], также называемый коэффициентом пред- сказания Спирмена-Брауна [Spearman-Brown prophecy coefficient] (не следует путать с упоминавшимся выше усиленным коэффициентом надежности Спир- мена-Брауна), является формой измерения расщепленной надежности. Коэффи- циент предсказания Спирмена-Брауна используется для оценки надежности полного теста, основываясь на корреляциях между его половинами. Общее «правило большого пальца»: значение .80 и выше считается удовлетворитель- ной надежностью, 90 и выше хорошей надежностью. Однако для эксплоратор- ных исследования не считается чем-то необычным отсечка 60. Делить тест на две половины можно разными способами, и каждый раз получаются несколько разные коэффициенты (Аванесов В. С.), поэтому в пси- хометрике существует способ оценки синхронной надежности, который соот- ветствует разбиению теста на такое количество частей, сколько в нем отдель- ных пунктов. Такова формула Кронбаха:  j   S 2   j k  j1  a  1 k 1  S 2   x      где а – коэффициент Кронбаха; k – количество пунктов теста; S 2j - дисперсия по j-му пункту теста; S 2x - дисперсия суммарных баллов по всему тесту. Альфа Кронбаха [Cronbach's alpha] является наиболее распространенной формой коэффициента Надежности внутренней согласованности. Альфа равен 0, когда истинная оценка не измеряется вовсе, и в наблюдаемой оценке содер- жится только компонент ошибки. Альфа равен 1.0, когда все пункты измеряют только истинную оценку и в наблюдаемой оценке отсутствует компонент ошибки. Альфа Кронбаха можно интерпретировать как процент дисперсии, кото- рый наблюдаемая шкала объясняла бы в гипотетической истинной шкале, объ- единяющей все возможные пункты в данной области. Или же его можно интер- претировать как корреляцию наблюдаемой шкалы со всеми возможными дру- гими шкалами, измеряющими такой же конструкт и использующими такое же количество пунктов. Следует отметить, что альфа Кронбаха повышается с увеличением числа пунктов в шкале даже при контроле такого же уровня усредненной интеркорре- ляции пунктов. Это предполгает, конечно, что добавляемые пункты не являют- ся плохими пунктами по сравнению с существующим набором. Увеличение ко- личества пунктов может быть способом подвинуть альфа до приемлемого уровня. Это отражает допущение, что шкалы и инструменты с большим числом пунктов являются более надежными. Это также означает, что сравнение уров- ней альфа между шкалами с различающимся количеством пунктов не является справедливым. Обратите внимание на структурное подобие формулы Кронбаха и фор- мулы Рюлона. Несколько раньше была получена формула Кьюдера – Ричардсона, ана- логичная формуле Кронбаха для частного случая – когда ответы на каждый пункт теста интерпретируются как дихотомические переменные с двумя значе- ниями (1 и 0):  k   S 2 x  p j q j  k  j1  KR20  k 1 S 2   x    где KR20 – традиционное обозначение получаемого коэффициента; p q - дисперсия i-и дихотомической переменной, какой является j j N(«верно») i-й пункт теста; р = , q = 1 - p n В 1957 г. Дж. Ките предложил следующий критерий для оценки стати- стической значимости коэффициента a: 2 k(n 1)X n1  k(1 a)  a где X 2 - эмпирическое значение статистики % квадрат с п-1 степенью n1 свободы; k - количество пунктов теста; n - количество испытуемых;. a - надежность. Формулы позволяют оценить взаимную согласованность пунктов теста, используя при этом только подсчет дисперсий. Однако коэффициенты а и KR2I> позволяют оценить и среднюю корреляцию между i-м и j-м произвольными пунктами теста, так как связаны с этой средней корреляцией следующей фор- мулой: krij a  1 (k 1)rij где rij - средняя корреляция между пунктами теста. Легко увидеть идентичность формулы обобщенной формуле Спирмена-Брауна, позволяющей прогнозировать повышения синхронной надежности теста с увеличением коли- чества пунктов теста в k раз (Аванесов В. С.). Из этой формулы видно, что при больших k малое значение rij может сочетаться с высокой надежностью. Пусть rij = 0,1, a k =100, тогда по формуле 100  0,1 10 a    0,91 1 99  0,1 10,9 Широкое распространение компьютерных программ факторного анализа для исследования взаимоотношений между пунктами теста (по одномоментным данным) привело к обоснованию еще одной достаточно эффективной формулы надежности теста, которой легко воспользоваться, получив стандартную распе- чатку компьютерных результатов факторного анализа по методу главных ком- понент: k  1    1  k 1    1  где θ - коэффициент, получивший название тета-надежности теста; k – количество пунктов теста; λ1 – наибольшее значение характеристического корня матрицы интеркорреляций пунктов (наибольшее собственное значение, или аб- солютный вес первой главной компоненты). Как и предыдущие формулы, формула также относится к оценке надеж- ности теста, направленного на измерение одной характеристики. Но, кроме то- го, она применима и для многофакторного теста, хотя и нуждается в пересчете после первоначального отбора пунктов, релевантных фактору (после того, как на основании многофакторного анализа отобраны пункты по одному фактору, снова проводится факторный анализ - только для этих отобранных пунктов). Надежность отдельных пунктов теста. Надежность теста обеспечивается надежностью пунктов, из которых он состоит. Чтобы повысить ретестовую надежность теста в целом, надо отобрать из исходного набора пунктов, апроби- руемых в пилотажных психометрических экспериментах, такие пункты, на ко- торые испытуемые дают устойчивые ответы. Для дихотомических пунктов (ти- па «решил - не решил», «да - нет») устойчивость удобно измерять с использо- ванием четырехклеточной матрицы сопряженности: Тест 1 Да Нет a B Тест 2 Да c D Нет Здесь в клеточке а суммируются ответы «Да», данные испытуемым при первом и втором тестировании, в клеточке b – число случаев, когда испытуе- мый при первом тестировании отвечал «Да», а при втором - «Нет» и т. д. В ка- честве меры корреляции вычисляется фи-коэффициент: ad  bc   (a  b)(c  d)(a  c)(b  d) Как известно, значимость фи-коэффициента определяется с по мощью критерия хи-квадрат: X 21  2n Если вычисленное значение хи-квадрат выше табличного с одной степе- нью свободы, то нулевая гипотеза (о нулевой устойчивости) отвергается. Удоб- ство использования фи-коэффициента состоит в том, что он одновременно оце- нивает степень оптимальности данного пункта теста по силе (трудности): фи- коэффициент оказывается тем меньшим, чем сильнее частота ответов «да» от- личается от частоты ответа «нет». Кроме того, сама четырехклеточная матрица позволяет проследить воз- можную несимметричность в устойчивости ответов «да» и «нет» (это важнее для задач, чем для вопросов: например, может оказаться, что все испытуемые, уже решившие однажды данную задачу, решают ее при повторном тестирова- нии; это наводит на мысль о том, что при втором тестировании происходит сбережение опыта, приобретенного при первом тестировании). Выявленные в результате такого анализа неустойчивые и неинформативные (слишком силь- ные или слишком слабые) пункты должны быть исключены из теста. Пункты следует считать недостаточно устойчивыми, если на репрезентативной выборке величина 1 превышает 0,71. При этом φ< 0,5. Для того чтобы повысить одномоментную (синхронную) надежность те- ста, следует из исходной пилотажной батареи пунктов отбросить те, которые плохо согласованы с остальными. Стандартизованный альфа пунктов [standardized item alpha] является коэффициентом альфа, рассчитанным на основе стандартизованных оценок пунктов (когда дисперсии различных пунктов равны друг другу и составляют 0). Он также называется усиленным коэффициентом надежности Спирмена- Брауна [Spearman-Brown stepped-up reliability coefficient] или просто «Коэффи- циентом Спирмена-Брауна», однако эти термины не следует путать с коэффи- циентом расщепленной надежности Спирме-на-Брауна, обсуждаемым ниже. Различие между альфа Кронбаха и стандартизованным альфа пунктов характе- ризует меру различия дисперсий между пунктами шкалы. Стандартизованный альфа пунктов может использоваться для оценки изменения надежности, когда в инструменте или шкале меняется количество пунктов. В SPSS усиленный ко- эффициент надежности Спирмена-Брауна именуется «Cronbach's Alpha Based on Standardized items» (альфа Кронбаха, опирающийся на стандартизованные пункты) и приводится по умолчанию в таблице «Reliability Statistics» (статисти- ки надежности) окна вывода результатов вслед за коэффициентом альфа Крон- баха. rSB2 = (N* rave)/[1 + (N-1)* rave)] где rSB2 = усиленный коэффициент надежности Спирмена-Брауна = стандартизованный альфа пунктов rave = усредненные межпунктовые корреля- ции N = общее количество пунктов Надежность роу Рейкова [Raykov's reliability rho], также называемый надежностью роу или составной надежностью [composite reliability], прове- ряет возможность допущения, что в основе набора переменных лежит один об- щий фактор. Raykov (1998) продемонстрировал, что альфа Кронбаха может пе- ре- или недооценивать надежность шкалы. Наиболее распространенным случа- ем является недооценка. По этой причине роу сегодня предпочитается и может приводить к более высоким оценкам истинной надежности. Надежность роу Рейкова не следует путать с медианным роу Спирмена [Spearman's median rho], порядковой альтернативой альфа Кронбаха, обсуждаемой ниже. Приемлемая отсечка для роу будет той же самой, которую исследователь устанавливает для альфа Кронбаха, поскольку оба коэффи-циента пытаются измерить истинную надежность. Надежность роу Рейкова присутствует в окне вывода результатов компьютерной программы EQS. См. Raykov (1997), который приводит коды для EQS и LISREL для вычисления составной надежности. Graham (2006) описыва- ет вычисление надежности роу в компьютерной программе AMOS. Надежность роу Спирмена [Spearman's reliability rho]. Роу Спирмена яв- ляется формой вычисления роу для ранговой (порядковой) шкалы. Он рассчи- тывается по той же самой формуле, что и корреляция r Пирсона, но с использо- ванием ранговых, а не интервальных данных. Медианный роу между всеми па- рами пунктов в шкале является классическим измерением надежности в смысле внутренней согласо-ванности и как таковой является порядковой альтернативой альфа Кронбаха. Роу >.60 считается мини-мальным для удовлетворительной надежности. Его не следует путать с надежностью роу Рейкова. В ряде пособий показатель согласованности для пунктов называется дискриминативностью пунктов (Гайда В. К., Захаров В П., 1982). В отсутствие компьютера согласованность для пунктов также очень просто определяется с помощью четырехклеточной матрицы. В этом случае в первом столбце суммируются ответы испытуемых из «высокой» группы (пр ве- личине суммарного балла), во втором столбце - из «низкой». Высокая Низкая Да A B Нет C D При нормальном распределении частот суммарных баллов «высокая» и «низкая» группы отсекаются справа и слева 27%-ными маргинальными кванти- лями. Рисунок - 9. Квантили «высокой» и «низкой» группы на графике распределе- ния тестовых баллов Для оценки согласованности с суммарным баллом применяется полная или упрощенная формула фи-коэффициента: 2a  P1 1i  Pi (N * Pi ) где Pi - количество ответов «верно» («да») на i-й пункт теста; N* - сумма всех элементов матрицы; N* = n • 0,54 где n - объём выборки; Pi = а + b - При включении в эстремальную группу 1/3 выборки N* = 0,66 • n. В некоторых случаях подобный анализ позволяет уточнить ключ для пункта: если пункт получает значимый положительный фи-коэффициент, то ключ определяется значением «+1», если пункт получает значимый отрица- тельный фи-коэффициент значением «-1». Если пункт получает незначимый фи-коэфф.ициент, то его целесообразно исключить из теста. При ручных вычислениях фи-коэффициента удобно вначале с помощью формул определить граничное значение значимого (по модулю) фи- коэффициента. Например, при объеме выборки в 100 человек и уровне значи- мости р < 0,01 пороговое значение вычисляется так: 2 x0,01 6,63     0.27 n 100 При постоянном использовании компьютера при подсчете суммарных баллов ключ для каждого пункта Q целесообразно определить в виде самого фи-коэффициента (или другого коэффициента корреляции), определенного при коррелировании ответов на пункт с суммарным баллом. Тогда тестовый балл подсчитывается по формуле k xi RijC j , j1 где хi – суммарный балл i-го испытуемого; Rij - ответ «верно» (+1) или «неверно» (-1) i-го испытуемого на i-й пункт; Сi- ключ для i-го пункта: С = +1 для прямого, С= -1 для обратного. Более чувствительный коэффициент, который также применяется для дихотомических пунктов, - это точечный бисериальный коэффициент корреля- ции, учитывающий амплитуду отклонения индивидуальных суммарных баллов от среднего балла: 1 n  x *  pi x r npbi  S x pi qi где  x* - сумма финальных баллов тех индивидов, которые дали утвер- дительный ответ на i-й пункт теста (решили i-ю задачу); Sx - стандартное отклонение для суммарных баллов всех индивидов из выборки; piqi - стандартное отклонение по i-му пункту; x - средний балл по всем пунктам. А. Анастази относит критерий внутренней согласованности теста к ва- лидности, однако если и можно в данном случае говорить о валидности, то только в смысле особой внутренней валидности теста. Как правило, слишком высокая согласованность снижает внешнюю валидность теста по критерию. Ес- ли проверяется согласованность пунктов, составленных одним автором (одним коллективом по стандартной инструкции), то выявление достаточного набора согласованных пунктов свидетельствует о внутренней валидности (согласован- ности) разработанного диагностического понятия (конструкта). В компьютерных данных факторного анализа аналогом корреляции пункта с суммарным баллом является нагрузка пункта на ведущий фактор («факторная валидность» в терминах А. Анастази). Если прибегать к геометри- ческому изображению нагрузки как проекции вектора-пункта на ось-фактор, то структура пунктов хорошо согласованного теста предстанет в виде пучка век- торов, плотно прилегающих к фактору и вытянувшихся вдоль его оси (рис. 10). Рисунок - 10. Векторная модель соотношения «прямых» и «обратных» эмпири- ческих пунктов с релевантным (измеряемым) фактором и иррелевантными («шумо- выми») факторами Последовательность действий при проверке надежности: 1. Узнать, существуют ли данные о надежности теста, предполагаемого к использованию, на какой популяции и в какой диагностической ситуации проводилась проверка. Если проверки не было или признаки новых популяции и ситуации явно специфичны, провести заново проверку надежности с учетом указанных ниже возможностей. 2. Произвести повторное тестирование на всей выборке стандартизации и подсчитать все коэффициенты, как для целого теста, так и для его отдельных пунктов. Анализ полученных коэффициентов позволит понять, насколько пре- небрежима ошибка измерения, дает ли данный тест интервальную шкалу (вы- сокий r) или только диагностичен для крайних групп (высокий φ), насколько устойчиво измеряемое свойство во времени (возможен ли статистический про- гноз - проекция тестового балла на будущее), в каких своих пунктах тест менее надежен (анализ этих пунктов позволяет психологически осмыслить содержа- тельный механизм взаимодействия пунктов с испытуемыми). 3. Если возможности обследования испытуемых ограниченны, произве- сти повторное тестирование только на части выборки (не менее 30 испытуе- мых), подсчитать (вручную) ранговую или четырех-клеточную корреляцию для оценки внутренней согласованности и стабильности теста в целом. ГЛАВА 3 ВАЛИДНОСТЬ ТЕСТА 3.1 Содержательная характеристика валидности теста Высокая надежность теста это необходимое, но недостаточное условие получения высококачественного теста. Тест еще должен быть валидным. Ва- лидность – это важнейшая характеристика теста, без указания которой, его нельзя считать измерительным инструментом. Валидность теста – понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает. Следует иметь в виду, что название теста не может служить указанием на то, что он измеряет. Оно лишь позволяет опознать его. Набор пунктов сам по себе не может являться валидным или невалид- ным. Валидность также не является свойством тестовых баллов, полученных при суммировании пунктов теста. Валидность – это свойство авторской интер- претации тестовых баллов. Корректна ли авторская интерпретация тестовых баллов, полученных на наборе пунктов в термина операционализированного понятия диагностируемого свойства. Установить, какое свойство измеряет данный тест, можно, лишь ознако- мившись с объективными источниками информации и эмпирическими проце- дурами, применявшимися для установления его валидности (A. Anastasi, 1950). Более того, про валидность нельзя говорить обобщенно, например, что тест имеет высокую или низкую валидность. При ее определении всегда должно быть указано конкретное предназначение теста. Цель любой процедуры определения валидного теста – выяснить, как выполнение теста соотносится с другими независимо наблюдаемыми фактами исследуемых характеристик поведения. Приведем несколько определений валидности теста. Валидность означает пригодность тестовых результатов для той цели, ради чего проводилось тестирование (В.Аванесов). Валидность – это характеристика способности теста служить постав- ленной цели измерения (М.Челышкова). Валидность – определяет, насколько тест отражает то, что он должен оценивать (А.Майоров). Валидность – это характеристика теста, отражающая его способность получать результаты, соответствующие поставленной цели и обосновывающая адекватность принимаемых решений. Валидность по своей сути – это комплексная характеристика, включаю- щая, с одной стороны, сведения о том, пригодна ли методика для измерения то- го, для чего она была создана, а с другой – какова ее действенность, эффектив- ность, практическая полезность. Не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмот- реть исследователь, используются и разные способы доказательства. Иными словами, понятие валидности включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией. После создания теста начинается процесс его валидизации. Приведем определение: Валидизация – процесс накопления подтверждений для доказательства валидности теста. Валидизация – это не столько сбор доказательств валидности теста, сколько процесс выполнения действий, повышающих его валидность. Вслед- ствие этого будет расти и доказательная база валидности теста. Валидность в первом ее понимании (пригодна ли методика для измерения того, для чего она была создана) имеет отношение к сущности самой методики, т.е. это внутренняя валидность измерительного инструмента. Такая проверка называется теоретической валидизацией. Валидность во втором понимании (какова действенность, эффективность, практическая полезность методики) относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация. Обобщая, можно сказать следующее: - при теоретической валидизации исследователя интересует само свой- ство (конструкт), измеряемое методикой. Это, по существу, означает, что про- водится собственно психологическая валидизация - при прагматической валидизации суть предмета измерения (психологи- ческого свойства) оказывается вне поля зрения. Главный акцент сделан на то, чтобы доказать, что «нечто», измеряемое методикой, имеет связь с определен- ными областями практики. Теоретическая валидизация методики осуществляется путем доказатель- ства ее конструктной валидности. Конструктная валидность, обоснованная Л. Кронбахом в 1955 г., характеризуется способностью методики к измерению такой черты, которая была обоснована теоретически (как теоретический кон- структ). Когда сложно найти адекватный прагматический критерий, может быть выбрана ориентация на гипотезы, сформулированные на основе теорети- ческих предположений об измеряемом свойстве. Подтверждение этих гипотез свидетельствует о теоретической обоснованности методики. Сначала необхо- димо насколько возможно полно, содержательно описать конструкт, для изме- рения которого она предназначена. Достигается это за счет формулирования гипотез о нем, предписывающих, с чем данный конструкт должен коррелиро- вать, а с чем не должен. После этого данные гипотезы проверяются. Такой спо- соб наиболее эффективен для валидизации личностных опросников, поскольку установление единственного критерия их обоснованности является затрудни- тельным. В качестве конструкта могут выступать интеллект, черты личности, мо- тивы, установки и т.д. Обращение к конструктной валидности необходимо в тех случаях, когда результаты диагностических измерений используются не просто для предсказания поведения, а для выводов о том, в какой степени испытуемые обладают определенной психологической характеристикой. При этом измеряе- мая психологическая характеристика не может быть отождествлена с какой- либо наблюдаемой особенностью поведения, а представляет собой теоретиче- скую концепцию. Конструктная валидность имеет значение при разработке принципиально новых методик, для которых не определены внешние критерии валидности. Таким образом, провести теоретическую валидизацию методики – это доказать ее конструктную валидность, т.е. установить, что методика измеряет именно тот конструкт (свойство, качество), который она по замыслу исследова- теля должна измерять. Так, если какой-то тест разрабатывался для того, чтобы диагностировать умственное развитие детей, надо проанализировать, действи- тельно ли он измеряет именно это развитие, а не какие-то другие особенности (например, личность, характер и т.п.). Следовательно, для теоретической вали- дизации кардинальной проблемой является отношение между психологически- ми явлениями и их показателями, посредством которых эти психологические явления пытаются познать. Такая проверка показывает, насколько замысел ав- тора и результаты методики совпадают. Чаще всего конструктная валидность методики определяется через ее внутреннюю согласованность, а также через конвергентную и дискрими- нантную валидность. Еще одним способом определения конструктной валид- ности является факторный анализ. Внутренняя согласованность отражает то, насколько задания, вопросы, составляющие материал методики, подчинены основному направлению изме- ряемого как целого, ориентированы на изучение одного и того же явления. Анализ внутренней согласованности осуществляется путем коррелирования от- ветов на каждое задание с общим результатом методики. Так, если тест состоит из заданий, показавших значимую корреляцию с его общим баллом, то говорят, что тест обладает внутренней согласованностью, поскольку все его задания подчинены конструкту, представленному в тесте. Критерием внутренней согласованности является также корреляция меж- ду суммарным баллом методики и результатами выполнения отдельных ее ча- стей. Тесты, где в качестве конструкта выступает интеллект, всегда состоят из раздельно применяемых субтестов (таких, например, как осведомленность, ана- логии, классификации, умозаключения и т.д.), из результатов которых склады- вается общий балл теста. Значимые корреляции между результатами каждого субтеста и общим баллом также свидетельствуют о внутренней согласованно- сти всего теста. Кроме того, для доказательства внутренней согласованности используют- ся контрастные группы, которые формируются из испытуемых, показавших са- мые высокие и самые низкие суммарные результаты. Выполнение методики группой с высокими результатами сравнивается с выполнением группой с низ- кими результатами, и если первая группа справляется с заданиями лучше, чем вторая, методика признается внутренне согласованной. Как подчеркивает А. Анастази, критерий внутренней согласованности методики – это существенная мера ее однородности. Так как этот показатель помогает охарактеризовать область поведения или свойство, выборочно прове- ряемое методикой, то степень ее однородности имеет отношение к конструкт- ной валидности. Конечно, сама по себе внутренняя согласованность методики мало что может сказать о том, что она измеряет. Однако при наличии тщатель- но проработанных теоретических оснований создания методики, прочно обос- нованной научной базы эта процедура подкрепляет теоретические представле- ния о ее психологической сущности. Другой способ определения конструктной валидности предполагает оценку методики по двум показателям, противоположным друг другу. Важно сопоставить показатели валидизируемой методики, с одной стороны, с методи- ками, имеющими тот же теоретический конструкт, и, с другой – с методиками, имеющими другое теоретическое основание. Для этого используется предло- женная Д. Т. Кэмпбеллом и Д. В. Фиске процедура оценки конвергентной и дискриминантной валидности. Конвергентная валидность (от лат. – сходиться к одному центру, кон- вертировать) – это заключение о подобии (изоморфизм – гомоморфизм) данно- го метода (методики, теста, меры) другому методу, предназначенному для тех же целей (конвергентному, сходному). Она выражается в требовании статисти- ческой зависимости диагностических показателей, если они направлены на из- мерение концептуально родственных психических свойств индивида. При оценке паттерна корреляций между валидизируемым тестом и дру- гими переменными рассматривается конвергентная валидность. Конвергентная валидность – степень взаимосвязи баллов проверенного на валидность теста с показателями сходных психологических конструктов. Дискриминантная валидность (от лат. – разница, различие) – заключе- ние об отличии одного метода (методики, теста, меры) от другого, теоретически отличающегося от первого. Она выражается в отсутствии статистической зави- симости между диагностическими показателями, отражающими концептуально независимые свойства. Дивергентная валидность – степень того, насколько тестовые баллы не взаимосвязаны с показателями других конструктов, не связанных с исследуе- мым конструктом. Конвергентная и дискриминантная валидности – это виды критериаль- ной валидности. В эту категорию входят любые типы валидности, оценивае- мые с использованием независимого признака, являющегося критерием оценки, сравнения. Гетеропризнаковые – гетерометодные корреляции основаны на раз- личных психологических конструктах, измеренных различными методам. Гетеропризноковые – монометодные корреляции основаны на различ- ных психологических конструктах, измеренных одним и тем же методом (например, корреляция социальной компетентности и эмоционального интел- лекта). Монопризнаковые – гетерометодные корреляции основаны на сход- ных конструктах, измеренных разными методами (например, корреляции опросника социальной компетентности и экспертной оценки близкого знакомо- го по показателю социальной компетентности). Монопризнаковые – монометодные корреляции основаны на сходных конструктах, измеренных сходными методами (например, корреляция опросни- ка с самим собой для вычисления психометрической надёжности). Итак, процедура оценки конвергентной и дискриминантной валидности состоит в установлении одновременно как сходства, так и различия психологи- ческих феноменов, измеряемых новой методикой, с уже известными методика- ми. Она предполагает использование наряду с валидизируемой методикой спе- циальной батареи контрольных методик, подобранной таким образом, чтобы в нее входили как методики, предположительно связанные с валидизируемой, так и не связанные с пей. Экспериментатор должен заранее предсказать, какие ме- тодики будут высоко коррелировать с валидизируемой, а корреляции с какими методиками будут низкими. В соответствии с этим различают конвергентную валидность (проверка степени близости прямой или обратной связи) и дискри- минантную валидность (установление отсутствия связи). Методики, которые, но предположению, высоко коррелируют с валидизируемой, называются кон- вергирующими, а не коррелирующие – дискриминантными. Конструктная валидность может считаться удовлетворительной, если ко- эффициенты корреляций валидизируемой методики с группой конвергирующих методик статистически значимо выше коэффициентов корреляций с группой дискриминантных методик. Подтверждение совокупности теоретически ожидаемых связей составляет важный круг сведений конструктной валидности. В англоязычной психодиа- гностике такое операциональное определение конструктной валидности обо- значается как предполагаемая валидность (assumed validity). Наличие корреляции между новой и аналогичной по конструкту методи- ке, валидность которой ранее доказана, указывает на то, что разрабатываемая методика «измеряет» примерно то же психологическое качество, что и эталон- ная методика. И если новый метод одновременно оказывается более компакт- ным и экономичным в проведении и обработке результатов, то психодиагносты получают возможность использовать новый инструмент вместо старого. Такой прием особенно часто используется в дифференциальной психофизиологии при создании методик диагностики основных свойств нервной системы человека. Особое место в процедуре определения конструктной валидности занимает факторный анализ (факторная валидность). Он позволяет строго статистиче- ски проанализировать структуру связей показателей исследуемой методики, определить их факторный состав и факторные нагрузки, выявить скрытые при- знаки и внутренние закономерности их взаимосвязи. Итак, при теоретической валидизации методики требуется применение разнообразных экспериментальных процедур, способствующих накоплению информации о диагностируемом конструкте. Если эти данные подтверждают гипотезу, то тем самым подтверждается психологическая концепция, положен- ная в основу методики, и способность методики служить инструментом изме- рения этой концепции. Чем убедительнее подтверждение, тем определеннее можно говорить о валидности методики по отношению к психологической кон- цепции, положенной в ее основу. Важную роль для понимания того, что методика измеряет, играет сопо- ставление ее показателей с практическими формами деятельности. Но здесь особенно важно, чтобы методика была тщательно проработана в теоретическом плане, т.е. чтобы имелась прочная, обоснованная научная база. Тогда при сопо- ставлении методики с взятым из повседневной практики внешним критерием, соответствующим тому, что она измеряет, может быть получена информация, подкрепляющая теоретические представления о ее сущности. Важно помнить, что если доказана теоретическая валидность, то интер- претация полученных показателей становится более ясной и однозначной, а название методики соответствует сфере ее применения. Что касается прагматической валидизации, то она подразумевает про- верку методики с точки зрения ее практической эффективности, значимости, полезности, поскольку диагностической методикой имеет смысл пользоваться только тогда, когда доказано, что измеряемое свойство проявляется в опреде- ленных жизненных ситуациях, в определенных видах деятельности. Ей прида- ют большое значение особенно там, где встает вопрос отбора. Если обратиться к истории развития тестологии, то можно выделить та- кой период (1920-1930-е гг.), когда научное содержание тестов и их теоретиче- ский «багаж» интересовали в меньшей степени. Важно было, чтобы тест рабо- тал, помогал быстро отбирать наиболее подготовленных людей. Эмпирический критерий оценки тестовых заданий считался единственно верным ориентиром в решении научных и прикладных задач. Использование диагностических методик с чисто эмпирическим обосно- ванием, без отчетливой теоретической базы нередко приводило к псевдонауч- ным выводам, к неоправданным практическим рекомендациям. Нельзя было точно назвать те особенности, качества, которые выявляли, например, тесты. Б. М. Теплов, анализируя тесты того периода, назвал их «слепыми пробами». Такой подход к проблеме валидности методик был характерен вплоть до начала 1950-х гг. не только для США, но и для других стран. Теоретическая слабость эмпирических методов валидизации не могла не вызвать критики со стороны тех ученых, которые в разработке методик призывали опираться не только на «голую» эмпирику и практику, но и на теоретическую концепцию. Практика без теории, как известно, слепа, а теория без практики мертва. В настоящее время теоретико-прагматическая оценка валидности методик воспринимается как наиболее продуктивная. Для проведения прагматической валидизации методики, т.е. для оценки ее эффективности, действенности, практической значимости, обычно использу- ется независимый внешний критерий – показатель, обладающий непосред- ственной ценностью для определенной области практики. Таким критерием может быть и успеваемость (для тестов способностей к обучению, тестов до- стижений, тестов интеллекта), и производственные достижения (для методик профессиональной направленности), и эффективность реальной деятельности – рисование, моделирование и т.д. (для тестов специальных способностей), и субъективные оценки (для тестов личности). Критерий валидности – это независимый от теста, внешний по отноше- нию к тесту источник информации об измеряемом психическом свойстве. Мы не можем судить о валидности теста до тех пор, пока не сравним его результа- ты с источником истинной (или хотя бы заведомо валидной) информации об измеряемом свойстве – с критерием. В качестве критерия валидности, используемых при валидизации теста, на практике обычно используют: объективные социально-демографические и биографические данные (стаж, образование, профессия, прием и увольнение с работы); показатели успеваемости, чаще всего являющиеся критериальной ме- рой тестов способностей к обучению, достижений в отдельных дисциплинах, тестов интеллекта; производственные показатели эффективности выполнения отдельных видов профессиональной деятельности, имеющие наибольшее зна- чение при валидизации методик, используемых в профотборе и профориента- ции; результаты реальной деятельности (рисование, моделирование, музыка, составление рассказа и т.д.) при испытании тестов общих и специальных спо- собностей, личностных тестов; врачебный диагноз или другие заключения спе- циалистов; контрольные испытания знаний и умений; данные других методик и тестов, валидность которых считается установленной. Американские исследователи Д. Тиффин и Е. Маккормик, проведя анализ используемых для доказательства валидности внешних критериев, выделяют четыре их типа: 1) критерии исполнения (в их число могут входить такие, как количество выполненной работы, успеваемость, время, затраченное на обучение, темп ро- ста квалификации и т.п.); 2) субъективные критерии (они включают различные виды ответов, кото- рые отражают отношение человека к чему-либо или к кому-либо, его мнение, взгляды, предпочтения; обычно субъективные критерии получают с помощью интервью, опросников, анкет); 3) физиологические критерии (они используются при изучении влияния окружающей среды и других ситуационных переменных на организм и психику человека; замеряется частота пульса, давление крови, электросопротивление кожи, симптомы утомления и т.д.); 4) критерии случайностей (применяются, когда цель исследования каса- ется, например, проблемы отбора для работы таких лиц, которые менее под- вержены несчастным случаям). Внешний критерий должен отвечать трем основным требованиям: он должен быть релевантным, свободным от помех (контаминации) и надежным. Под релевантностью имеется в виду смысловое соответствие диагно- стического инструмента независимому жизненно важному критерию. Другими словами, должна быть уверенность в том, что в критерии задействованы имен- но те особенности индивидуальной психики, которые измеряются и диагности- ческой методикой. Внешний критерий и диагностическая методика должны находиться между собой во внутреннем смысловом соответствии, быть каче- ственно однородными по психологической сущности. Если, например, тест из- меряет индивидуальные особенности мышления, умение выполнять логические действия с определенными объектами, понятиями, то и в критерии нужно ис- кать проявление именно этих умений. Это в равной степени относится и к про- фессиональной деятельности. Она имеет не одну, а несколько целей, задач, каждая из которых специфична и предъявляет свои условия к выполнению. Из этого вытекает существование нескольких критериев выполнения профессио- нальной деятельности. Поэтому не следует проводить сопоставление успешно- сти по диагностическим методикам с производственной эффективностью в це- лом. Необходимо найти такой критерий, который по характеру выполняемых операций соотносим с методикой. Если относительно внешнего критерия неизвестно, релевантен он измеря- емому свойству или нет, то сопоставление с ним результатов психодиагности- ческой методики становится практически бесполезным. Оно не позволяет прийти к каким-либо выводам, которые могли бы дать оценку валидности ме- тодики. Требования свободы от помех (контаминации) вызываются тем, что, например, учебная или производственная успешность зависит от двух перемен- ных: от самого человека, его индивидуальных особенностей, измеряемых мето- диками, и от ситуации, условий учебы, труда, которые могут привнести поме- хи, «загрязнить» применяемый критерий. Чтобы в какой-то мере избежать это- го, следует отбирать для исследования такие группы людей, которые находятся в более или менее одинаковых условиях. Можно использовать и другой метод. Он состоит в корректировке влияния помех. Эта корректировка носит обычно статистический характер. Так, производительность следует брать нс по абсо- лютным значениям, а в отношении к средней производительности рабочих, ра- ботающих в аналогичных условиях. Дискриминативность пунктов – частное понятие для оценки степени, в которой пункт может влиять на внутреннюю согласованность. Дискриминатив- ность пунктов – степень, в которой пункт отличает людей, получающих высо- кий балл по всему тесту, от тех, кто получает низкий балл по всему тесту. Когда говорят, что критерий должен иметь статистически достоверную надежность, это означает, что он должен отражать постоянство и устойчи- вость исследуемой функции. Поиски адекватного и легко выявляемого критерия относятся к очень важным и сложным задачам валидизации. В западной тестологии много мето- дик дисквалифицировано только потому, что не удалось найти подходящего критерия для их проверки. Например, у большей части анкет данные по их ва- лидности сомнительны, так как трудно найти адекватный внешний критерий, отвечающий тому, что они измеряют. Оценка прагматической валидности методик может носить количествен- ный и качественный характер. Для вычисления количественного показателя – коэффициента валидно- сти – сопоставляются результаты, полученные при применении диагностиче- ской методики, с данными, полученными по внешнему критерию, тех же лиц. Используются разные виды линейной корреляции (по Спирмену, по Пирсону). Сколько испытуемых необходимо для расчета валидности? Практика по- казала, что их не должно быть меньше 50, однако лучше всего более 200. Часто возникает вопрос, какой должна быть величина коэффициента валидности, что- бы она считалась приемлемой? В целом отмечается, что достаточно того, чтобы коэффициент валидности был статистически значим. Низким признается коэф- фициент валидности порядка 0,20 0,30, средним – 0,30-0,50 и высоким – свыше 0,60. Но, как подчеркивают А. Анастази и К. М. Гуревич и другие авторы, не всегда для вычисления коэффициента валидности правомерно использовать линейную корреляцию. Этот прием оправдан лишь тогда, когда доказано, что успех в какой-то деятельности прямо пропорционален успеху в выполнении диагностической методики. Позиция зарубежных тестологов, особенно тех, кто занимается профпригодностью и профотбором, чаще всего сводится к безого- ворочному признанию того, что для профессии больше подойдет тот, кто больше выполнил заданий в тесте. Но может быть и так, что для успеха в дея- тельности нужно обладать свойством на уровне 40% решения теста. Дальней- ший успех в тесте уже не имеет никакого значения для профессии. Наглядный пример из монографии К. М. Гуревича: почтальон должен уметь читать, но чи- тает ли он с обычной скоростью или с очень большой скоростью – это уже не имеет профессионального значения. При таком соотношении показателей ме- тодики и внешнего критерия наиболее адекватным способом установления ва- лидности может быть критерий различий. Как показал опыт работы зарубежных тестологов, ни одна статистическая процедура не в состоянии полностью отразить многообразие индивидуальных оценок. Поэтому часто для доказательства валидности методик используют другую модель – клинические оценки. Это не что иное, как качественное опи- сание сущности изучаемого свойства. В этом случае речь идет об использова- нии приемов, не опирающихся на статистическую обработку. Коэффициенты надежности психологических измерений представляют собой величину дисперсии показателей, которая вычисляется путем возведения коэффициента корреляции в квадрат. Интерпретируется он следующим обра- зом. Например, коэффициент корреляции между параллельными формами теста равен 0.75. Коэффициент надежности расчитывается так: 0.752 = 0.56. Это означает, что 56% дисперсии исследуемых тестовых данных зависят от истин- ной дисперсии признаков (данных параллельного теста), а 44% – от ошибок или случайных переменных. Разберем гипотетический пример определения надежности двух форм те- ста** в ходе исследования креативности 100 школьников. В результате коэф- фициент надежности взаимозаменяемых форм с интервалом ретестирования две недели составил 0.7. Была вычислена надежность-гомогенность тестов при помощи формулы Спирмена – Брауна, которая составила 0.8. Надежность ин- терпретации («оценщика») с привлечением второго специалиста-психолога бы- ла равна 0.92. Анализ источников дисперсии ошибок показан в таблице. Таблиц 7 Анализ источников дисперсии ошибок в исследуемом тесте По надежности взаимозаменяемых форм (с 1 – 0.7 = 0.3 (ошибка ретеста + ошибка гомо- временным интервалом две недели) генности) По надежности эквивалентных половин теста 1 – 0.8 = 0.2 (ошибка гомогенности) (формула Спирмена – Брауна) Разность 0.3 – 0.2 = 0.1(ошибка ретеста) 1 – 0.92 = 0.08 (различия между интерпрета- По надежности интерпретации («оценщика») циями) Суммарная оценка дисперсии ошибок 0.2 + 0.1 + 0.08 = 0.38 Истинная дисперсия 1 – 0.38 = 0.62 Результаты исследования надежности теста креативности можно предста- вить схематично в процентном распределении дисперсии показателей теста. Таблица 8 «Истинная» диспер- Дисперсия ошибок: 38% сия: 62% Временная устойчи- вость; согласован- ность форм; незави- Ошибка гомогенно- Различия между ин- симость от различий Ошибка ретеста: 10% сти: 20% терпретациями: 8% между интерпрета- циями («оценщика- ми»). Критерии для оценки валидности. Как было отмечено ранее, оценива- ние валидности всегда проводится путем соотнесения характеристик результа- тов измерения с внешними критериями. В качестве таких критериев могут вы- ступать оценки экспертов при анализе содержания теста и его адекватности це- лям измерения (содержательная валидность), результатов по другим тестам (конструктная валидность), успешности дальнейшего обучения (прогностиче- ская валидность). Высокая корреляция между анализируемыми результатами испытуемых и внешними критериями подтверждает высокую валидность теста. Основная трудность при такой ваяидизации носит не практический» а методологический характер, поскольку она состоит в выборе значимого внешнего критерия. А. Анастази отмечает, что различают два типа валидности – внешнюю и внутреннюю*. Внешняя валидность есть мера возможности распростране- ния результатов тестирования на генеральную совокупность**. Внешняя ва- лидизация осуществляется путем расчета репрезентативности эксперимен- тальной выборки при отработке теста и перекрестной валидизации, то есть определения валидности теста на выборке, отличающейся от той, на которой отрабатывался стимульный материал и задания к тесту. Репрезентативность выборки – это представительность эксперимен- тальной выборки, которая отражает основные свойства генеральной сово- купности. Репрезентативность определяется путем сопоставления качествен- ных и количественных характеристик экспериментальной выборки с харак- теристиками исследуемой популяции с целью определения их однородности. К качественным характеристикам могут быть отнесены социально- демографические, видовые, интеллектуальные (образовательные), професси- ональные и другие характеристики популяции (группы), которые являются предметом исследования или существенно влияют на него. Количественная характеристика экспериментальной группы – это ми- нимальная ее численность, сохраняющая свойства генеральной совокупно- сти. Формирование репрезентативной выборки по количественному признаку осуществляется при помощи теоремы П.А. Чебышева о вероятности ошибки репрезентативности, которая гласит: «С вероятностью сколь угодно близкой к единице можно утверждать, что при достаточно большом числе независи- мых наблюдений выборочная средняя будет сколь угодно мало отличаться от генеральной средней» и далее (следствие 1 из теоремы П.Л. Чебышева) «...что с вероятностью, как угодно близкой к единице («практически досто- верно»), выборочная доля будет как угодно мало отличаться от генеральной доли, если объем выборки достаточно велик» В психологической литературе существует несколько теоретических подходов к расчету объема минимально репрезентативной выборки****. Ча- сто приводятся таблицы опытно полученных данных*****. Так, С. Москвин отмечает, что при объемах генеральной совокупности 400, 500, 1000, 2000, 5000, 10000 и более 10 тыс. человек минимальная выборка составляет соот- ветственно 200, 222, 286, 333, 370, 398 и 400 испытуемых (указ. публ., с. 28). Г. Лоза указывает на следующее соотношение генеральной совокупности и объема экспериментальной выборки при проведении социологических ис- следований 100/16-17 чел., 300/50 чел., 1000/100 чел. и 5000/200 испытуемых. В лекции А. Гончарова минимальная репрезентативная выборка относитель- но генеральной совокупности соответственно составляет: 500/222, 1000/286, 2000/333, 3000/350, 4000/360, 5000/370, 10 000/385, 100 000/398 и более 100 000 – 400 респондентов. В ходе анализа психологических данных для расчета объема мини- мальной репрезентативной выборки используются следующие формулы: 1) формула расчета объема минимальной репрезентативной выборки* при нахождении доли элементов генеральной совокупности, обладающих не- которым признаком (номинальная измерительная шкала): n = [N*t2*p*q] / [N*D2 + t2* p*q]; 2) формула расчета объема минимальной репрезентативной выборки** при нахождении средней признака (интервальная измерительная шкала): n = [N*t2*d2] / [N*D2 + t2*d2]; 3) формула расчета объема минимальной репрезентативной выбор- ки***: n = [(t*d/D)2] / [1 + 1 / N (t*d/D)2], где n – объем минимальной репрезентативной выборки испытуемых; t – коэффициент кратности ошибки, связанный с вероятностью гаран- тии ошибки выборочного наблюдения (величина t-критерия Стъюдента); d – величина стандартного отклонения; D – размер ошибки доверительного интервала измерения признаков; N – объем генеральной совокупности; р – частота проявления данного признака; q = 1 – р. Внутренняя валидность – это мера соответствия тестовых оценок уровню развития измеряемого свойства. Она состоит по крайней мере из пя- ти элементов: а) концептуальная (теоретическая) валидность – теоретическое обосно- вание возможности измерения исследуемого свойства данным психодиагно- стическим средством; б) содержательная валидность – степень репрезентативности содержа- ния заданий теста измеряемой области психических свойств; в) конструктная валидность – степень репрезентативности исследуемо- го психологического конструкта в результатах теста («насколько результаты теста рассматриваются в качестве меры исследуемого психологического кон- структа – фактора, свойства»)*; г) операционная валидность – степень репрезентативности в конкрет- ных экспериментальных операциях реальных операциональных условий психической деятельности; д) эмпирическая валидность – совокупность характеристик валидности теста, полученная сравнительным статистическим способом оценивания. К этим характеристикам относятся так называемые очевидная и критериальная виды валидности. Рассмотрим их подробнее в следующем параграфе. 3.2 Виды валидности Конкретных методов исследования подобных соотношений достаточно много. В Standards for Educational, 1974 эти методы распределяются по трем ос- новным критериям: (1) валидность по содержанию, (2) валидность по критерию и (3) конструктная валидность. Выделяют три вида валидности – содержательную, критериальную и конструктную. А. Майоров приводит следующую диаграмму видов валидности: Рисунок - 11. Виды валидности. М. Фер, В. Бакарак представляют современный взгляд на показтели, имеющие отношение к валидности теста. Рисунок - 12. Виды валидности. Обобщённо, учёные сходятся к следующей структуре валидности. Рисунок - 13. Структура валидности. Валидность по содержанию закладывается в тест уже при отборе соот- ветствующих заданий. Для тестов уровня знаний подготовке их заданий пред- шествует полная систематизированная проверка соответствующих учебников и учебных программ, а также консультации со специалистами по данному пред- мету. На основе собранной таким путем информации составляется специфика- ция теста для тех, кто будет составлять задания. В спецификации указываются тестируемые области содержания (темы), задачи (процессы) обучения, а также относительное значение каждой темы и прбцесса. На этой основе по каждой теме устанавливается число заданий различных типов. Удобной формой пред- ставления такой спецификации является таблица, горизонтальные графы кото- рой соответствуют темам, а вертикальные-процессам. Разумеется, не во все ячейки этой таблицы должны быть вписаны задания, поскольку некоторые процессы могут оказаться несовместимыми с определенными темами. Кстати сказать, подобные таблицы-спецификации полезны и для подготовки контроль- ных работ по любому предмету. Конструктная валидность (концептуальная валидность) определяется в случаях, когда представление об измеряемом свойстве существует в форме абстрактного образа, модели. Для объяснения определенных качеств личности создается концептуальная модель, которая с помощью тестов подтверждается или опровергается. Конструктная валидность теста демонстрируется полным, насколько это возможно, описанием переменной, для измерения которой предназначается тест. По сути дела, конструктная валидность включает в себя все подходы к определению валидности, которые были перечислены выше. Кронбах и Мил (Cronbach & Meehl,1955), которые ввели в психодиагностику понятие кон- структной валидности, пытались решить проблему отбора критериев при вали- дизации теста. Они подчеркивали, что во многих случаях ни один отдельно взя- тый критерий не может служить для валидизации отдельного теста. Можно считать, что решение вопроса о конструктной валидности теста представляет собой поиск ответа на два вопроса: 1) существует ли реально некоторое свойство; 2) надежно ли измеряет данный тест индивидуальные различия по этому свойству. Вполне понятно, что с конструкт- ной валидностью связана проблема объективности в интерпрета- ции результатов по изучению конструктной валидности, однако эта проблема общепсихологическая и выходит за рамки валидности (подробнее см. гл. 2). Из вышесказанного следует, что не существует какого-либо единичного показателя, с помощью которого устанавливается валидность психологического теста. В отличие от показателей надежности и дискриминативности, нельзя осуществить точные статистические расчеты, подтверждающие валидность ме- тодики. Тем не менее разработчик должен представить весомые доказательства в пользу валидности теста, что потребует от него психологических знаний и интуиции. Конкурентная валидность оценивается по корреляции разработанного теста с другими, валидность которых относительно измеряемого параметра установлена. П. Клайн отмечает, что данные о конкурентной валидности полез- ны тогда, когда есть неудовлетворительно работающие тесты для измерения некоторых переменных, а новые создаются для того, чтобы улучшить качество измерения. В самом деле, если уже существует эффективный тест, то для чего нужен такой же новый? Факторы снижения конструктной валидности: • Расплывчатое определение измеряемого конструкта; • Моно6операция: рассматривается только один аспект измеряемого конструкта; • Моно6метод: при изучении конструкта используется только один ме- тод; • Переоценка (эффект Хоторна); • Эффект социальной желательности; • Ожидания экспериментатора (эффект Розенталя); • Пренебрежение некоторыми факторами; • Несколько независимых переменных; • Взаимодействие между измерением и лечением; • Ограниченные обобщения аналогичных переменных. Критериальная валидность (эмпирическая валидность) предполагает наличие внешнего критерия, корреляция с которым определяет валидность те- ста. Имеется два вида критериальной валидности – текущая и прогностиче- ская. Текущая критериальная валидность (concurrent validity) характеризует способность теста измерять некоторые качества личности. Валидность теста подтверждается корреляцией с некоторым внешним критерием, существующим в данное время. Допустим, тест показал для некоторого испытуемого отличные знания по предмету, а школьные отметки, выставленные учителем – неудовле- творительные. Если мы в качестве внешнего, независимого и достоверного критерия выберем школьные отметки, то критериальная валидность теста – низкая, даже если он имеет высокую надежность. Прогностическая критериальная валидность (predictive validity) харак- теризует способность теста предсказывать будущие качества, формирующихся в результате воздействия внешних обстоятельств или целенаправленной соб- ственной деятельности. Этот тип валидности характеризует корреляцию ре- зультатов тестирования с внешним критерием, который появится в будущем. Прогностическая валидность устанавливается с помощью корреляции между показателями теста и некоторым критерием, характеризующим измеря- емое свойство, но в более позднее время. Например, прогностическая валид- ность какого- либо теста интеллекта может быть показана корреляцией его по- казателей, полученных у испытуемого в возрасте 10 лет, с академической успе- ваемостью в период окончания средней школы. Л. Кронбах считает прогности- ческую валидность наиболее убедительным доказательством того, что тест из- меряет именно то, для чего он был предназначен. Основная проблема, с кото- рой сталкивается исследователь, пытающийся установить прогностическую ва- лидность своего теста, состоит в выборе внешнего критерия. В особенной сте- пени чаще всего это касается измерения личностных переменных, где подбор внешнего критерия – чрезвычайно сложная задача, решение которой требует немалой изобретательности. Несколько проще обстоит дело при определении внешнего критерия для когнитивных тестов, однако и в этом случае исследова- телю приходится «закрывать глаза» на многие проблемы. Так, академическая успеваемость традиционно используется в качестве внешнего критерия при ва- лидизации тестов интеллекта, но в то же время хорошо известно, что успехи в обучении далеко не единственное свидетельство высокого интеллекта. Инкрементная валидность имеет ограниченное значение и относится к случаю, когда один тест из батареи тестов может иметь низкую корреляцию с критерием, но не перекрываться другими тестами из этой батареи. В этом случае данный тест обладает инкрементной валидностью. Это может быть по- лезно при проведении профотбора с помощью психологических тестов. Валидность инкрементная (англ, incremental – приращение, прибыль) – один из компонентов критериальной валидности, прогностической валидности теста, отражающий практическую ценность методики при проведении отбора. В. и. может быть выражена количественно при помощи валидности коэффици- ента. Показатель инкриментной валидности указывает на роль теста в улучше- нии отбора лиц для реальной деятельности, степень улучшения результативно- сти процедуры отбора по сравнению с традиционной, основанной на анализе объективных сведений, документов, бесед, приеме с испытательным сроком и т.д. Валидность инкрементная рассчитывается в зависимости от значений ин- декса отбора (доля поступивших по отношению к числу претендентов), коэф- фициента валидности теста, базового уровня (отношение между лицами, справ- ляющимися с критериальной деятельностью, и случайной выборкой лиц). При уменьшении индекса отбора значение коэффициента Валидность инкрементная значительно повышается при условии, что используемый тест обладает высо- кой валидностью. Определение величины коэффициента В. и. производится с помощью специальных таблиц (А. Анастази, 1982). Дифференциальная валидность может быть проиллюстрирована на примере тестов интересов. Тесты интересов обычно коррелируют с академиче- ской успеваемостью, но по-разному для разных дисциплин. Значение диффе- ренциальной валидности, так же как и инкрементной, ограничено. Содержательная валидность (content validity) характеризует тест по степени его соответствия предметной области. Содержательная валидность определяется через подтверждение того, что задания теста отражают все аспекты изучаемой области поведения. Обычно она определяется у тестов достижений (смысл измеряемого параметра полно- стью ясен!), которые, как уже указывалось, тестами собственно психологиче- скими не являются. На практике для определения содержательной валидности подбираются эксперты, которые указывают, какая область (области) поведения наиболее важна, например, для музыкальных способностей, а затем, исходя из этого, генерируются задания теста, которые вновь оценивают эксперты. Согласно А. Анастази, содержательная валидность означает системати- ческую проверку содержания теста, с тем чтобы установить, соответствует ли оно репрезентативной выборке измеряемой области поведения. Такая процеду- ра валидизации обычно применяется для тестов достижений. Содержательная валидность необязятельно означает полноту отображе- ния изучаемой дисциплины. Например, для нормативно-ориентированного те- ста, полнота охвата всех тем может быть меньше, чем для критериально- ориентированного. Здесь важнее глубина проработки отдельных подтем, во- просов. Это позволит с большей эффективность дифференцировать обучаемых. Под содержанием понимается не только совокупность фактов, понятий, терми- нов, но и умение применять имеющиеся знания, оценивать информацию, вы- полнять действия, соответствующие верхним уровням таксономии Блума. Для обеспечения содержательной валидности необходим детальный анализ учебных программ, на основании чего составляется спецификация теста. Спецификация содержит перечень учебных тем, их важность, количество и тип тестовых заданий. Оценка содержательной валидности выполняется экспертом в данной предметной области. Согласно П.Клайну содержательная валидность определяется следую- щим образом: 1) указать категорию лиц, для которой предназначен тест; 2) составить список знаний, умений, навыков, подлежащих тестирова- нию; 3) выполнить внешнюю экспертизу полученного списка на предмет его полноты и обоснованности; 4) на основе списка составить перечень заданий; 5) выполнить внешнюю экспертизу полученных заданий; 6) после проверки преобразовать их в задания в тестовой форме. В дальнейшем, на этой основе создать тестовые задания, образующие тест, ко- торый будет содержательно валидным. Проблема валидизации педагогического теста является, видимо, самой сложной в процедуре создания высококачественного измерительного инстру- мента. Синтетическая валидность. Критерии валидности не только различа- ются в зависимости от ситуации и времени, они также, по всей вероятности, до- статочно сложны по составу (J. M. Richards, С. W. Taylol P. В. Price, T.L. Jacobsen, 1965). Успех на работе, в школе, в повседневной жизни зависит не от одного, а от многих свойств. Отсюда и многогранность практических критери- ев. Поэтому для валидации теста могут быть использованы различные меры профессиональных навыков или успеваемости. Поскольку эти меры могут от- носиться к различным свойствам или комбинациям свойств, не удивительно, что коэффициенты валидности для одного и того же теста неодинаковы. Когда различные критериальные меры получают на одних и тех же испытуемых, их взаимокорреляция весьма низка. Например, может оказаться, что между числом несчастных случаев или количеством невыходов на работу и производительно- стью или частотой допускаемых ошибок не будет обнаружено практически ни- какой связи (S. E. Seashore, В. P. Indik, В. S. Georgopoulos, 1960). Эти различия, конечно, отражаются на коэффициентах валидности любого данного теста по отношению к различным критериальным мерам. Так, результаты теста могут не коррелировать значимо с оценками профессиональных навыков мастером и тем не менее оказаться валидными относительно более поздних данных ухода с ра- боты или продвижения по службе (L.E. Albright, W..Т. Smith, J.R. Glennon, 1959). Ввиду комплексности критерия валидация теста относительно сложного критерия профессиональных навыков, академической успеваемости и других аналогичных показателей часто представляет сомнительную ценность и обла- дает лишь локальной значимостью. В случае относительной независимости различных критериев более эффективна валидация теста относительно того ас- пекта критерия, на который этот тест ориентирован в первую очередь. Анализ этих более специфических соотношений осмысляет тестовые показатели с точ- ки зрения многомерности крите мриального поведения (М. D. Dunnette, 1963; R. L. Ebel, 1961; S. R. Wallace, 1965). Например, один тест может хорошо прогно- зировать скорость восприятия клерка и точность выполнения мелкой работы, другой-грамотность его письма, третий-способность сосредоточиться на вы- полняемой работе и т.д. Очевидная валидность – описывает представление о тесте, сложивше- еся у испытуемого. Тест должен восприниматься обследуемым как серьезный инструмент познания его личности, чем-то схожий с вызывающим уважение и в какой-то мере трепет медицинским диагностическим инструментарием. Оче- видная валидность приобретает особое значение в современных условиях, ко- гда представление о тестах в общественном сознании формируется многочис- ленными публикациями в популярных газетах и журналах того, что можно назвать квазитестами, с помощью которых читателю предлагается определить все, что угодно: от интеллекта до совместимости с будущим супругом. Очевидная валидность – это представление о тесте, сфере его примене- ния, результативности и прогностичес6 кой ценности, которое возникает у ис- пытуемого или другого лица, не располагающего специальными сведениями о характере использования и целях мето6 дики. Другими словами, очевидная валидность – это валидность с точки зре- ния испытуемого, то есть насколько, по его мнению, соответствует стимульный материал определённой ситуации исследования. • Высокая очевидная валидность является необходимым показателем. Она выступает в качестве мотиватора, побуждающего испытуемых к выполне- нию заданий теста. Очевидная валидность способствует более ответственному отношению к исследованию, к выполнению заданий теста и к заключениям, формулируемым психологом на основе проведённого исследования. • Представление пользователей методики об очевидной валидности в немалой степени зависит от её названия, инструкции, стимульного материала. Для формирования адекватного мнения испытуемых следует избегать размы- тых формулировок, которые могут быть истолкованы неоднозначно. Очевидная валидность повышается путём краткого описания методики и цели исследова- ния. При наполнении содержания методики важно обратить внимание на соот- ветствие терминологии стимульного материала лексикону выборки. Необходи- мо обладать информацией о возрасте испытуемых, половом составе, социаль- ном статусе, уровне образования, професси6 ональной специфики испытуемых и т. д. 3.3. Эмпирическая проверка валидности В современной психометрии разработаны десятки разнообразных спосо- бов проверки валидности диагностических методик, обусловленных их особен- ностями, а также временным статусом внешнего критерия. Однако чаще всего называются следующие способы. 1. Валидность «по содержанию» означает, что методика является валид- ной по мнению специалистов. Этот прием используется, например, в тестах до- стижений. Обычно в тесты достижений включается не весь материал, который прошли учащиеся, а какая-то его небольшая часть (3-4 вопроса). Можно ли быть уверенным в том, что правильные ответы на эти немногие вопросы свиде- тельствуют об усвоении всего материала? На это и должна ответить проверка валидности по содержанию. Для этого проводится сопоставление успешности по тесту с экспертными оценками учителей (по данному материалу). Валид- ность «по содержанию» также подходит критериально-ориентированным те- стам, поскольку в них используются экспертные методы. Специфичным явля- ется объект экспертизы – содержание теста. Эксперты должны оценить содер- жание заданий теста по их соответствию психическому свойству, объявляемо- му в качестве содержания валидизируемого теста. С этой целью экспертам предъявляются спецификация к тесту и список заданий. Если конкретное зада- ние полностью соответствует спецификации, то эксперт обозначает его как со- ответствующее содержанию теста. Иногда этот прием называют логической ва- лидностью или «валидностью по определению». 2. Валидность «по одновременности», или текущая валидность, опре- деляется с помощью внешнего критерия, по которому информация собирается одновременно с экспериментами по проверяемой методике. Другими словами, собираются данные, относящиеся к настоящему времени: успеваемость в пери- од испытания, производительность в этот же период и т.д. С ними сопоставля- ют результаты успешности по тесту. 3. «Предсказывающая» валидность (другое название – «прогностиче- ская» валидность). Определяется также по внешнему критерию, но информа- ция по нему собирается некоторое время спустя после испытания. Хотя этот прием наиболее соответствует задаче диагностических методик – предсказанию будущей успешности, применять его очень трудно. Точность диагноза находит- ся в обратной зависимости от времени, заданного для такого прогнозирования. Чем больше проходит времени после измерения, тем большее количество фак- торов требуется учитывать при оценке прогностической значимости методики. Однако учесть все факторы, влияющие на предсказание, практически невоз- можно. 4. «Ретроспективная» валидность. Она определяется на основе крите- рия, отражающего события или состояние качества в прошлом. Может быть использована для быстрого получения сведений о предсказательных возможно- стях методики. Так, для проверки того, в какой мере хорошие результаты теста способностей соответствуют быстрому обучению, можно сопоставить прошлые оценки успеваемости, прошлые экспертные заключения и т.д. у лиц с высокими и низкими на данный момент диагностическими показателями. Кросс-валидизация: Ключи, полученные путем поиска значимых корреляций пунктов теста с внешним критериальным показателем, нужно проверять на ДРУГОЙ выборке – не на той, на которой корреляции обнаружены. При наличии пула из 400 вопро- сов получется всегда 20 вопросов, которые дают корреляции, значимые на уро- вень 5-процентной вероятности ошибки. Валидность универсальных и специализированных тестов (предел прогно- стичности диспозициональных психич.свойств): Диапазон валидности для личностных универсальных тестов - 0.3-0.4 Диапазон валидности для интеллектуальных тестов - 0.4-0.6 Диапазон валидности для специализированных тестов - 0.5 - 0.7 При приведении данных о валидности разработанной методики важно точно указать, какой вид валидности имеется в виду (по содержанию, по одно- временности и т.д.). Желательно также сообщать сведения о численности и особенностях индивидов, на которых проводилась валидизация. Такая инфор- мация позволяет пользующемуся методикой психологу решить, насколько ва- лиден этот прием для той группы, к которой он собирается его применять. Как и в случае с надежностью, необходимо помнить, что в одной выборке методика может обладать высокой валидностью, а в другой – низкой. Поэтому если ис- следователь планирует использовать методику на выборке испытуемых, суще- ственно отличающейся от той, на которой проводилась проверка валидности, ему необходимо заново провести такую проверку. Приводимый в руководстве коэффициент валидности применим только к группам испытуемых, подобным тем, на которых он определялся. Эмпирическая валидность. Если в случае с содержательной ва- лидностью оценка теста производится за счет экспертов (устанавливающих со- ответствие заданий теста содержанию предмета измерения), то эмпирическая валидность измеряется всегда с помощью статистического коррелирования: подсчитывается корреляция двух рядов значений - баллов по тесту и показате- лей по внешнему параметру, избранному в качестве критерия валидности. Прагматические традиции западной тестологии привязывали эм- пирическую валидность теста к внешним для психологии социально- прагматическим критериям. Эти критерии являются показателями, обладаю- щими непосредственной ценностью для определенных областей практики. Практика всегда имеет целью либо повысить, либо понизить эти показатели. Например, в области педагогической психологии это «успеваемость» (которую надо повысить), в психологии труда это «производительность труда» и «теку- честь кадров», в медицине - «состояние здоровья пациента», в психологии управления - «совместимость», «срабатываемость» коллектива, в юридической психологии - «преступность» (которую надо понизить) и т. п. Ориентируясь непосредственно на эти категории, психолог, пытающийся скоррелировать результаты теста с этими показателями, фактически решает сразу две задачи: задачу измерения валидности и задачу измерения практиче- ской эффективности своей психодиагностической программы. Если получен значимый коэффициент корреляции, то можно считать, что решены с позитив- ным результатом сразу обе эти задачи. Но если корреляции не обнаружено, то остается неопределенность: либо невалидна сама процедура (тестовый балл не отражает, например, стрессоустойчивость оператора), либо неверна гипотеза о наличии причинно-следственной связи между психическим свойством и соци- ально значимым показателем (стрессоустойчивость не влияет на процент ава- рийных ситуаций). Таким образом, социально-прагматические критерии являются комплекс- ными: они позволяют измерить валидность-эффективность, но не каждое из этих двух свойств теста отдельно. На практике психолога часто ожидает и еще более сложная ситуация, когда заказчик требует от психолога на основании по- лученного диагноза сразу же определенных мер по вмешательству в ситуацию (отбор, консультирование, обучение и т. п.). В этом случае повышение показа- телей (достоверное по сравнению с контрольной группой) доказывает од- новременно и валидность-эффективность диагностики, и эффективность самого вмешательства. А отрицательный результат дает еще большую неопределен- ность, так как оказывается невозможным отделить неэффективность вмеша- тельства от низкой валидности диагностики. Ориентация на социально-прагматические критерии, приводящие к склейке понятий «валидности измерения» и «причинного прогноза по результа- там измерения», бесспорно, сдерживала и продолжает сдерживать развитие концептуального аппарата дифференциальной психологии. При этом суть само- го предмета измерения: измеряемого психического свойства - оказывается вне фокуса внимания не только заказчика, но и самого психолога, превращающего- ся в этом случае в тестолога, которого не интересует, что именно он измеряет, главное лишь, чтобы от этого «нечто» перекидывался мостик к полезному эф- фекту, обеспечивающему психологу социальное признание. Процедура эмпирической валидизации. Организация выборки при эм- пирической валидизации зависит от временного статуса критерия. Если этот критерий - событие в прошлом (ретроспективная валидизация), то к участию в психодиагностическом обследовании достаточно привлечь только тех испыту- емых, которые оказались на экстремальных полюсах по этому критерию. В ре- зультате применяется метод экстремальных (контрастных) групп. Коррелиро- вание с суммарным баллом по тесту оценивается с помощью бисериального ко- эффициента по формуле (3.2.17). При этом в статусе дихотомической перемен- ной (на месте отдельного пункта) оказывается сам критерий валидности:  x– сумма баллов по тесту, полученных «высокой» группой по критерию; pq - стандартная ошибка критерия, связанная с численностью «высокой» (р) и «низ- кой» (q) групп. Если критерий – будущее событие (проспективная валидизация), то вы- борка должна быть составлена с запасом – с учетом вероятного объема экстре- мальных групп в будущем. Например, нужно выяснить, позволяет ли диагно- стика темперамента прогнозировать повышенный риск психосоматических за- болеваний (гипертония, язва, астма и т. п.). Пусть на основании эпидемиологи- ческих исследований известно, что в течение трех лет из. 1000 здоровых людей этими болезнями заболевают 57 человек. Это означает, что превентивной (пре- дупреждающей) диагностикой должно быть охвачено около 2000 человек, что- бы получить численность «высокой» группы (заболевших) порядка 100 чело- век. Проспективная валидизация выявляет прогностическую эффективность диагностической процедуры. Высокая прогностическая валидность доказывает как валидность самого измерения, так и наличие предполагаемой причинной связи. Ретроспективная валидизация позволяет в лучшем случае решить только первую из двух задач. Например, если для исследования личностной предрас- положенности к совершению краж проведено обследование лиц, находящихся под следствием (т. е. уже совершивших преступление), то выявление акценти- рованных черт «тревожности», «агрессивности» и т. п. еще не может интерпре- тироваться как свидетельство причинных факторов преступности – эти черты могут быть лишь следствием сложившихся обстоятельств: лишение свободы, угрызения совести и т. п. (Ратинов А.Р., 1979). Во многих медико- психологических исследованиях был выделен особый диагностический син- дром «госпитализации», который обнаруживается у любой категории госпита- лизированных больных (обычно он выражается в повышении шкал «депрес- сии» и «ипохондрии» по MMPI – Шхвацабая, 1980). Очевидно, что подобные личностные сдвиги никак нельзя интерпретировать в смысле симптомов пред- расположенности к определенным психогенным заболеваниям, ибо они отно- сятся к следствиям, а не к причинам этих заболеваний. Конструктная валидность. В отличие от прагматической валидизации собственно психологическую валидизацию порой оказывается провести гораз- до труднее в силу отсутствия какого-либо более объективного внутрипсихоло- гического критерия, чем сам тест. Наиболее благополучная ситуация имеется тогда, когда для измерения данного свойства в психологии уже имеется процедура с известной валидно- стью. В этом случае корреляция между баллами двух тестов – линейная или ранговая - указывает на то, обладает ли новый тест конвергентной валидностью по отношению к старому. Если новый тест обнаруживает высокую конвергент- ность результатов со старым и одновременно оказывается более компактным и экономичным 'в проведении и подсчете, то психодиагносты получают возмож- ность использовать новый тест вместо старого. Однако во многих случаях для измеряемого свойства психодиагност не может найти в литературе ни одного уже апробированного теста с известной валидностью. В этом случае он может сформулировать ряд предсказательных гипотез о том, как будет коррелировать его новый тест с другими тестами, из- меряющими родственные характеристики испытуемых. Эти гипотезы выдвига- ются на основе теоретических представлений об измеряемом свойстве. Их под- тверждение указывает на валидность выдвигаемого конструкта, т. е. на кон- структную валидность теста. В западной литературе это операциональное определение конструктяой валыидности называется предполагаемой валидно- стью (assumed validity). Представления о конструктной валидности тестов постоянно развиваются с пополнением репертуара методик. Эмпирические исследования взаимосвязей результатов, получаемых с помощью разных методик, обогащают теоретиче- ские представления об измеряемых свойствах. С другой стороны, понятие конструктной валидности указывает на высо- кую зависимость эмпирических связей теста от теоретических представлений его автора об измеряемом свойстве. Для иллюстрации приведен пример взаи- моотношений между двумя популярными тест-опросниками: MAS Ж. Тейлор и EPI Г. Айзенка. Многочисленные корреляционные исследования, проведенные на репрезентативных выборках, показали, что шкала MAS (тревожность) Ж. Тейлор положительно коррелирует со шкалой «нейротизм» и отрицательно со шкалой «экстраверсия» Айзенка. Эти соотношения можно проиллюстрировать графически (рис. 10): вектор MAS оказывается расположенным в квадранте «Нейротизм - Интроверсия», образованном системой из ортогональных (стати- стически независимых) факторов EPL С точки зрения концепции Г. Айзенка, эти данные можно рассматривать как свидетельства низкой валидности шкалы Ж. Тейлор: MAS коррелирует не только с релевантным фактором «нейротизм», но и с иррелевантным фактором «интроверсия». С этой точки зрения, опросник EPI оказывается просто нечувствительным к особой разновидности «нейротиз- ма» - к нейротизму (тревожности) экстравертов; в перечне пунктов MAS отсут- ствуют высказывания, в которых могла бы проявиться тревожность экстравер- та. Однако с точки зрения тоготеоретического смысла, который приписывают показателям MAS К. Спенс и Ж. Тейлор, эта ситуация вполне закономерна, же- лательна и никак не является артефактом – следствием дефекта их диагности- ческого средства. Согласно К. Спенсу, пытавшемуся перенести на человеческое поведение теорию научения Халла, MAS измеряет общий уровень драйва - не- специализированного побуждения, которое достигает максимума как раз при сочетании нейротизма (специфическая активация по Г. Айзенку) и интро- версии (неспецифическая активация) Рисунок - 14. Векторная модель соотношения показателя «Тревожность» по тест- опроснику MAS с факторами тест-опросника EPI Таким образом, вовсе не всегда краткие названия тестов однозначно вы- ражают теоретический статус диагностического конструкта - понятия об изме- ряемом свойстве. Конвергентная и дискриминантная валидность. От того, как психолог определяет диагностический конструкт, зависит стратегия включения в тест определенных пунктов. Если Айзенк определяет свойство «нейротизм» как не- зависимое от экстраверсии-интроверсии, то это означает, что в его опроснике примерно поровну должны быть представлены пункты, с которыми будут со- глашаться невротичные интроверты и невротичные экстраверты (векторы этих пунктов должны быть примерно поровну распределены в правом и левом ниж- них квадрантах; см. рис. 14). Если же на практике окажется, что в тесте будут преобладать пункты из квадранта «Нейротизм-Интроверсия», то, с точки зре- ния теории Айзенка, это означает, что фактор «нейротизм» оказывается нагру- женным иррелевантным фактором - «интроверсией». (Точно такой же эффект возникает, если появится перекос в выборке - если в ней будет больше невро- тичных интровертов, чем невротичных экстравертов.) Для того чтобы не сталкиваться с такими сложностями, психологи хотели бы иметь дело с такими эмпирическими показателями (пунктами), которые од- нозначно информируют только об одном факторе. Но это требование реально никогда не выполняется: всякий эмпирический показатель оказывается детер- минированным не только тем фактором, который нам нужен, но и другими - иррелевантными задаче измерения (рис. 15). На рис. 15 постоянным для всех показателей является релевантный фак- тор А, но каждый раз он оказывается сопряжен с иррелевант-ными факторами - X, К и Z. Задача состоит в таком подборе пунктов, чтобы все потенциальные иррелевантные факторы были уравновешены, т. е. чтобы ни один из них не встречался бы чаще других на множестве показателей (пунктов), включенных в тест. Рисунок - 15. Связь эмпирических показателей П1, П2, П, с релевантным (изме- ряемым) фактором А и с иррелевантными («шумовыми») факторами X, Y, Z, обуслов- ливающими невалидность показателей Таким образом, по отношению к факторам, которые концептуально опре- деляются как ортогональные к измеряемому (встречающиеся с ним во всех комбинациях), составитель теста должен при отборе пунктов применить страте- гию искусственного балансирования (Готтсданкер Р., 1982); Соответствие пунктов измеряемому фактору обеспечивает конвергент- ную валидность теста. Сбалансированность пунктов относительно иррелевант- ных факторов обеспечивает дискриминантную валидностъ. Эмпирически она выражается в отсутствии значимой корреляции с тестом, измеряющим концеп- туально независимое свойство. С точки зрения теории Айзенка, тест Ж. Тейлор не обладает дискрими- нантной валидностью по отношению к факторам «экстраверсия-интроверсия», хотя и обладает определенной конвергентной валидностью по отношению к ре- левантному фактору - «нейротизм». Экспертная эмпирическая валидизация. В отсутствие какого-либо уже валидизированного теста, параллельно измеряющего изучаемое свойство, а также в отсутствие разработанного теоретического контекста, позволяющего проверять конструктную валидность; психодиагност оказывается перед необ- ходимостью привлечения экспертов к валидизации теста. В отличие от экс- пертного анализа содержания теста, эмпирическая экспертная валидизация предполагает работу экспертов не с тестом (лучше, чтобы о нем эксперты во- обще ничего не знали), а с испытуемыми из выборки стандартизации. Необходимо экспертам обеспечить стандартные условия для наблюдения за испытуемыми. Но не всегда такое стандартизованное наблюдение удается организовать. Даже если предприняты серьезные усилия по организации наблюдения за поведением испытуемых в какой-либо искусственной лабора- торной ситуации, такое наблюдение все равно будет значительно уступать по информативности полевому наблюдению - в естественных условиях. Если из- меряемое свойство теоретически определено как устойчивая универсальная черта личности – как диспозиция к инвариантному поведению в широком спек- тре ситуаций, то и отдельного полевого наблюдения окажется недостаточно для получения полноценного экспертного критерия валидности. Поэтому на практике часто прибегают к оценкам особого типа – к субъ- ективным оценкам, которые выносят испытуемому люди из его круга, имею- щие опыт реального общения с ним. С учетом этого, процедура оценивания приспосабливается к обычным людям, не являющимся психологами. На психо- лога падает большая нагрузка по составлению детальной инструкции оценщи- кам, однозначно задающей смысл оцениваемой характеристики. Лучшие усло- вия для такой процедуры возникают при наличии группы испытуемых, тесно общающихся между собой; тех, которые могут одновременно побывать и испы- туемыми Для того чтобы групповая оценка личности была источником дей- ствительно валидной информации, оценщики должны согласованно оценивать испытуемых. Если в оценках разных оценщиков нет согласованности, то это означает, что либо оцениваемое свойство не проявилось у объекта оценивания, либо оценщики по-разному проинтерпретировали инструкцию. Для измерения согласованности должна быть составлена таблица с оценками (табл. 9). Таблица 9 Оценщики О1 О2 … Оk  Испытуемые И1 x11 x12 … x1k C1 И2 x21 x22 x2k C2 … Иn xn1 xn2 xnk Cn Методы анализа данных, содержащихся в такой таблице, формально со- вершенно эквивалентны тем методам, которые применяются для обработки таблиц «испытуемые - пункты». В частности, суммы по строкам дают суммар- ные баллы, полученные каждым испытуемым у всех оценщиков. Таким обра- зом, оценщики в данном случае оказываются формально в роли пунктов теста. Рассчитывая попарные корреляции между различными столбцами этой табли- цы, можно получить коэффициенты согласованности для отдельных пар оцен- щиков. Глобальной мерой согласованности оценщиков может служить коэффи- циент надежности а Кронбаха. Если же групповая оценка не обнаруживает надежности, то она не может использоваться в качестве критерия валидизации при проверке валидности те- ста. Эмпирическое значение коэффициента валидности рассчитывается как линейная или ранговая корреляция между двумя рядами значений: тестовыми баллами и суммарными баллами экспертной оценки. Это эмпирическое значе- ние при наличии невысокого коэффициента надежности критерия корректиру- ют по формуле r r cxtx  ac r где cx - эмпирическая корреляция с критерием; ас – надежность критерия; rtx – корреляция с «истинным» критерием («истинная» валидность теста). Анализ пунктов по критерию валидности. Валидность всего теста целиком зависит от валидности входящих в него пунктов. Максимальная валидность достигается за счет отбора таких пунктов из пилотажной батареи, которые, обладая значимой корреляцией с критерием, минимально коррелируют между собой. Отбор пунктов именно по критерию валидности обеспечивает максимальную прагматическую эффективность теста. Вручную (на калькуляторе) такой отбор можно произвести, рассчитав бисери- альную корреляцию (или фи-корреляцию) критерия с каждым пунктом из пи- лотажной батареи. Компьютер позволяет использовать более эффективный ал- горитм, основанный на анализе частных корреляций между критерием и пунк- тами и предполагающий построение уравнения множественной регрессии (Аванесов В. С.). В результате в таком уравнении каждый пункт получает весо- вой коэффициент, количественно выражающий его вклад в критерий, не своди- мый к вкладу других пунктов, т. е. поиск оптимального набора пунктов автома- тизируется. X. Гаррет приводит следующую яркую иллюстрацию эффективно- сти алгоритма, позволяющего подобрать оптимальный набор пунктов. Пусть имеется 20 пунктов, каждый из которых имеет корреляцию с критерием поряд- ка 0,30. Оказывается, если эти пункты в среднем коррелируют друг с другом на r уровне ij = 0,60, то множественная корреляция суммарного тестового показа- теля с критерием равняется 0,38, если же га = 0,30, множественная корреляция повышается до 0,52. Наконец, при rtj= 0,10 эффективность (валидность) теста достигает весьма высокого уровня: 0,79. Те же самые проблемы возникают при подборе оптимальной батареи тестов, направленных на прогнозирование како- го-то одного социально ценного показателя (успеваемость, производительность труда и т. п.). Тест, обладающий высокой критериальной валидностью должен давать монотонную зависимость величины критерия от тестового балла. Для того что- бы получить монотонную линию регрессии, психодиагност должен включить в тест X только такие пункты, которые являются валидными по критерию С. В противном случае на кривой неминуемо появятся провалы. Крутизну линии ре- грессии можно существенно повысить за счет нацеленного отбора из первона- чальной батареи только таких заданий, которые обладают значимо высокой корреляцией (или регрессионным коэффициентом в уравнении множественной регрессии) с критерием. После отбора валидных пунктов должна быть произведена перекрестная валидизация (см. Анастази А.). В чем ее смысл? Если при анализе корреляций между батареей из 200 заданий и каким-то критерием получают 10 заданий, значимо коррелирующих е критерием на уровне ошибки р < 0,05, то это может быть следствием чисто случайного совпадения (сравните 10/200=0,05). Чтобы убедиться в том, что отобранные пункты теста действительно могут различать (или прогнозировать) критерий, нужно рассмотреть, как коррелируют с крите- рием эти пункты на другой выборке, которая не использовалась при их отборе. Простой метод реализации принципа перекрестной валидизации состоит в том, что вся выборка делится на две случайные половины и производится раздельный расчет корреляций пунктов с критерием для-. каждой половины выборки. Если выделенные (значимые) пункты совпадают, то перекрестную ва- лидизацию можно считать удачной. Метод критериального тестирования очень трудоемок. Практически не- возможно построить критериальный тест за счет одной статистики, сколь бы мощными выборками и батареями заданий мы ни располагали. Необходима ра- бота над содержательной валидностью заданий. Критериальное тестирование имеет ограниченное применение в задачах построения методик с широкой об- ластью применения. Следует еще раз подчеркнуть, что анализ валидности отдельных пунктов служит не только прагматическим целям, но может и должен служить целям углубления представлений о содержательно-теоретическом смысле измеряемо- го свойства: на основании содержательного анализа пунктов, отобранных по критерию, психолог уточняет и корректирует свою первоначальную теоретиче- скую схему, свое понимание измеряемого свойства. Достоверность самоотчета. Рассматривая общую проблемы валидности целесообразно выделить вопрос об обеспечении валидности процедур стандар- тизованного самоотчета. Сюда относятся различные техники шкалирования, классифицирования, сравнения и тест-опросники. Вербальная форма тестового материала порождает у испытуемого определенные встречные гипотезы о цели тестирования. Если ситуация диктует испытуемому необходимость фальсифи- кации ответов, то он редко отказывается от этой возможности. Валидность – характеристика любых измерений, в том числе и физиче- ских. Специфические проблемы валидности, связанные с активностью человека как объекта психодиагностики, целесообразно обозначить особым образом - проблемы обеспечения достоверности. Психологические факторы, от которых зависит достоверность са- моотчета, условно можно сгруппировать в следующие классы: 1. Факторы знания. У испытуемого может быть более или менее четкое представление о следующем: а) свойственно ли ему в действительности или нет тестируемое поведенческое проявление (с некоторыми ситуациями, имплицит- но подразумеваемыми в вопросе тест-опросника, испытуемый мог на практике никогда не встречаться: например, утверждение «После выигрыша в спортлото Вы покупаете больше лотерейных билетов» подразумевает, что испытуемый, во-первых, играет в спортлото и, во-вторых, выигрывает); б) какое личностное свойство скрывается у психолога за тем или иным конкретным поведением, описанным в суждении; в) как это свойство соотносится с общепринятыми мо- ральными нормами и признаками социального успеха. 2. Фактор социальной желательности. Обозначает тенденцию испытуемо- го давать о себе социально одобряемую информацию. Сила этой тенденции за- висит как от общей внеситуативной установки испытуемого на морализацию «Я-образа» и социальную успешность, так и от того, насколько эту установку актуализирует сама ситуация тестирования. Однако эта тенденция не будет да- вать систематического искажения, если испытуемые не смогут разгадать направленность теста-опросника и связать диагностируемое свойство с тем или иным полюсом социальной желательности. Таким образом, действие этого фак- тора до некоторой степени опосредовано действием факторов знания. Однако при диагностике личностных свойств, тесно связанных с психической «нор- мальностью» или «социальной успешностью», фактор социальной желательно- сти ответа обусловливает очень серьезные искажения. 3. Факторы индивидуальной тактики. Здесь подразумевается действие «Я- концепции» («Я» для себя) и «Я-образа» («Я» для других) на ситуативную так- тику испытуемого в момент тестирования. Выполняя тест, испытуемый всегда находится в невольном диалоге с самим собой и в своих ответах на вопросы раскрывает себя не только для других, но и для себя самого. Испытуемый стре- мится подтвердить «Я-концепцию» или фальсифицировать определенный «Я- образ» с заданными свойствами. Как правило, в ситуациях высокого социаль- ного риска «Я-образ» полностью доминирует: например, преступник при экс- пертизе стремится прежде всего предстать больным или неприспособленным к жизни, хотя в действительности ему было бы приятно думать о себе как о вполне адаптированном здоровом человеке. Точно так же склонны подчерки- вать свои трудности и проблемы клиенты, обратившиеся за помощью к психо- логу или психотерапевту (чтобы вызвать к себе его повышенное внимание). В менее регламентированных ситуациях, наоборот, может доминировать мотива- ция самопознания: в этом случае испытуемый невольно стремится подтвердить с помощью теста свои гипотезы о самом себе. Заслуживают внимания и особые формы отказа испытуемого от тестиро- вания: позиционный стиль ответа (соглашательство или, наоборот, отрицание), случайные ответы. Для выявления подобных отказов обычно достаточно до- вольно простых мер: 1) для исключения влияния соглашательства (отрицания) применяются перечни с «прямыми» (ответ «верно» в пользу измеряемого свой- ства) и «обратными» (ответ «неверно» в пользу измеряемого свойства) пункта- ми. Кроме того, производится подсчет баланса подтверждающих и отвергаю- щих ответов: если баланс резко нарушается, то протокол признается бракован- ным; 2) для выявления случайных ответов в большие перечни вводят вопросы- дубли (синонимические перефразы) или прямые повторы: если испытуемый слишком часто по-разному отвечает на одинаковые вопросы, значит, он приме- няет случайную тактику. Вводят также и крайне редкие утверждения, с кото- рыми испытуемые, как правило, соглашаются только по ошибке. Более изощренные методы требуются для борьбы с социальной жела- тельностью. Ниже рассмотрены три наиболее часто используемых варианта. 1. Введение особых «шкал лжи» в диагностический вариант методики. Они составляются из вопросов-ловушек: тот или иной ответ на эти вопросы яв- но предопределен социальной желательностью. Если испытуемый набирает слишком высокий балл по этой шкале, его протокол бракуется. Более тонкий вариант – введение «шкал коррекции» (например, в MMPI): получение опреде- ленного балла по этим шкалам вызывает внесение поправок к баллу по другим шкалам, скоррелированным со шкалой коррекции. Величина поправок опреде- ляется коэффициентом линейной регрессии (измеренным в нормативном экс- перименте) между баллами, полученными по шкале коррекции и основной диа- гностической шкале (шкале свойства). 2. Устранение или сбалансирование социальной желательности с помо- щью использования инструкции на преднамеренную фальсификацию результа- тов. Участникам пилотажных замеров кроме обычной инструкции дается до- полнительная (во вторую очередь): «Заполните опросник от лица человека, же- лающего произвести самое благоприятное впечатление». Затем производится отбор пунктов на основании того, насколько процент ответов на них отличается от 50 процентов (значение, ожидаемое для пунктов, являющихся нейтральными с точки зрения социальной желательности). В качестве меры желательности в данном случае можно воспользоваться следующим коэффициентом: ~ N()  N() 2N()  n S   N()  N() n где N (+) – сумма ответов «верно» на данный пункт при инструкции на фальсификацию; N (-) - сумма ответов «неверно» в тех же условиях; n - объем выборки. Значимость коэффициента приближенно оценивается по критерию «хи- квадрат», определенному формулой, которой в правой части вместо φ подстав- ~ ляется S . Поскольку инструкция на преднамеренную фальсификацию создает усло- вия, в которых социальная желательность суждений акцентируется, то значи- ~ 2 мыми следует считать такие высокие по модулю значения S при которых xэмп , x2 превышает теоретическое значение гр для квантиля x2 р < 0,001. Из таблицы для распределения «хи-квадрат» находим гр =10,83. Таким образом, при наличии выборки объемом 50 человек ~ S  10,83/ 50  0,45 гр . Это означает следующее: если на i-й пункт более чем 36 испытуемых из 50 ответили «верно», то его нужно отнести к положительному полюсу шкалы социальной желательности, если менее чем 14 ответили «верно» – к отрицательному. Такие пункты должны быть либо полностью исключены из опросника (что редко удается), либо коли- чество положительных и отрицательных пунктов должно быть уравновешено. Таким образом могут быть отобраны и пункты для шкалы лжи. Суммар- ный балл по этой шкале распределяется так, как показано на рис. 12. В качестве критерия разделения испытуемых выбирается критическая точка, которая поз- воляет минимизировать ошибки типа «пропуск» (зачисление лживых испытуе- мых в число правдивых) и ошибки типа «ложная тревога» (зачисление правди- вых в число лживых). Положение критической точки на шкале можно менять в зависимости от баланса цены двух типов ошибок: в некоторых случаях «про- пуск» гораздо опаснее, чем «ложная тревога». Рисунок - 16. Смещение распределения тестовых баллов по «шкале лжи» к по- люсу высоких значений X при инструкции на выполнение теста-опросника с позиции «идеального» человека Фальсифицирующая инструкция используется также и для исследования степени «скрытности-открытости» формулировок вопросов. Например, испы- туемым дается инструкция на симуляцию высокой тревожности по опроснику MAS Ж. Тейлор. В этом случае, как это уже было показано, ответы на многие пункты значимо изменяются. Такие пункты являются слишком открытыми – они информируют испытуемого об измеряемом свойстве и позволяют ему вно- сить тенденциозные искажения в результаты в своих интересах. 3. С распространением факторного анализа чаще стала применяться стра- тегия «балансирования социальной желательности». При этом исследователь- психометрист задается целью обеспечить дискриминативную валидность свое- го теста относительно шкалы «социальной желательности». Это достигается с помощью факторного анализа корреляций между пунктами. Факторный анализ в применении к одномерному тесту-опроснику, как правило, выделяет два фак- тора: относящийся к самому измеряемому свойству и относящийся к социаль- ной желательности. На рис. 17 схематически представлено факторное про- странство для опросника «Склонность к риску». Рисунок - 17. Иллюстрация рассеяния векторов (., изображающих пункты теста- опросника в пространстве двух факторов: релевантного и иррелевантного. Выше и ни- же штриховых линий - области низкой достоверности Каждый вопрос представлен вектором, задаваемым проекцией на реле- вантный фактор – Склонность к риску и иррелевантные «Социальное одобре- ние» и «Социальное порицание». Требование конвергентной валидности по от- ношению к измеряемому свойству формулируется как требование к пунктам - иметь высокую проекцию (нагрузку) на горизонтальную ось. Дискриминатив- ная валидность по отношению к социальной желательности – это требование иметь пренебрежимо малую нагрузку на вертикальную ось. Очевидно, имеются два способа устранить эффект социальной желательности: либо выкинуть все пункты, нагруженные фактором социальной желательности (выше или ниже штриховых линий, либо уравновесить их количество на полюсах социальной желательности. Понятно, что при таком способе освобождения от социальной же- лательности диагностическая шкала всегда оказывается так называемой «ß- шкалой», в отличие от «а-шкал», у которых максимум желательности достига- ется на одном из полюсов, у «ß-шкал» максимум желательности достигается в «золотой середине», т. е. линия регрессии желательности по «бетта-шкале» ока- зывается криволинейной (рис. 18). Если применить такой метод к построению опросника «Склонность к риску – Осторожность», то в результате диагностиче- ский конструкт автоматически становится «бета-шкалой»: и слишком высокая склонность к риску, и излишняя осторожность – одинаково нежелательны, то- гда как оптимум лежит посередине между крайностями. Рисунок - 18. Схематическая иллюстрация «-шкалы, связанной с фактором со- циальной желательности монотонной зависимостью, и ß-шкалы, связанной с этим фактором криволинейно – с максимумом в области «золотой середины» Из трех перечисленных выше методов первый относится к отсеву испы- туемых и требует введения в перечень вопросов для шкалы «лжи». Второй и третий методы позволяют отобрать только такие пункты, которые обеспечива- ют устранение социальной желательности. Но они, как правило, трансформи- руют сам конструкт, который обязательно становятся ортогональным к соци- альной желательности. При необходимости диагностирования свойств, обяза- тельно коррелированных с желательностью, единственный метод состоит в применении шкал коррекции и корректирующих поправок, но и этот метод нельзя считать вполне надежным. Так что диагностика свойств, сопряженных с социальной желательностью, в ситуациях экспертизы всегда рискованна. С другой стороны, в ситуации, когда сам испытуемый заинтересован в точных результатах («ситуация клиента»), психодиагност может пользоваться тестами-опросниками, не опасаясь артефакта социальной желательности. Обычно в ходе практической проверки достоверности опросника психо- логу при обработке результатов пилотажного исследования приходится иметь дело с матрицей данных, подобной таблице, представленной на рис.19. Ключ по шкале лжи L изображен на рис. 10 в виде второго столбца – справа от столбца, содержащего ключ по основной диагностической шкале С. Если в строке k+1 зафиксированы баллы, подсчитанные по основному ключу, то в строке k+2 - баллы, подсчитанные по ключу для шкалы лжи. Баллы Хk+2 отражают величину тенденции диссимуляции (социальной желательности) у данного испытуемого (низкие значения Хk+2 отражают тенденцию симуляции асоциальности или агравации - отягощения психической дезадаптации). Рисунок - 19 Схематическое представление таблицы «пункты (t) - испытуемые (S)», вектора суммарных баллов Хk+1, вектора с баллами по шкале лжи Хk+2, вектора С со значениями ключа по основной шкале, вектора L с ключом по шкале лжи Для успешного использования шкалы лжи пункты, относящиеся к этой шкале (имеющие ненулевые значения L), должны быть перемешаны в тестовом буклете с пунктами-вопросами, тестирующими основное психическое свойство (в противном случае если все они собраны вместе - достоверность искусственно возрастает). Оценка достоверности пунктов достигается с помощью статистической процедуры, аналогичной процедуре измерения внутренней валидности пунктов (надежности-согласованности): если при измерении внутренней валидности следует прокоррелировать каждую строку 1, 2,..., k со строкой k+l, то при изме- рении достоверности следует прокоррелировать каждую строку 1, 2,..., k со строкой k+2 (подходят точечно-бисериальный или четырехклеточный коэффи- циенты корреляции). Наиболее высокие по модулю значения корреляции долж- ны быть получены в этом случае для пунктов, из которых составлена сама шка- ла лжи (это подтверждает ее консистентность, дифференцирующую силу для данной выборки). Положительная значимая корреляция для г (ti., Хk+2) пункта из основной шкалы Сi О указывает на то, что данный пункт оказывается «прямым» по шкале социальной желательности; отрицательная значимая кор- реляция указывает на то, что данный пункт является «обратным» по этой шка- ле. При подготовке особенно значимого психодиагностического обсле- дования, в котором надо принципиально исключить всякую возможность пред- намеренной фальсификации результатов, следует дополнить критерий оценки достоверности с помощью особой шкалы лжи еще одним критерием, основан- ным на использовании «фальсифицирующей инструкции», Для этого после обычной инструкции той же самой пилотажной выборке психолог дает ин- струкцию: «А теперь снова выполните задание, но старайтесь описать себя так, чтобы выглядеть максимально благоприятно в глазах большинства других лю- дей». В результате применения такой инструкции психолог получает дополни- тельную таблицу, аналогичную таблице ниже, только содержащую фаль- сифицированные данные. В таком случае кроме подсчета очень грубого индек- са «желательности» по формуле у психолога возникает возможность поэле- ментного сравнения ответов испытуемых на один и тот же вопрос в обычной и фальсифицированной диагностических ситуациях. Очевидно, что недостовер- ным следует считать вопрос, ответы на который будут изменены в фальсифи- цированной ситуации в определенном систематическом направлении. Здесь пригодится простейший критерий значимости изменений, основанный на рас- пределении «хи-квадрат» (Рунион Р., 1982, с. 57-61). Для каждого пункта стро- ится четырехклеточная матрица сопряженности: «После» + - «До» + А=40 В=36 С=22 D=48 Здесь в клеточке А указана частота сохранения ответа «верно» на некото- рый /-и вопрос (из 76 ответивших «верно» таких оказалось только 40 испытуе- мых), в клеточке В - частота изменения ответа «верно» на ответ «неверно» и т. д. Как видим, смена инструкции привела к значительным изменениям. Но для оценки значимого направления этих изменений автор критерия Макнимар предложил сравнивать между собой по критерию «хи-квадрат» только элемен- ты В и С этой матрицы: 2 x2 ( B  C 1) e  B  C 2 где xe - вычисленное эмпирическое значение статистики хи-квадрат с од- 2 ной степенью свободы. Для нашего примера xe =2,91, что ниже, чем граничное x2 значение гр =3,84, и, следовательно, нулевая гипотеза об отсутствии значимых направленных изменений не может быть отвергнута - пункт не является значи- мо нагруженным артефактным фактором социальной желательности и может быть включен в диагностический вариант теста-опросника без изменений. По результатам такого исследования удобно составить табличку К2: в первом столбце -показатели корреляции пунктов со шкалой лжи, во втором – показатели значимости изменений при переходе к фальсификации. Безусловно достоверными можно считать только те пункты, которые не получили значи- мых: коэффициентов ни в первом, ни во втором столбце. Если таких пунктов оказывается слишком мало для составления надежной шкалы и если среди не- достоверных пунктов достаточно много таких, которые обладают существен- ной внутренней (корреляция с суммарным баллом по основной шкале) или внешней (корреляция с критерием) валидностью, то следует прибегнуть к так- тике балансирования: ввести в основную шкалу одинаковое количество «пря- мых» и «обратных» пунктов по шкале социальной желательности так, чтобы все четыре квадранта были заполнены пунктами равномерно (среди «прямых» по основной шкале было бы поровну «прямых» и «обратных» по желательно- сти, и среди «обратных» по основной - также поровну). Без указанных предосторожностей тест-опросник неизбежно будет давать систематическое искажение результатов (в сторону повышения или понижения баллов по основной шкале) всякий раз, когда испытуемый будет квалифициро- вать диагностическую ситуацию как ситуацию экспертизы. Указанные проблемы и приемы обеспечения достоверности относятся не только к тест-опросникам, но и к другим техникам стандартизованного самоот- чета, подверженным мотивационным искажениям. Существует теоретическая возможность преодолеть все эти проблемы. Но на практике это оборачивается огромной эмпирико-методической работой. Другой путь – управление процессами категоризации в ходе самой диа- гностики. В так называемой «репертуарной модификации» тест-опросника ис- пытуемому специально предлагают выполнять тест не только от своего имени, но и от имени определенного репертуара ролей: «большинство людей», «мо- ральный человек», «преуспевающий человек» и т. п. (Шмелев А. Г. и др., 1984). Извлечение практических выгод из подобной модификации обусловлено воз- можностью компьютерной обработки результатов либо сразу же после тестиро- вания, либо даже в ходе самого тестирования. Порядок действий психолога при проверке валидности. Очень трудно вы- делить универсальный алгоритм работы психолога по проверке валидности, ибо существуют различные подходы к обеспечению валидности, обусловлен- ные теоретико-методологическими различиями определенных психологических школ. Для прагматически ориентированных тестологов (каковыми традиционно являлись до недавнего времени почти все англоамериканские специалисты) главный момент – поиск операционально строго заданного социально- прагматического критерия валидности, по отношению к которому диагностиче- ские тесты и их составные части (пункты) подбираются как бы автоматически в ходе эмпирико-статистических процедур сбора и корреляционного анализа ре- зультатов. Но, конечно, неверно было бы приписывать этому подходу «бездум- ность в опоре на статистику»: ведь статистика только тогда позволяет выявить валидное подмножество пунктов, когда исходное множество подобрано не слу- чайно – с использованием априорных корректных содержательно-психологи- ческих представлений. Современные методологи психологического тестирования фактически единодушно приходят к признанию (как наиболее оптимальной) рационально- эмпирической стратегии конструирования теста и проверки валидности. Пере- числим этапы этой стратегии. 1. Теоретический анализ диагностического конструкта, разработка теоре- тической концепции тестируемого психического свойства. Выявление (с ис- пользованием литературы) системы взаимосвязанных диагностических кон- структов, внутри которой новый диагностический конструкт характеризуется определенными структурно-функциональными связями и отношениями. Про- гнозирование результатов корреляционных экспериментов по проверке кон- структной валидности. 2. Выделение составных частей теоретического конструкта, фор- мулирование системы «эмпирических индикаторов» - операционально одно- значных показателей, фиксирующих проявление конструкта в различных пове- денческих ситуациях. Конструирование пунктов теста. 3. Формулирование релевантного социально-прагматического критерия для проверки валидности. 4. Планирование и проведение корреляционного исследования (или ква- зиэксперимента) на специально подобранной выборке испытуемых, для кото- рых известно значение критериального показателя, а также результаты по род- ственным психологическим тестам. При необходимости на этих испытуемых проводятся дополнительные тесты с целью получить возможность корреляци- онной проверки конструктной валидности теста (экспертные оценки в данном случае рассматриваются в статусе одной из возможных параллельных процедур получения критериальной или психологической информации). Оценка валид- ности эмпирических индикаторов. 5. Исследование достоверности результатов (если используется самоотчет и диагностическая ситуация может быть воспринята испытуемыми с насторо- женностью). Оценка достоверности эмпирических индикаторов. 6. Отсев пунктов, не удовлетворяющих критериям валидности и досто- верности. Измерение надежности для сокращенной шкалы, состоящей только из валидных пунктов. Если надежность оказывается невысокой, то психолог снова возвращается к этапу 1 – уточняет теоретические представления. Валидность и надежность. Валидность (или обоснованность) всякой процедуры измерения состоит в однозначности (устойчивости) получаемых результатов относительно измеряе- мых свойств объектов, т, е. относительно предмета измерения. Отличие поня- тия валидности от надежности измерения удобно раскрывать с помощью раз- личения «объекта» и «предмета» измерения. Надежность – это устойчивость процедуры относительно объектов. Надежность не обязательно предполагает валидность. В психологии довольно часто возникает такая ситуация, когда ис- следователь вначале предлагает определенную процедуру измерения, показы- вает ее надежность – способность устойчиво различать объекты, но вопрос о валидности остается открытым. Если в сенсорной психофизике вопрос о валидности измерений оказыва- ется в значительной степени затушеванным тем обстоятельством, что простей- шие физические стимулы достаточно однозначно детерминируют измеряемые свойства ощущений, то в дифференциальной психометрике значимость про- блемы валидности резко возрастает. Здесь ситуация подобна той, когда в пси- хофизическом опыте испытуемому не указывают, по какому именно параметру следует сравнивать стимулы. Пусть испытуемый А понял инструкцию так, что стимульные объекты надо сравнивать по весу, а испытуемый Б - по размеру. Если процедура измерения будет повторена по отношению к тем же объектам, то она даст вполне устойчивые данные относительно объектов, но не даст ва- лидной информации ни о шкале ощущений «веса», ни о шкале ощущений «раз- мера». При измерении способностей предъявляемый тест отнюдь не обязательно актуализирует именно тот психический процесс, который предполагается изме- рить. Например, столкнувшись с уже встречавшейся однажды задачей (напри- мер, с анаграммой «дзиканпр»), испытуемый может начать запоминать просто то решение, к которому он уже однажды пришел (слово «праздник»), чем зано- во решать эту задачу. Здесь будет измеряться скорее уровень словесной памяти, чем уровень вербального интеллекта. Точно так же реальная валидность неко- торых тестов раскрывается только в результате значительного опыта работы с ними. Например, доказано, что ряд тестов, внешне вы глядящих интеллекту- альными, на деле измеряют скорее личностно-стилевые особенности индивида, чем операциональные возможности интеллекта, например, методика «креатив- ного поля» Д. Б. Богоявленской. Устойчивость теста относительно объектов (испытуемых) является необ- ходимым, но не достаточным условием его устойчивости относительно измеря- емых атрибутов (свойств) объектов. Надежность является необходимым, но не достаточным условием валидности. Отсюда вытекает основное соотношение психометрики: Это означает, что валидность теста не может превышать его надежность. Соотношение валидности и надёжности можно представить метафоричным ри- сунком. Рисунок - 20. Соотношение валидности и надёжности Данное соотношение, однако, неверно трактовать как указание на прямую пропорциональную связь валидности и надежности. Повышение надежности отнюдь не обязательно приводит к повышению валидности. В терминах А. Анастази валидность определяется репрезентативностью теста относительно измеряемой области поведения. Если эта область поведения складывается из разнообразных феноменов, то содержательная валидность теста автоматически требует представленности в нем моделей всех этих разнообразных феноменов. Возьмем глобальное понятие «речевая способность» (этому психолингвистиче- скому термину в традиционной тестологии соответствует термин «вербальный интеллект»). Сюда относятся такие относительно независимые друг от друга навыки, как навыки письма и чтения. Если заботиться о содержательной валид- ности соответствующего теста, то нужно ввести в него группы заданий на про- верку этих довольно разных по своему операциональному составу компонентов вербального интеллекта. Вводя разнородные пункты и субшкалы (субтесты), мы обязательно сокращаем внутреннюю согласованность, одномоментную надежность теста, но зато добиваемся существенного повышения валидности. Таким образом, для расширения области применения теста психодиагност дол- жен избегать излишнего повышения внутренней согласованности. Одновре- менно с этим снижением внутренних корреляций между различными пунктами теста обязательно исчезает отрицательный эксцесс на кривой распределения те- стовых баллов, и она все более приближается по форме к нормальной кривой. ГЛАВА 4 ОСНОВНЫЕ ПОЛОЖЕНИЯ IRT 4.1. Основные допущения IRT 1) существуют латентные (скрытые) параметры личности, недоступные для непосредственного наблюдения. В тестировании это уровень подготовлен- ность испытуемого и уровень трудности задания; 2) существуют индикаторные переменные, связанные с латентными па- раметрами, доступные для непосредственного наблюдения. По значениям ин- дикаторных переменных можно судить о значениях латентных параметров; 3) оцениваемый латентный параметр должен быть одномерным. Это означает, что, например тест, должен измерять знания только в одной, четко за- данной, предметной области. Если условие одномерности не выполняется, то необходимо переработать тест, удалив задания, нарушающие его гомогенность. Существуют и другие допущения, носящие специальный характер и свя- занные с математико-статистическим аппаратом IRT для обработки эмпириче- ских данных. Основной задачей IRT является переход от индикаторных переменных к латентным параметрам. В IRT устанавливается связь между двумя множествами значений ла- тентных параметров. Первое множество составляют значения латентного пара- метра, определяющего уровень подготовленности испытуемых θi, где i - номер испытуемого, изменяющийся в интервале от 1 до N (N - количество испытуе- мых). Второе множество составляют значения латентного параметра, характе- ризующего трудность j-го задания βj. Индекс j меняется в пределах от 1 до M, где M - количество заданий в тесте. Георг Раш предположил, что уровень подготовленности испытуемого θi и уровень трудности задания βj размещены на одной шкале и измеряются в од- них и тех же единицах - логитах. Аргументом функции успеха испытуемого яв- ляется разность θi - βj. Если эта разность положительна и велика, то соответственно высока ве- роятность достижения успеха i-го испытуемого в j-м задании. Если же эта раз- ность отрицательна и велика по модулю, то вероятность достижения успеха i-го испытуемого в j-м задании будет низкой. В этом принципиальное различие подходов Гуттмана и Раша. По Гуттману в первом случае вероятность успеха в точности равна единице, а во втором – нулю. В отличие от Гуттмана Раш опе- рирует вероятностями, а не детерминированными константами. Перечислим преимущества IRT перед классической теорией тестов: 1. IRT (особенно это относится к модели Раша) превращает измере- ния, выполненные в дихотомических и порядковых шкалах, в линейные изме- рения, в результате качественные данные анализируются с помощью количе- ственных методов; 2. мера измерения параметров модели Раша является линейной, что позволяет использовать широкий спектр статистических процедур для анализа результатов измерений; 3. оценка трудности тестовых заданий не зависит от выборки испыту- емых, на которых она была получена; 4. оценка уровня подготовленности испытуемых не зависит от ис- пользуемого набора тестовых заданий; 5. неполнота данных (пропуск некоторых комбинаций испытуемый - тестовое задание) не является критичным. Полный перечень преимуществ модели Раша приведен в работе5. Сформулируем несколько определений, необходимых для изложения дальнейшего материала. Латентный параметр – это свойство личности, недоступное для прямо- го наблюдения. Латентными параметрами являются, например, чувство патриотизма, толерантность, уровень знаний, и т. п. О величине латентного параметра можно судить по ее индикатору (индикаторной переменной). Главное достоинство ин- дикатора – его доступность для прямого наблюдения. Измеряя значение инди- катора, мы можем судить о значении латентного параметра, с которым он свя- зан. Например, индикатором может являться тестовое задание. Значением ин- дикатора является числовое (символьное) выражение реакции испытуемого, на это тестовое задание. По этому индикатору мы можем судить об уровне знаний, соответствующих данному тестовому заданию. Индикатор – это некоторое средство воздействия (вопрос, тестовое за- дание), связанный с определенным латентным параметром, реакция на кото- рый, доступна для непосредственного наблюдения. Допустим, нас интересует латентный параметр «Уровень знаний по фи- зике». Для этого мы создаем конструкт – систему индикаторов, позволяющих оценить латентный параметр. В нашем примере конструктом является тест по физике, а индикаторами – тестовые задания. 4.2. Математические модели IRT В качестве математической модели, связывающей успех испытуемого с уровнем его подготовленности и трудностью задания выбирается логистиче- ская функция. Для модели Раша она имеет вид Масштабный множитель 1,7 используется для совместимости модели G.Rasch с моделью A.Fergusson, где вероятность правильного ответа на задание выражена интегралом нормального распределения, что позволяет использовать вместо логистических кривых хорошо изученную интегральную функцию нор- мированного нормального распределения7 Модель Раша носит название «1 Parametric Logistic Latent Trait Model» (1PL), а модель A.Fergusson - «1 Parametric Normal Ogive Model» (1PN). По- скольку модель Раша описывает вероятность успеха испытуемого как функцию одного параметра (θi - βj), то иногда ее называют однопараметрической моде- лью IRT. Взаимодействие двух множеств θi и βj образует данные, обладающие свойством «совместной аддитивности» (conjoint additivity). Правильное исполь- зование модели Раша позволяет отделить оценки испытуемых от оценок труд- ности заданий и наоборот. Это свойство Rasch Measurement носит название separability parameter estimates8 - «независимость оценок заданий от испытуе- мых и оценок испытуемых от параметров заданий». На рисунке 21 показаны три характеристические кривые согласно урав- нению с трудностями заданий -2, 0 и +2 логита (первое самое легкое, второе - среднее, третье самое трудное). Из приведенных зависимостей видно, что чем выше уровень Рисунок - 21 Характеристические кривые заданий (ICC) в модели (1PL). подготовленности θ испытуемого, тем выше вероятность успеха в том или ином задании. Например, для испытуемого с θ =0 вероятность правильно ответить на первое задание близка к единице, на второе равна 1/2 и на третье почти равна нулю. Отметим, что в точках, где θ = β вероятность правильного ответа равна 0,5. То есть, если трудность задания равна уровню подготовленно- сти (ability) испытуемого, то он с равной вероятностью может справиться или не справиться с этим заданием. Характеристические (логистические) кривые для заданий теста в англо- язычной литература называются Item Characteristic Curve (ICC). На рисунке 22 показаны три характеристические кривые испытуемых согласно уравнению - «Person Characteristic Curve» (PCC). Показаны графики для трех испытуемых с уровнем подготовленности -2 логита (самый слабый), 0 логитов (средний) и +2 логита (сильный испытуемый). Из приведенных зависимостей видно, что чем выше уровень подготов- ленности, тем выше вероятность правильного ответа на задание. Например, за- дание с трудностью b = 0 первый испытуемый ( q=-2) практически не сможет выполнить, второй q = 0) имеет вероятность выполнения задания равную 0,5, третий q=+2) легко справится с заданием, так как для него вероятность успеха почти равна единице. Рисунок - 22. Характеристические кривые испытуемых (PCC) в модели 1PL. Двухпараметрическая модель Бирнбаума Как видно из приведенных зависимостей, крутизна характеристических кривых в области Pj=0,5 одинакова, то есть дифференцирующая способность является константой. Для дихотомической модели эта константа равна 0,25. Если тест содержит задания с различной дифференцирующей способно- стью, то однопараметрическая модель 1PL не может описать такие эмпириче- ские данные. Для преодоления этой трудности А.Бирнбаум (A.Birnbaum) ввел еще один параметр - a (item discrimination parameter). (5.2.4) (5.2.5) Параметр aj определеяет наклон (крутизну) характеристической кривой j-го заданий. Примеры характеристических кривых показаны на рисунке 23. Видно, что чем больше aj тем круче идет кривая, тем выше дифференцирующая способность задания. Рисунок - 23. ICC в двухпараметрической модели 2PL Для еще лучшего соответствия эмпирическим данным А.Бирнбаум ввел третий параметр c - параметр угадывания*. Из уравнений видно, что при cj=0 и aj=1 эти уравнения переходят в од- нопараметрическую модель. По этой причине иногда говорят, что модель Раша является частным случаем двух и трехпараметрической моделей Бирнбаума. Формально это так, но по существу это неверно. К обсуждению этой проблемы мы вернемся далее. На рисунке 24 приведены примеры характеристических кривых для трех заданий с трудностью β = 1, дискриминационным параметром aj = 1 и различ- ными параметрами угадывания cj = 0, cj= 0,25, cj = 0,5. Из приведенных графиков видно, что наличие параметра угадывания приводит к пропорциональному смещению ICC вверх на величину cj. Рисунок - 24. ICC в трехпараметрической модели 3PL αj=1, βj=1. В качестве теоретической оценки cj можно использовать обратную вели- чину от количества ответов в заданиях с выбором. Например, в тесте использу- ются задания с четырьмя ответами, тогда cj = 1/4 = 0,25. Это значение должно уточняться при анализе эмпирических данных. Модель RASCH MEASUREMENT Обсудим вопрос о степени пригодности моделей IRT для целей измере- ния латентных параметров. Характерной особенностью модели Раша является то, что характеристи- ческие кривые (ICC) не пересекаются (рис. 21 Это означает, что если некоторое задание «А» легче задания «Б», то это соотношение сохраняется во всем интер- вале изменения θ. Совершенно иная картина наблюдается для двух- и трехпараметриче- ской моделей. На рисунке 23 это хорошо видно. Задание с αj = 0,5 в области по- ложительных значений θ является самым трудным из представленных трех за- даний, то есть вероятность правильного ответа на это задание самая низкая. В области же отрицательных значений q это же задание теперь уже самое легкое - вероятность правильного ответа на него наибольшая. Получается, что для сла- бых учащихся это самое легкое задание, а для сильных учащихся - самое труд- ное. Аналогичная картина наблюдается и для трехпараметрической модели. На рисунке 24 показан редкий случай непересекающихся характеристических кривых, так как для них выбраны одинаковые параметры βj=1 и αj=1, то есть все три задания имеют одинаковую трудность и одинаковый параметр дифферен- цирующей способности. На рисунке 25 приведен другой пример. Рисунок - 25. Пересекающиеся ICC в трехпараметрической модели. Здесь у задания с параметром cj=0 изменена трудность βj= -1, что немед- ленно вызвало пересечение характеристических кривых. Задание с cj=0 в обла- сти θ < -2 является самым трудным. В области -1,5 < θ < -1 это задание легче за- дания с cj=0,25 и труднее задания с cj=0,5. В области θ > -1 задание с cj=0 явля- ется самым легким. Подобное пересечение ICC практически всегда происходит для двух- и трехпараметрической моделей. Таким образом, только однопараметрическая модель Раша соответствует требованиям, предъявляемым к качественному измерительному инструмента- рию. Именно модель RASCH MEASUREMENT больше всего пригодна для по- строения теста, как измерительного инструмента. 4.3 Дискриминативность теста. Под дискриминативностью теста будем понимать способность теста дифференцировать испытуемых в диапазоне от «максимального» до «мини- мального» результата набранного по данному теста. Как отмечает П. Клайн, потенциально тест может быть гораздо более дискриминативным, чем другие средства измерения, например, интервью или рейтинги. Показатели дискриминативности связаны по существу с ранжированием испытуемых. Основной показатель коэффициента дискриминативности, «õ» Фергюсона, который рекомендуется для оценивания дискриминативности те- стов, достаточно прост в вычислении. Если не касаться процедуры вывода формулы, то ее можно представить в следующем виде: 2 2(n 1)(N  f i )   ; nN 2 где N - количество испытуемых, п - количество заданий, fi - частота встречаемости каждого показателя. Коэффициент Фергюсона õ =0, когда все испытуемые получили одинако- вые показатели, (то есть, когда нет дискриминативности), и равно 1 при равно- мерном (прямоугольном) распределении. Вычислить õ Фергюсона можно следующим образом. 1. Подсчитать, как часто встречаются значения показателей для данного теста. 2 2. Возвести эти числа в квадрат и просуммировать:  f i ; 3. Прибавьте 1 к количеству заданий: п + 1 . 4. Возвести в квадрат количество испытуемых: N 2 . 5. Перемножить количество заданий на результат шага (4): n N 2 . 6. Подставить все найденные элементы в формулу. Разработчик тестов должен учитывать некоторые характеристики õ ко- эффициента. Поскольку для равномерного (прямоугольного) распределения (наиболее дискриминативного) необходимы задания, в которых бы наиболее полно были реализованы все возможные проявления измеряемого свойства, это означает, что дискриминативность до некоторой степени противостоит надеж- ности, так как использование заданий с широким перечнем возможных прояв- лений измеряемого свойства уменьшает взаимную корреляцию между задания- ми. Конечно, распределение показателей, которое дает тест – это, прежде все- го, функция трудности заданий, а это влияет не только на надежность, но также и на дискриминативность. Это означает, что при конструировании теста следу- ет исходить из предназначения теста, поскольку именно этот факт определяет то, на что ориентироваться разработчику – на достижение максимальной надежности или максимальной дискриминативности. Поскольку дискриминативность целого теста зависит от дискриминатив- ности входящих в него заданий, рассмотрим проблему определения дискри- минативности отдельных заданий теста. Аналогично с определением дискриминативности целого теста под дис- криминативностью отдельных пунктов будем понимать способность отдельных пунктов (заданий) теста дифференцировать обследуемых относительно «мак- симального» или «минимального» результата теста. Любой ответ испытуемого на конкретное задание можно оценить по двухбалльной шкале – «верно» (1 балл), «неверно» (0 баллов). Сумма баллов по всем пунктам представляет собой первичную («сырую») оценку. Мера соответ- ствия успешности выполнения одной задачи (одного пункта) всему тесту явля- ется показателем дискриминативности задания теста для данной выборки ис- пытуемых и называется коэффициентом дискриминации (индексом дискрими- нации). где x - среднее арифметическое всех индивидуальных оценок по тесту; xп - среднее арифметическое оценок по тесту у испытуемых, правильно выполнивших задание (в случае опросника личностности - соответствие с «ключом»); σ - среднеквадратическое отклонение индивидуальных оценок по тесту для выборки; Nn- число испытуемых, правильно решивших задачу (или тех, чей ответ на данный пункт опросника соответствует «ключу»); N - общее число испытуемых. Коэффициент дискриминации может принимать значения от -1 до +1. Высокий положительный r свидетельствует об эффективности деления испыту- емых. Высокое отрицательное значение r свидетельствует о непригодности данного пункта для теста, о его несоответствии суммарному результату. Индекс дискриминативности задания теста может быть вычислен с по- мощью метода контрастных групп. Необходимым условием применения метода в этом случае является наличие близкого к нормальному распределению оценок по критерию валидизации. При этом, доля членов контрастных групп может изменяться в широких пределах в зависимости от величины выборки. Чем больше выборка, тем меньшей долей испытуемых можно ограничиться при вы- делении групп с высоким и низким результатами. Чаще из выборки «извлека- ют» по 27% или 33% испытуемых. Индекс дискриминации вычисляется с использованием формулы четы- рехпольного коэффициента корреляции: f g  fd rphi  pq где: fg - число лиц, правильно решивших задачу, по отношению к общему числу обследованных в группе с максимальным результатом; fd - число лиц, правильно решивших задание в группе с минимальным ре- зультатом; р - общая пропорция правильно выполненных заданий  fg  f ; d q – число лиц, давших неверное решение (1 - р). Критические значения этого коэффициента, свидетельствующие о диа- гностической ценности (на уровне р < 0,05), в зависимости от числа обследо- ванных (п) приведены ниже: n 25 50 100 200 r 0,39 0,28 0,20 0,14 Максимальная точность определения r достигается тогда, когда макси- мальная и минимальная группы составляют по 27% выборки. При анализе дискриминативности задания теста особое внимание следует уделить определению статистической значимости коэффициентов корреляции. В тех случаях, когда значение коэффициента дискриминации приближается к нулю и уровень значимости невысок, проверяемый пункт теста должен быть пересмотрен в связи с некорректностью формулировки задания или вариантов ответа на него. Психометрический парадокс Как известно, для определения диагностической ценности вопросов (утверждений), их дискриминативной силы обычно используется статистиче- ская процедура анализа заданий. С помощью обычно применяемого коэффици- ента устанавливается связь между ответом испытуемого на данный вопрос и его результатом по всей шкале, в которую этот вопрос включен. Не менее диа- гностически важен параметр вопроса – стабильность ответа на него при по- вторном исследовании. В ходе исследований было обнаружено, что вопросы с высоким – коэффициентом («хорошие») характеризуются нестабильностью от- ветов. В свою очередь неизменность ответов при повторном тестировании об- наруживается у вопросов с низким - коэффициентом («плохих»). Еще в работах 1940-х гг. было показано, что вопросы, которые позволя- ют дифференцировать больных неврозом от других больных или здоровых, ненадежные, т. е. мала вероятность получения того же самого ответа при по- вторном обследовании. В то же время с помощью вопросов, определяемых как надежные, различения изучаемых групп не достигалось или оно было неудо- влетворительным (Eisenberg, 1941). Итак, вопросы (утверждения), имеющие высокий показатель дискрими- натив-ности, неустойчивы по отношению к повторяемости результата, и наобо- рот, стабильность ответа часто отмечается у тех вопросов, которые обладают низкой дис-криминативностью. Явление это получило название психометриче- ского парадокса (Goldberg, 1963; Nowakowska, 1975), который не может быть объяснен без психологического анализа процесса формирования ответов на во- просы личностных шкал. Наиболее детально психометрический парадокс обсуждался в работах Марии Новаковской (Nowakowska, 1975), на которых мы и остановимся по- дробнее. Голдберг (Goldberg, 1963) рассматривает психометрический парадокс как определенную зависимость между постоянством и вариабельностью отве- тов на вопросы. При этом изменчивость ответов находится в функциональной связи с величиной s Фергюсона (показатель, определяемый соотношением между фактическим числом различий и их максимально возможным числом). Исходя из этого, М. Новаковская считает, что в данном случае следует говорить о 5-парадоксе. Показатель s не отражает эффективности вопроса относительно всего теста или его дискрими-нативной силы, определяемой с помощью вели- чины. Предметом анализа М. Новаковской является парадокс. Она считает, что психометрический парадокс присущ исключительно исследовательскому ин- струментарию гуманитарных наук, ибо вопросы, оставаясь формально неиз- менными, подтверждены семантическим(психологическим) преобразованиям- как в интер, так и в интраиндивидуальном планах. Психометрический парадокс – явление, возникающее при использовании личностных опросников. Его сущность состоит в том, что вопросы (утвержде- ния), имеющие высокий показатель дискриминативности, являются неустойчи- выми по отношению к повторяемости результата, и, наоборот, стабильность от- вета часто отмечается у тех вопросов, которые обладают низкой дискримина- тивностью (дискриминативность заданий теста – способность отдельных пунк- тов теста дифференцировать обследуемых относительно максимального или минимального результата теста). П. Айзенбергом (1941) было показано, что вопросы, которые позволяют отличать больных неврозом от других больных или здоровых, являются нена- дежными; иначе говоря, мала вероятность получения того же самого ответа при повторном обследовании. В то же время с помощью вопросов, определяемых как надежные, различение изучаемых групп не достигалось или было неудовле- творительным. Позднее изучению этого явления, получившего название психо- метрический парадокс были посвящены работы Л. Голдберга (1963) и М. Нова- ковской (1975). Голдберг рассматривает психометрический парадокс как определенную зависимость между постоянством и вариабельностью ответов на вопросы. Психометрический парадокс не может быть объяснен без психологиче- ского анализа процесса формирования ответов на вопросы личностных опрос- ников. Согласно М. Новаковской, вопросы, оставаясь формально неизменными, подвержены семантическим (психологическим) преобразованиям как в плане интериндивидуальном, так и интраиндивидуальном. Интериндивидуальная из- менчивость обусловлена двумя причинами: различия в выраженности измеряе- мой черты (свойств) у разных обследуемых и различия в понимании значения вопросов. Интраиндивидуальная изменчивость обусловлена вариабельностью значения, трудностью принятия решения об ответе и флуктуацией выраженно- сти черты (последний источник изменчивости можно не учитывать, если ин- тервал между повторными исследованиями невелик). Для психологической интерпретации психометрического парадокса М. Новаковская предлагает различать три детерминанты ответов: выраженность черты у обследуемого; значение, придаваемое вопросу; степень легкости при- нятия решения об ответе. Она подчеркивает также необходимость отличать во- просы однозначные от многозначных, которые в известном смысле могут быть уподоблены проективным стимулам. М. Новаковская предлагает различать два вида психометрического пара- докса – типа А и типа В – и исходит из следующих гипотез их возникновения. Парадокс типа А возникает при вопросах, поддающихся различному ис- толкованию (многозначных), а также в том случае, когда трудно принять реше- ние об ответе. Такие вопросы имеют высокий показатель дискриминативности при значительной вариабельности ответа. Например, «Ваше настроение обычно хорошее?» (в одном из вариантов опросника на определение нейротизма). Парадокс типа В возникает при однозначных вопросах, для которых лег- ко подобрать ответ. Сюда же должны быть отнесены т. н. односторонние диа- гностические вопросы или те вопросы, для которых только один тип ответа яв- ляется диагностически значимым. Подобные вопросы характеризуются слабой дискриминативностью и незначительно выраженной вариабельностью. Напри- мер: «Часто ли вам снится, что вы оказались в пасти крокодила?» (в одном из вариантов опросника для определения уровня тревожности). Вопрос является диагностически односторонним, поскольку из ответа «да» мы можем заключить о наличии тревожности, а из ответа «нет» мы не мо- жем сделать никакого вывода. Чем больше в методике вопросов, дающих парадокс типа В, тем больше надежность, определяемая коэффициентом корреляции между результатами повторных исследований. Однако одновременно снижается дискриминативная сила вопросов. Исследователь, зная о существовании психометрического парадокса, мо- жет регулировать вариабельность ответов путем подбора вопросов с соответ- ствующими параметрами. Необходимо учитывать психометрический парадокс при конструирова- нии (адаптации) личностных опросников. ГЛАВА 5 РЕПРЕЗЕНТАТИВНОСТЬ ТЕСТОВЫХ НОРМ 5.1. Нормативно-ориентированные и критериально- ориентированные тестовые нормы Результаты психологических тестов чаще всего интерпретируются сопо- ставлением их с нормами выполнения теста в выборке стандартизации. Нормы, следовательно, устанавливаются эмпирически, сообразно тому, как выполняет задания теста некая репрезентативная группы испытуемых. После этого соотне- сением первичного индивидуального результата с распределением показателей, полученных в выборке стандартизации, выясняется, какое место он занимает в этом распределении. Соответствует ли данный результат среднему выполнению в норматив- ной группе? Или он несколько ниже, а может быть значительно выше среднего? Чтобы определить более точно положение результатов обследуемого от- носительно выборки стандартизации, полученный результат переводится в не- кую относительную меру. Таким образом, преобразованные результаты (произ- водные показатели) служат двум целям. Во-первых, они указывают положение обследуемого относительно нормативной выборки, что позволяет оценить его выполнение теста на фоне выполнения других. Во-вторых, они позволяют непосредственно сравнивать данные, полученные по разным тестам. Например, если обследуемый получил 40 очков в лексическом тесте и 22 очка в тесте на арифметическое мышление, то из этого, очевидно, нельзя узнать его относи- тельную результативности по этим двум тестам. Какой тест он выполнил луч- ше-лексический или арифметический-или оба одинаково хорошо? Поскольку первичные результаты по различным тестам обычно выражены в разных еди- ницах, прямое сравнение таких данных невозможно. Различие в степени труд- ности еще больше усложняет сравнение первичных результатов соответствую- щих тестов. Производные же величины могут быть выражены в одних и тех же единицах и относиться к одним и тем же или весьма сходным нормативным выборкам для различных тестов. Таким образом, оказывается возможным срав- нение индивидуальных относительных данных по многим различным функци- ям. Производные показатели, служащие двум сформулированным выше це- лям, можно получить разными путями, которые в целом следуют одному из двух направлений: 1. определение достигнутого уровня развития, 2. установление относительного положения индивида в некоторой группе. Соответствующие типы показателей, а также некоторые из их распро- страненных вариантов будут рассмотрены в специальных разделах этой главы. Но прежде необходимо освоиться с некоторыми статистическими понятиями, лежащими в основе разработки и использования норм. Цель следующего разде- ла-выяснить смысл нескольких традиционных статистических мер. Примеры с несложными вычислениями приводятся в нем лишь для иллюстрации и не предназначены для обучения статистическим методам. Подробности вычисле- ний и конкретные процедуры решения прикладных задач читатель зайдет в лю- бом учебнике по статистике для психологов и педагогов. Когда говорят о цели использования тестовых баллов, выделяют критери- ально-ориентированные и нормативно-ориентированные тесты. Критериально-ориентированные тесты ожно стретить там, где решение принимается на основании уровня навыков человека. В этих случаях устанав- ливается фиксированный балл отсечения. Балл отсчения используется для того, чтобы разделить людей на две группы – тех, кто показал уровень выше балла отсечения, и тех, кто набрал бал ниже. Нормативно-ориентированные тесты – используются для того, чтобы сравнить тестовый балл испытуемого с определённой выборкой. Характеристи- ки выборки считаются репрезентативными для какой-то строго определённой популяции. Балл испытуемого сравнивают с ожидаемым или средним баллом по тесту, который был бы получен, если бы тест был проведён на всей популя- ции. Баллы по нормативно-ориентированному тесту имеют мало смысла, если выборка стандартизации нерепрезентативна для определённой популяции лю- дей, если референтная выборка плохо определена или есть сомнения в том, что протестированный испытуемый является членом релевантной популяции. Ни одно из этих обстоятельств не возникает в принципе при оценке балла по кри- териально-ориентированному тесту. На практике разница между нормативно-ориентированным и критериаль- но-ориентированным тестом часто размывается. Критериально-ориентированные тесты всегда в определённом смысле «нормируется». То есть балл отсечения не случаен – как правило, он связан со стандартным или ожидаемым уровнем выполнения теста людьми, которые мо- гут проходить тет. Разница между критериально-ориентированным и нормативно- ориентированным тестом размывается ещё сильнее, когда определённые баллы по нормативно-ориентированному тесту используются в качестве баллов отсе- ченияя Педагогическое тестирование широко применяется для контроля знаний учащихся в различных целях. По целям применения педагогических тестов их можно разделить на два больших класса – нормативно-ориентированные и кри- териально-ориентированные. НОРМАТИВНО-ОРИЕНТИРОВАННЫЙ тест (norm-referenced test) поз- воляет ранжировать испытуемых по уровню выраженности свойства. Такой тест позволяет сравнивать испытуемых друг с другом. Целью нормативно-ориентированного теста является упорядочение ис- пытуемых по уровню. В результате может оказаться, что все испытуемые полу- чили низкие индивидуальные баллы. Тем не менее, и в этом случае можно ран- жировать испытуемых – кто-то получил низкий балл, а кто-то еще ниже. Воз- можны случаи, когда какое-то задание не дифференцирует испытуемых, например, задание легкое и все успешно на него ответили. И наоборот, очень трудное задания и все на него не ответили. Такие задания не позволяют прове- сти ранжирование и, поэтому, должны быть удалены из теста. Если все испыту- емые не ответили ни на одно задание, или верно ответили на все задания, то нормативно-ориентированный тест не работает, так как не позволяет достичь поставленной цели и подлежит дальнейшей переработке. Отметим, что, воз- можно, этот тест неплохо будет работать как критериально-ориентированный. КРИТЕРИАЛЬНО-ОРИЕНТИРОВАННЫЙ тест (criterion-referenced test) позволяет выявить степень усвоения испытуемым относительно определенного заданного критерия. Эти тесты появились в 60-х годах прошлого века, то есть значительно позже нормативно-ориентированных. Критериально- ориентированные тесты в свою очередь делятся на domain-referenced test (ори- ентированные на предметную область) и mastery-tests (квалификационные те- сты). Целью критериально-ориентированного теста является выяснение - знает ли испытуемый стандартный учебный материал (предмет, раздел, тему). В ре- зультате тестирования может оказаться, что все испытуемые успешно выпол- нили все задания. Это означает, что они освоили учебный материал. Если все испытуемые не справились с заданиями теста, то это означает, что учебный ма- териал не усвоен. В обоих случаях тест выполнил свою задачу. Внешне оба типа тестов имеют много общего – в них используются те- стовые задания сходные по форме, эти задания сопровождаются похожими ин- струкциями, выполняются задания одинаковым образом. Но, несмотря на внешнюю схожесть, это совершенно разные тесты. Они имеют следующие раз- личия. 1. ЦЕЛЬ СОЗДАНИЯ ТЕСТА. Нормативно-ориентированные тесты создаются специально для того, чтобы сравнить испытуемых в той области со- держания, для которой тест предназначен. Критериально-ориентированные тесты нужны для аттестации испытуе- мых в определенной области содержания. Если критериально-ориентированные тесты использовать в качестве нормативно-ориентированных, то ввиду малой дисперсии тестовых результа- тов, эти результаты будут отличаться низкой надежностью. Справедливо и об- ратное - применение нормативно-ориентированных тестов в критериально- ориентированном тестировании также даст малонадежные результаты. Это обусловлено сильной вариацией тестовых заданий по трудности в нормативно- ориентированном тесте. 2. УРОВЕНЬ ДЕТАЛИЗАЦИИ ОБЛАСТИ СОДЕРЖАНИЯ. Разработка теста начинается с создания его спецификации и эти специ- фикации для обоих типов тестов сильно отличаются. Спецификации критери- ально-ориентированных тестов гораздо детальнее описывают элементы области содержания, поскольку это позволит адекватно интерпретировать результаты тестировании. Для нормативно-ориентированных тестов уровень детализации области содержания гораздо ниже. Для этих тестов гораздо важнее получить вариативные тестовые задания. 3. СТАТИСТИЧЕСКАЯ ОБРАБОТКА результатов тестирования. Шка- лированные баллы нормативно-ориентированного тестирования основываются на тестовых нормах, полученных на «выборках стандартизации». При критери- ально-ориентированном тестировании тестовые баллы не связаны с какой-либо нормативной группой испытуемых. Обычно тестовый балл отражает долю пра- вильно выполненных заданий и выражается в процентах. 4. АНАЛИЗ И ОТБОР ТЕСТОВЫХ ЗАДАНИЙ. Для нормативно- ориентированных тестов большое значение имеют статистические характери- стики - уровень трудности задания, его дифференцирующая способность. Если задание имеет средний уровень трудности и высокую дифференцирующую способность, то оно считается хорошим для нормативно-ориентированного те- ста. Эти статистические характеристики не имеют большого значения для критериально-ориентированного теста. Здесь главным критерием для включе- ния задания в тест является соответствие специфике и элементу области содер- жания. 5. РАСПРЕДЕЛЕНИЕ ИСПЫТУЕМЫХ по индивидуальным баллам имеет различный характер для обоих видов тестов. Для нормативно- ориентированного теста кривая распределения симметрична и близка к гауссо- вой кривой. В случае критериально-ориентированного теста эта кривая несим- метрична и обычно сдвинута в область высоких индивидуальных баллов. 6. ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ ТЕСТИРОВАНИЯ. Поскольку цели нормативно-ориентированного и критериально- ориентированного тестирования различны, то и интерпретация полученных данных будет различной (рис. 26-27). Результаты нормативно-ориентированного тестирования интерпретиру- ются на основе статистически обоснованных тестовых норм. При этом имеется возможность определить положение испытуемого относительно нормативной группы. Информации же о том, какие как усвоены те или иные разделы, эле- менты области содержания, нормативно-ориентированный тест дает мало. Результаты критериально-ориентированного тестирования интерпрети- руются с точки зрения полноты освоения области содержания, согласно де- тальной спецификации теста. Рисунок - 26. Нормативно-ориентированный тест. Рисунок - 27. Критериально-ориентированный тест. Ниже приведена таблица, содержащая сравнение характеристик обоих типов тестов. Таблица 10 Сравнительные характеристики нормативно-ориентированных и критериально-ориентированных тестов по Д.Вилфорду. Нормативно - ориентированные тесты Критериально - ориентированные тесты 1. Цель тестирования: возможность срав- 1. Цель тестирования: возможность аттеста- нения уровня подготовки испытуемых ции испытуемого в соответствии с его уров- друг с другом в той области содержания, нем усвоения определенной области содер- для которой тест предназначен. жания. Пример использования: конкурсный отбор Пример использования: итоговая аттестация кандидатов на обучение. уровня обученности студентов, уровня про- фессиональной подготовки кадров. 2. Используемые шкалы: нормативные 2. Используемая шкала - в основном, шкала (или стандартные) шкалы. Необходимо процентов с выбранным одним (или не- указание среднего значения и стандартно- сколькими) критериальным баллом (балла- го отклонения в выбранной шкале. ми). Особое внимание уделяется методики оптимального выбора критериального балла (или баллов). 3. Распределение индивидуальных баллов: 3. Распределение индивидуальных баллов: близко к нормальному, в большинстве произвольное, в большинстве случаев асим- случаев имеет симметричный вид метричное и имеет несимметричный вид 4. Уровень детализации области содержа- 4. Уровень детализации области содержания ния - несущественен. Авторы теста выби- - подробный. Авторы теста разрабатывают рают наиболее значимые элементы содер- спецификацию (план) теста, включающую жания. все элементы содержания. Затем по этой спецификации разрабатываются задания. 5. Нормативная группа испытуемых обя- 5. Нормативная группа испытуемых не явля- зательна. Обработанные (или шкалиро- ется необходимой. Индивидуальный балл ванные) баллы по результатам норматив- испытуемого интерпретируется по отноше- но-ориентированного тестирования бази- нию к доле учебного материала успешно им руются на статистических данных норма- освоенного. Чаще всего балл студента отра- тивной группы, то есть специфической жает процент правильно выполненных зада- достаточно большой выборке испытуе- ний и выражается шкале процентов. мых. В большинстве случаев применяются специальные нормативные таблицы, где каждый индивидуальный балл для данно- го теста имеет однозначное соответствие с процентильным эквивалентом, определен- ным на нормативной группе. 6. Статистический анализ и отбор тесто- 6. Статистический анализ и отбор тестовых вых заданий. Статистические показатели заданий. Уровень трудности и различающая тестовых заданий (в основном это уровень способность заданий не является существен- трудности и различающая способность) ными факторами включения в состав теста, играют важную роль в отборе заданий. или наоборот исключения из него. Главное Выбираются задания со средним уровнем условие отбора заданий - это их соответ- трудности (от 0,3 до 0,7) и высокой разли- ствие (их конгруэнтность) спецификации и чающей способностью (большей 0,3). Су- элементу содержания. Статистические ха- ществуют ряд других важных статистиче- рактеристики тестовых заданий используют- ских показателей качества заданий. ся для составления параллельных форм (ва- риантов) теста и для выбора оптимального критериального балла. 7. Надежность теста. Оценивается либо 7. Надежность теста. Оценивается степенью путем нахождения корреляциимежду ре- постоянства принятия решения «зачет – не- зультатами двух тестирований, либо мето- зачет» при двукратном тестировании. дом расщепления теста на две половины при однократном тестировании. 8. Валидность. Наряду с содержательной 8. Валидность. Особое внимание уделяется валидностью для тестов конкурсного от- содержательной валидности. В случае при- бора учащихся особое внимание уделяется нятия важных решений по результатам те- высоким показателям прогностической стирования исследуются критериальная и валидности. конструктная валидность. Подытоживая, отметим, что нормативно-ориентированные и критериаль- но-ориентированные тесты сильно отличаются друг от друга. При использова- нии тестов необходимо придерживаться следующих правил: 1) нельзя использовать критериально-ориентированный тест в каче- стве нормативно-ориентированного и наоборот; 2) нельзя использовать один и тот же тест и в качестве нормативно- ориентированного и в качестве критериально-ориентированного. Нарушение этих правил приводит к получению тестовых результатов, об- ладающих низкой надежностью и большой ошибкой измерения. 5.2 Нормативно-ориентированный подход к стандартизации тестовых баллов. Основная цель нормативно-ориентированного тестирования заключает- ся в дифференциации испытуемых по результатам выполнения теста. При ин- терпретации результатов относительная позиция испытуемого может оцени- ваться по-разному, поскольку он будет выглядеть лучше на фоне более слабой, чем более сильной группы. Для корректной интерпретации результатов тести- рования балл каждого учащегося необходимо сравнивать с нормами выполне- ния теста. Нормы – это совокупность показателей, отражающая результаты выпол- нения теста четко определенной выборкой испытуемых – релевантной норма- тивной группой, репрезентативно представляющей генеральную совокупность тестируемых учащихся. К нормам обычно относят среднее значение тестовых баллов и показатель разброса (вариативности) вокруг среднего значения всех остальных баллов, полученных представительной выборкой тестируемых. Имея нормы можно установить положение каждого результата по отношению к среднему баллу по тесту, посмотреть, насколько результат учащегося выше или ниже среднего. Процесс определения норм называется, стандартизацией теста. Стандар- тизация всегда осуществляется на репрезентативной выборке испытуемых, формирование которой – обязательный момент при определении норм теста. Относительность норм и выборка стандартизации. Тестовых норм, при- годных для интерпретации результатов всех учащихся по любым тестам; не существует. Область применимости любой нормы ограничивается данным те- стом и конкретной совокупностью испытуемых, поэтому нормы не абсолютны и не постоянны. Они отражают результаты выборки стандартизации на момент создания теста и подлежат систематическому, обновлению и перепроверке. К нормам предъявляют следующие требования: 1. нормы должны быть дифференцированными. Тесты необходимо стандартизовать на различных выборках, в результате чего получатся, скорее всего, существенно различающиеся нормы; 2. нормы должны быть репрезентативными, поэтому они всегда уста- навливаются эмпирически в соответствии с результатами тестирования выбор- ки стандартизации. «Норма» – относительное понятие, тесно связанное с качеством выборки, использованной для стандартизации. Выборка должна точно отражать катего- рию (или несколько категорий) лиц, для которых предназначен тест, а также быть достаточно большой и сбалансированной для обеспечения столь малой стандартной погрешности, чтобы ею можно было пренебречь в процессе стан- дартизации теста. Таким образом, при формировании выборки стандартизации необходимо учитывать две переменные – объем и представительность, обеспе- чивающие в совокупности высокую точность при оценивании норм выполне- ния теста. Тестовые нормы – это такие критические точки на шкале тестовых бал- лов, которые отделяют области значений с заданным психодиагностическим выводом. Психодиагностические нормы позволяют выносить диагностические за- ключения (относить испытуемого к определенной диагностической категории), что невозможно сделать просто на основании подсчета сырого тестового балла по ключам. Нормативные границы разделяют весь диапазон тестовых баллов на интервалы, соответствующие определенным уровням выраженности измеряе- мого признака. Первоначальный суммарный балл, подсчитанный с помощью ключа, но его нельзя диагностически интерпретировать, это всего лишь «сырой те- стовый балл». Применение тестовых норм в психодиагностике основывается на процедуре стандартизации тестового балла: перевод тестовых баллов из «сырой» шкалы в «стандартную». Нормы тестовые – количественные и (или) качественные критерии оценки результатов теста, позволяющие определить уровень достижений или степень выраженности психологических свойств, которые являются объектами измерения. В качестве таких критериев выступают статистические показатели выборки стандартизации, а также различные признаки-симптомы, свидетель- ствующие о том или ином уровне выраженности диагностируемых качеств. В психодиагностике следует различать как минимум два различных вида норм: статистические и социокультурные. Статистическая норма (основываются на выборке стандартизации) - это средний диапазон значений на шкале измеряемого свойства. Норма здесь - бли- зость значения свойства к тому уровню, который характеризует статистически среднего индивида. Значимое отклонение от нормы в этом случае (выход за пределы среднего диапазона) называется акцентуацией, а данная личностная черта называется «акцентуированной». Чем сильнее выражено это отклонение, тем более сильной считается акцентуация. Социокультурная норма - это уровень свойства, который явно или неяв- но считается в обществе необходимым В психологической диагностике наиболее распространены количествен- ные тестовые нормв, полученные на основании определения средних величин и дисперсии в выборке стандартизации. Рассчитанные для нормативной выборки х среднее и дисперсия являются основой для разработки оценок шкальных те- ста. Количественные тестовые нормы, упорядоченные в шкалы на основе процедур z-преобразования, содержатся в специальных таблицах, прилагаемых к руководствам по проведению тестирования. В этом виде тестовые нормы поз- воляют установить относительное место каждого конкретного результата по сравнению с выборочными данными, выраженными в долях дисперсии. Такие количественные тестовые нормы наиболее типичны для тестов интеллекта, опросников личностных и др. В проективных техниках, в силу известных за- труднений, возникающих при формализации оценок первичных, вследствие сложности учитываемых диагностических показателей, количественные тесто- вые нормы, не столь распространены. Своеобразной переходной формой между количественными и каче- ственными тестовыенормы являются критерии оценки наиболее ранних тестов интеллекта. Так, в Бине–Симона умственного развития шкале Н. т. представле- ны в виде нормативных заданий, на выполнении или невыполнении которых базируется установление умственного возраста и интеллекта коэффициента. В виде качественных тестовых норм могут выступить стандартизиро- ванные наборы квалификационных требований к испытуемому. Стандартный тестовый балл - это тестовый балл, заданный на опре- деленной СТАНДАРТНОЙ ШКАЛЕ. СТБ получается в результате особого преобразования первичных, или «сырых» ТЕСТОВЫХ БАЛЛОВ – в результа- те ЛИНЕЙНОЙ СТАНДАРТИЗАЦИИ (при наличии параметрических ТЕ- СТОВЫХ НОРМ, заданных средним и стандартным отклонением) или таб- личной нормализации. Статистические нормы – граничные значения на шкале тестовых баллов, образованные на основе частотного распределения тестовых баллов в ВЫБОРКЕ СТАНДАРТИЗАЦИИ. Как правило, эти граничные значения отде- ляют от выборки фиксированный процент испытуемых: 10 (дециль), 25 (КВАРТИЛЬ), 50 (медиана). При нормальном распределении СН описываются с помощью параметров (среднее плюс-минус СИГМА, или стандартное от- клонение). СН служат принятию СРАВНИТЕЛЬНЫХ РЕШЕНИЙ и не дают информации для принятия НОРМАТИВНЫХ РЕШЕНИЙ. Ипсативные нормы: это выбор эталонных точек (средних показателей по шкалам) на основании либо усреднения результатов по другим шкалам того же испытуемого, либо на основании предыдущего результата испытуемого по этой же шкале. Ипсативные тестовые задания – парное сравнение, или выбор из одина- ково желательных или нежелательных пар альтернативных суждений. Выделяют: 1. «Абсолютные» тестовые нормы (или нормативы) - в роли шкалы для вынесения диагноза выступает сама шкала сырых баллов; это точки на шкале сырых баллов; регистрируют достижение заданного уровня в тестах достиже- ний (профессиональных или педагогических). 2. «Критериальные» тестовые нормы (позволяют прогнозировать кри- териальное поведение). Применение таких норм можно считать оправданным в двух случаях: 1) когда сама тестовая «сырая» шкала имеет практический смысл (на- пример, студент, изучающий иностранный язык, должен знать как можно больше слов этого языка, и сырой показатель лексического теста имеет прак- тический смысл); 2) когда сырой балл по тесту в результате эмпирических исследований связывается с заданной вероятностью успешности какой-либо практической деятельности (вероятность успеха «критериальной» деятельности, каковой для упомянутого выше примера может быть синхронный перевод монолога в течение 30 минут). Репрезентативность тестовых норм Репрезентативность – одна из психометрических характеристик теста. Говорит о возможности использования тестовых норм, выработанных на вы- борке стандартизации при разработке теста, для всей генеральной совокупности испытуемых, для которых данный тест предназначен. Также она значит, что с некоторой статистической погрешностью можно считать, что представленное в выборке распределение психических свойств соответствует их реальному рас- пределению. Репрезентативность позволяет классифицировать результаты те- стирования – выделять высокий, средний и низкий уровни выраженности пси- хических свойств. Если тест не репрезентативен, то предлагаемые им оценки выраженности свойств будут неприменимы за пределами выборки стандарти- зации. Репрезентативность тестовых норм – соответствие граничных точек на распределении тестовых баллов, полученных на выборке стандартизации, аналогичным граничным точкам, которые могли бы быть получены на попу- ляции проведения – на множестве испытуемых, для которых предназначен тест. обычно при получении кривой нормального распределения делается вы- вод о том, что тестовые нормы обладают репрезентативностью. Но нормаль- ность не является необходимым условием репрезентативности. Репрезента- тивность тестовых норм может достигаться и в отсутствие нормального рас- пределения. Репрезентативность тестовых норм – это возможность использо- вания тестовых норм, полученных по результатам выборочного тестирования, для оценки генеральной совокупности испытуемых. Репрезентативность – это одна из ключевых психометрических (тестологических) характеристик теста. Чем шире обследованная выборка, чем точнее она отражает структуру гене- ральной совокупности (по полу, возрасту, уровню образования и т.п.), тем выше репрезентативность тестовых норм. Для оценки репрезентативности проводится анализ распределения те- стовых баллов. Обычно при получении кривой нормального распределения де- лается вывод о том, что тестовые обладают репрезентативностью. Для проверки нормальности распределения используются различные статистические крите- рии (например, критерий Колмогорова-Смирнова). Но нормальность – не необ- ходимое условие репрезентативности, репрезентативность тестовых норм мо- жет достигаться и без него. Если распределение тестовых баллов отличается от нормального, то для проверки репрезентативности необходимо решить вопрос об устойчивости тестовых норм: производится расщепление выборки пополам и сравнение распределений тестовых баллов в первой и второй половине вы- борки (мы делали на психодиагностике). Если различий нет, то распределение тестовых баллов является устойчивым, а тестовые нормы – репрезентативными. На этапе разработки теста, а также любого другого метода проводится процедура стандартизации, которая включает три этапа. Первый этап стан- дартизации психологического теста состоит в создании единообразной проце- дуры тестирования. Она включает определение следующих моментов диагно- стической ситуации: Второй этап стандартизации психологического теста со- стоит в создании единообразной оценки выполнения теста: стандартной ин- терпретации полученных результатов и предварительной стандартной обра- ботки. Этот этап предполагает также сравнение полученных показателей с нормой выполнения этого теста для данного возраста (например, в тестах ин- теллекта), пола и т.д.Третий этап стандартизации психологического теста со- стоит в определении норм выполнения теста. Нормы разрабатываются для различных возрастов, профессий, полов и др. Вот некоторые из существующих видов норм: Таблица 11 разрабатываются на основе тестов школьных достижений или тестов школьных способностей. Они устанавливают- Школьные нормы ся для каждой школьной ступени и действуют на всей территории страны. устанавливаются на основе тестов для разных професси- Профессиональные нор- ональных групп (например, механиков разного профиля, мы машинисток и др.). устанавливаются и применяются для узких категорий людей, отличающихся наличием общего- признака – воз- раста, пола, географического района, социо- Локальные нормы экономического статуса и др. Например, для теста Векс- лера на интеллект нормы ограничены возрастными рам- ками. разрабатываются для представителей данной народности, нации, страны в целом. Необходимость таких норм опре- Национальные нормы деляется конкретной культурой, моральными требовани- ями и традициями каждой нации. Наличие нормативных данных (норм) в стандартизованных методах психодиагностики является их существенной характеристикой. Нормы необ- ходимы при интерпретации тестовых результатов (первичных показателей) в качестве эталона, с которым сравниваются результаты тестирования. Опре- деление норм для теста. На этапе создания теста формируется некоторая группа испытуемых, на которой проводится данный тест. Средний результат выполнения этого теста в данной группе принято считать нормой. Средний результат – это не единственное число, а диапазон значений.Существуют определенные правила формирования такой группы испытуемых, или, как ее иначе называют, выборки стандартизации. Правила формирования выбор- ки стандартизации: 1. выборка стандартизации должна состоять из респон- дентов, на которых в принципе ориентирован данный тест, то есть если со- здаваемый тест ориентирован на детей (например, тест Амтхауэра), то и стандартизация должна происходить на детях заданного возраста; 2. выборка стандартизации должна быть репрезентативной, то есть представлять собой уменьшенную модель популяции по таким параметрам, как возраст, пол, профессия, географическое распределение и т.д. Под популяцией понимает- ся, например, группа дошкольников 6-7 лет, руководителей, подростков и т.д. Чаще всего в руководствах к тому или иному тесту можно встретить вы- ражения нормы не в виде сырых баллов, а в виде стандартных производных показателей. Перевод сырых значений (первичных показателей) в стандарт- ные (производные) делается для того, чтобы результаты, полученные по раз- ным тестам, можно было сравнивать между собой. Производные показатели получаются путем математической обработ- ки первичных показателей. Первичные показатели по разным тестам нельзя сравнивать между собой по причине того, что тесты имеют различное внут- реннее строение. Например, IQ, полученный с помощью теста Векслера, нельзя сравнивать с IQ, полученным с помощью теста Амтхауэра, так как эти тесты исследуют разные особенности интеллекта и IQ как суммарный пока- затель по субтестам складывается из показателей разных по строению и со- держанию субтестов. «Любая норма, в чем бы она ни выражалась, огра- ничивается конкретной совокупностью людей, для которых она выра- батывалась... Применительно к психологическим тестам они (нормы) никоим образом не абсолютны, не универсальны и не постоянны. Они просто выражают выполнение теста испытуемыми из выборки стандар- тизации» Стандартизация и испытания диагностических моделей Результат тестирования испытуемого хi, вычисленный с помощью диа- гностической модели yi=у(хi), обычно называют первичной тестовой оценкой или, часто, «сырым» баллом. Для лучшего понимания этого результата в ряду других результатов производится его дальнейшее искусственное преобразова- ние, основанное на анализе эмпирического распределения тестовых оценок в репрезентативной выборке испытуемых. Процедура такого преобразования но- сит название стандартизации. Известно три основных вида стандартизации первичных тестовых оце- нок: 1) приведение к нормальному виду; 2) приведение к стандартной форме; 3) квантильная стандартизация /Мельников В. М. и др., 1985/. Приведение распределения тестовых оценок к нормальному виду. Существуют два главных обстоятельства, которыми объясняется целесо- образность искусственного приведения распределения первичных тестовых оценок к нормальному виду. Во-первых, значительная часть процедур класси- ческой математической статистики разработана для случайных величин с гаус- совым нормальным распределением. И, во-вторых, это дает возможность опи- сывать диагностические нормы в компактной форме. Для определения способа преобразования у обычно рассматриваются ги- стограммы распределения первичных тестовых оценок. Они позволяют выяв- лять лево- и правостороннюю асимметрию, положительный или отрицательный эксцесс и другие отклонения от нормальности. В психологических исследова- ниях нередко встречаются логарифмические нормальные распределения «сы- рых» баллов. В этом случае приближение распределения к гауссовой форме до- стигается путем логарифмирования у. Напротив, для нормализации кривых распределений с пологой левой ветвью и крутой правой нередко применяются тригонометрические и степенные преобразования «сырых» баллов. Применение компьютеров позволяет автоматизировать подбор и подгон- ку требуемого преобразования первичных тестовых оценок из заданного класса аналитических функций. Также компьютеры дают возможность достаточно просто реализовывать трудоемкую в ручном исполнении процедуру перехода к нормально распределенным оценкам путем новой оцифровки выходного тесто- вого показателя. Эта процедура обычно одновременно используется для приве- дения тестовых оценок к стандартной форме и будет подробно рассмотрена ниже. Преобразование тестовых оценок в стандартную форму. Под стандартной формой понимают линейное преобразование нормаль- ной (или искусственно нормализованной) тестовой оценки следующего вида где Zi – стандартная тестовая оценка i-го испытуемого; yi – нормальная оценка i-го испытуемого; ту и σу – среднее арифметическое значение и среднеквадратическое откло- нение у. Стандартные Z-оценки распределены по нормальному закону с нулевым средним и единичной дисперсией. Это полезно для проведения сравнительного анализа стандартных оценок различных психодиагностических показателей. Но так как Z-оценки могут принимать дробные и отрицательные значения, что не- удобно для восприятия, на практике чаще используются взвешенные стандарт- ные оценки (Vi) Vi=a+bZi, Где а и b – константы центрирования и пропорциональности соответ- ственно. Параметр а имеет смысл в данном случае среднего арифметического значения взвешенной стандартной оценки V, a b интерпретируется как средне- квадратическое отклонение V. В психодиагностике наиболее популярны следующие значения констант центрирования и пропорциональности (Общая психодиагностика, 1987): 1. Т-шкала Мак-Колла – а=50, b=10. 2. Шкала IQ – а=100, b=15. 3. Шкала «стэнайнов» (целочисленные значения от 1 до 9 – стандартная девятка) – а=5.0, b=2. 4. Шкала «стэнов» (стандартная десятка) – а=5.5, b=2. Как указывалось ранее, компьютеры позволяют достаточно просто осуществить нелинейную нормализацию сырых тестовых оценок у и перейти к взвешенным стандартным оценкам в любой из приведенных выше шкал. Процедура такого перехода за- ключается в новой оцифровке у и может выглядеть, например, следующим об- разом. Для любой отметки выбранной стандартной шкалы V известен ее про- центильный ранг PR(Vk)=С. Он равен площади под кривой теоретического нормального распределения со средним а и среднеквадратическим отклонени- ем b, вычисленной для значений V 0) и уплощенного (Ех < 0) типов (рис. 29). Рисунок - 31. Симметричное распределение эмпирических данных График асимметричного распределения данных часто называют J- распределением С. Пуассона (рис. 30). Рисунок - 32. Асимметричное распределение эмпирических данных При наложении данных, распределенных по закону Пуассона, скошенных влево и вправо, получается бимодальная результирующая (рис. 31). Рисунок - 33. Бимодальная результирующая Необходимо иметь бесконечный эксперимент –генеральную совокуп- ность (все данные). Нормальное распределение (закон Гаусса) - это предельный закон, к которому приближаются все другие распределения при увеличении числа ис- пытаний. В частности этому закону подчиняются ошибки измерений. Время восстановления ремонтируемых изделий, как правило также, распределено по нормальному закону. Наработка до отказа невосстанавливаемых изделий и многие другие случаи могут приближаться к этому распределению. Рисунок - 34 Функция Лапласа В традиционной психометрике нормальное распределение выступает в роли инструментального понятия, облегчающего оперирование с данными. Но это не означает, что можно забывать об искусственном происхождении нор- мального распределения. Традиции западной тестологии, основанные еще Ф. Гальтоном, предполагают однородность теоретических представлений психо- метрики и биометрики. Точно так же как происхождение нормального распре- деления при исследовании вариативности биологических характеристик чело- веческого организма связывается с наличием взаимодействия постоянного фак- тора генотипа и изменчивых случайных факторов фенотипа, - происхождение межиндивидуальных психологических различий связывается с генетическим кодом, якобы предопределяющим положение индивида на оси нормальной кри- вой. В действительности же нет никаких оснований приписывать появление нормальной кривой, часто получаемой с помощью специальных статистических непростых процедур, действию механизма наследственности. Проблема меры в психометрике и свойства пунктов теста. В физиче- ских измерениях калибровка шкалы производится на основе контроля за рав- номерным варьированием измеряемого свойства в эталонных объектах. Носи- телем меры является эталон- физический объект, стабильно сохраняющий за- данную величину измеряемого свойства. В дифференциальной психометрике такие физические эталоны отсутствуют: мы не располагаем индивидами, кото- рые были бы постоянными носителями заданной величины измеряемого свой- ства. Рисунок - 35. Соотношение индивидуальной и общей вариации тестовых баллов Роль косвенных эталонов в психометрике выполняют сами тесты: в том смысле, в каком трудность задач можно рассматривать как величину, прямо пропорционально сопряженную со способностью (чем труднее задача, тем вы- ше должен быть уровень способности, требуемый для ее решения). Аналогом понятия «трудность» для «ли-вопросов» опросника является «сила»: более «сильные» высказывания (в логическом смысле) вызывают подтверждение (со- гласие) у меньшего числа испытуемых. Ни трудность, ни силу пунктов теста нельзя выявить иначе, чем с помощью проведения теста. Операциональным определением трудности оказывается «процентильная мера»: процент испыту- емых, справившихся с заданием теста (или ответивших «верно» на «ли- вопрос»). Чем меньше процент, тем выше трудность. Кривая распределения тестовых баллов отражает свойства пунктов, из которых составлен тест. Если кривая имеет правостороннюю асимметрию, то в тесте преобладают трудные задания; если кривая имеет левостороннюю асим- метрию, значит, большинство пунктов в тесте - легкие (слабые) (рис. 36). Рисунок 36 - Асимметрии распределения тестовых баллов Тесты первого типа плохо дифференцируют испытуемых с низким уров- нем способностей: все эти испытуемые получают примерно одинаковый низкий балл. Тесты второго типа, наоборот, хуже дифференцируют испытуемых с вы- соким уровнем способностей. Если пункты обладают оптимальным уровнем трудности (силы), то кри- вая распределения зависит от того, насколько пункты однородны. Если пункты разнородны (исход по одному пункту не предопределяет исход по другому), то мы получаем тест в виде последовательности независимых испытаний Бернул- ли. Как известно из математической статистики, при достаточно большом ко- личестве независимых испытаний с двумя разновероятными исходами кривая биномиального распределения (кривая суммарного балла) по закону больших чисел автоматически приближается к кривой нормального распределения (цен- тральная предельная теорема Муавра-Лапласа). Если тест содержит разнород- ные задания примерно равного уровня трудности (именно такие задания и под- бираются для измерения интегральных свойств личности), то нормальность распределения суммарных баллов возникает автоматически – как артефакт са- мой процедуры подсчета суммарных баллов. При этом, конечно, форма кривой распределения баллов не позволяет говорить о реальной форме распределения измеряемого свойства, каким оно является само по себе - в широкой популяции испытуемых. Нормальность распределения есть артефакт, прямое следствие направленного отбора пунктов с заданными свойствами. Если подбираются пункты, тесно положительно коррелирующие между собой (испытания не являются статистически независимыми), то в распределе- нии баллов возникает отрицательный эксцесс, Максимальных значений отрица- тельный эксцесс достигает по мере возрастания вогнутости вершины распреде- ления – до образования двух вершин - двух мод (с «провалом» между ними). Бимодальная конфигурация распределения баллов указывает на то, что выборка испытуемых разделилась на две категории (с плавными переходами между ни- ми): одни справились с большинством заданий (согласились с большинством «ли-вопросов»), другие – не справились. Рисунок 37 - Отрицательные (а, б) положительный (в) эксцессы распределения тестовых баллов Такая конфигурация распределения свидетельствует о том, что в основе пунктов лежит какой-то один общий им всем признак, соответствующий опре- деленному свойству испытуемых: если у испытуемых есть это свойство (спо- собность, умение, знание), то они справляются с большинством пунктов, если этого свойства нет - то не справляются. В некоторых редких ситуациях пункты могут отрицательно коррелировать друг с другом. В этом случае на кривой воз- никает положительный эксцесс (рис. 3, в): вся масса эмпирических точек соби- рается вблизи среднего значения. Такое возможно в двух случаях: 1) когда ключ составлен неверно -объединены при подсчете отрицательно связанные признаки, которые обусловливают взаимоуничтожение баллов; 2) когда испы- туемые применяют, разгадав направленность опросника, специальную тактику «медианного балла» - искусственно балансируют ответы «за» и «против» одно- го из полюсов измеряемого качества. Гипотезы об отсутствии асимметрии и эксцесса принимаются с вероят- ностью ошибки р (пренебрежимо малой), если выполняются неравенства, где р - уровень значимости или вероятность ошибки первого рода: ошибки в том, что будет принят вывод о незначимости асимметрии при наличии значимой асим- метрии (в формулу подставляют стандартные р = 0,05 или р = 0,01 и проверяют выполнение неравенства). Когда в качестве единственного эталона измерения психодиагностами рассматривается сам тест, то в качестве меры измеряемого свойства выступает положение балла на кривой распределения. Применяется процентильная шкала. В качестве универсальной меры, пригодной для разных (по своей качественной направленности и количеству пунктов) тестов, используется «процентильная мера». Процентилъ – процент испытуемых из выборки стандартизации, кото- рые получили равный или более низкий балл, чем балл данного испытуемого. Таким образом, в качестве источника данной меры выступает нормативная вы- борка (выборка стандартизации), на которой построено нормативное распреде- ление тестовых баллов. Процентильные шкалы лежат в основе всех традицион- ных шкал, применяемых в тестологии (Т-очки MMPI, баллы IQ, стены 16 PF и др.). С точки зрения теории измерений, процентильные шкалы относятся к по- рядковым шкалам: они дают информацию о том, у кого из испытуемых сильнее выражено измеряемое свойство, но не позволяют говорить о том, во сколько раз сильнее. Для того чтобы строить на базе таких шкал количественный прогноз, нужно повысить уровень измерения (популярное изложение представлений о теории измерений см. в книге: Клигер С. А. и др., 1978). Переход к шкалам ин- тервалов производят либо на базе эмпирического распределения, либо на базе произвольной модели теоретического распределения. В абсолютном большин- стве случаев в роли такой теоретической модели оказывается модель нормаль- ного распределения (хотя в принципе может быть использована любая модель). В целом кроме статистических, процентильных шкал следует отличать нередко используемые в дифференциальной психометрике еще 2 вида шкал (и соответственно 2 вида тестовых норм). Это, во-первых, то, что можно условно назвать «абсолютными тестовыми нормами» – в роли шкалы для вынесения ди- агноза выступает сама шкала «сырых» очков, во-вторых, «критериальные» те- стовые нормы. Применение таких норм можно считать оправданным в двух случаях: 1) когда сама тестовая «сырая» шкала имеет практический смысл (на- пример, студент, изучающий иностранный язык, должен знать как можно больше слов этого языка, и сырой показатель лексического теста имеет практи- ческий смысл); 2) когда сырой балл по тесту в результате эмпирических исследований связывается с заданной вероятностью успешности какой-либо практической де- ятельности (вероятность успеха «критериальной» деятельности, каковой для упомянутого выше примера может быть синхронный перевод монолога в тече- ние 30 минут). Процентильная нормализация шкалы. Выше показано, что нормальность распределения достигается искусственным подбором пунктов теста с заданны- ми статистическими свойствами: Опишем еще ряд процедур, которые также широко используются для искусственной нормализации. 1. Нормализация пунктов. Ключ для данного пункта корректируется на базе нормальной модели. Если среди нормативной выборки с данным заданием справились только 16 % испытуемых, то данному пункту на интервальной шка- ле «трудности» (при условии априорного принятия нормальной модели с пара- метрами М = 0 и а = 1) соответствует значение +1 (см. график в книге: Анастазй А., 1982, с. 181). Если справились 75 % испытуемых, то балл пункта на сигма- шкале равен-0,67. В результате суммирования по пунктам баллов, скоррек- тированных нормализацией, суммарные баллы лучше приближаются к нор- мальному распределению. 2. Нормализация распределения суммарных баллов (или интервальная нормализация). В этом случае по таблице нормального распределения (нор- мального интеграла) производится переход от процентильной шкалы к сигма- шкале: используется функция, обратная интегральной, - от ординаты произво- дится переход к абсциссе нормального распределения. Рисунок - 38. Преобразование процентильной шкалы (по оси X) в нормализован- ную сигма-шкалу (по оси Y) На рис. 38 дана условная графическая иллюстрация этого перехода (кри- вая, обратная традиционной S-образной интегральной кривой нормального рас- пределения). Приведем пример интервальной нормализации (табл. 3). Пусть строка X содержит сырые баллы (не нормализованные) по тесту, полученные простым подсчетом правильных ответов. В строке Р - частоты встречаемости сырых баллов в выборке из 62 испытуемых. В строке F - кумулятивные частоты: Fi = i  P * 1ji . В строке F* - кумулятивные баллы: Fi  Fi  Pi . В строке PR - процен- j1 2 тильные ранги: PR  F *i i 100/ n . В строке σ даются нормализованные баллы, по- лученные из соответствующих процентильных рангов по таблицам, а оценки часто называются в зарубежной литературе также z-оценками. Трудность, с которой сталкиваются начинающие при использовании ин- тервальной нормализации, состоит в том, что обычные статистические таблицы не приспособлены для психометрики: нужно отыскивать значение процентиль- ного ранга внутри таблицы, а соответствующую сигмаоценку – с краю. В обычных таблицах из соображений симметрии даны лишь значения для PR > 50. Для PR < 50 соответствующие значения находятся из тех же таблиц σ = ψ -1(1- PR/100). Например, для PR =35 мы находим 1 - PR/100 = 1 - 0,35 = 0,65, затем - по табл. ψ -1 = 0,39 и берем это значение с отрицательным знаком -0,39. Для нормализации удобно пользоваться графическим методом (нормальной бумагой, стандартной 5-образной кривой и т. п.). В результате нормализации интервалы между исходными сырыми балла- ми переоцениваются в соответствии с нормальной моделью. В отличие от про- центильной шкалы, нормальная шкала придает больший вес (в дифференциа- ции испытуемых) краям распределения: различия между испытуемыми, набравшими 95 и 90 процентилей, оцениваются как более высокие, чем разли- чия между испытуемыми, набравшими 65 и 60 процентилей. В применении к шкалам оценок (рейтинговым шкалам) метод нормализа- ции интервалов называется «методом последовательных интервалов» (Клигер С. А.). В результате применения процедуры нормализации исследователь- психометрист получает для нормативной выборки таблицу перевода сырых баллов в нормализованные баллы. На основе этих таблиц часто строят графики: деления сырых баллов наносят на числовую ось с неравными интервалами, так что эмпирическое распределение частот максимально близко приближается к нормальной форме. Пример такой графической нормализации – профильные листы MMPI (Анастази А., 1982, с. 129). Так как нормальное распределение описывается всего двумя па- раметрами: средним М (мерой положения) и средним квадратическим (или стандартным) отклонением а (мерой рассеяния), то диагностические нормы в случае нормализованных шкал описываются в единицах отклонений от средне- го по выборке; например, заключают, что испытуемый А показал результат, превышающий средний балл на две сигмы, испытуемый В – результат, оказав- шийся ниже среднего балла на одну сигму, и т. п. На процентильной шкале этому соответствуют процентильные ранги 95 и 16 соответственно. Переход к нормальному распределению создает очень удобные условия для количественных операций с диагностической шкалой: как со шкалой ин- тервалов с ней можно производить операции линейного преобразования (умножение и сложение), можно описывать диагностические нормы в компакт- ной форме (в единицах отклонений), можно применять линейный коэффициент корреляции Пирсона, критерии для проверки статистических гипотез, постро- енные в применении к нормальному распределению, т. е. весь аппарат традици- онной статистики (основанной на нормальном распределении). ! Неправомерность онтологизации нормального закона. В традиционной психометрике нормальное распределение выступает в роли инструментального понятия, облегчающего оперирование с данными. Но это не означает, что мож- но забывать об искусственном происхождении нормального распределения. Традиции западной тестологии, основанные еще Ф. Гальтоном, предполагают однородность теоретических представлений психометрики и биометрики. Точ- но так же как происхождение нормального распределения при исследовании вариативности биологических характеристик человеческого организма связы- вается с наличием взаимодействия постоянного фактора генотипа и изменчи- вых случайных факторов фенотипа, - происхождение межиндивидуальных пси- хологических различий связывается с генетическим кодом, якобы предопреде- ляющим положение индивида на оси нормальной кривой. В действительности же нет никаких оснований приписывать появление нормальной кривой, часто получаемой с помощью специальных статистических непростых процедур, действию механизма наследственности. В тех случаях, когда на большой выборке удается получить нормальное распределение без каких-либо искусственных способствующих этому мер, это опять-таки не означает вмешательства генетики. Закон нормального распреде- ления воспроизводится всякий раз, когда на измеряемое свойство (на формиро- вание определенного уровня способностей индивида) действует множество разных по силе и направленности факторов, независимых друг от друга. Исто- рия прижизненных средовых воздействий, которые испытывает на себе субъ- ект, также подобна последовательности независимых событий: одни факторы действуют в благоприятном направлении, другие – в неблагоприятном, а в ре- зультате взаимопогащение их влияний происходит чаще, чем тенденциозное однонаправленное сочетание (большинство благоприятных или большинство неблагоприятных), т. е. возникает нормальное распределение. Массовые иссле- дования показывают, что введение контроля над одним из средовых популяци- онных факторов (уровень образования родителей, например) приводит к рас- слоению кривой нормального распределения: выборочные кривые оказываются смещенными относительно друг друга (Анастази А., 1982, с. 201). Эти резуль- таты служат ярким подтверждением социокультурного происхождения стати- стических диагностических норм, что одновременно служит основанием для серьезных предосторожностей при переносе норм, полученных на одной попу- ляции, на другие популяции. Однородными можно считать только те популя- ции, по отношению к которым действует одинаковый механизм выборки: ив ситуации создания (стандартизации) теста, и в ситуации его диагностического применения. Здесь приходится учитывать и такие нюансы выборочного меха- низма, как феномен нормальных добровольцев. Если выборку стандартизации формировать на студентах, добровольно согласившихся участвовать в тестиро- вании, а применение теста планируется на сплошных выборках (в администра- тивном порядке), то это грозит определенными ошибками в диагностических суждениях, так как психологический портрет «добровольца» в существенных чертах отличается от портрета испытуемого, соглашающегося на тестирование только под административным давлением (Шихирев П.Н.). Подсчет параметров и оценка типа распределения. Для описания выбо- рочного распределения, как правило, используются следующие известные па- раметры: 1. Среднее арифметическое значение: 1 n x   p j y j n , j1 где xj – балл i-го испытуемого; yi -значение i-го балла по порядку возрастания; pi - частота встречающегося i-го балла; n - количество испытуемых в выборке (объем); m - количество градаций шкалы (количество баллов). 1. Среднее квадратическое (стандартное) отклонение: 2.  (x  x)2  x 2   x 2 / n s   , n n 1 где  x 2 - сумма квадратов тестовых баллов для и испытуемых. 3. Асимметрия: 1 AS    3C 2 x  2x 3  3 S где x - среднее арифметическое значение; S - стандартное отклонение; 1 3 3 θ - среднее кубическое значение:    x , n 1 2 С - среднее квадратическое: C   x n 4. Эксцесс: 1 Ex  Q 4  403 x  6C 2 x 2  3x 4  3 s 4 , 1 Q  4 x 4 где Q - среднее значение четвертой степени: n . Стандартная ошибка среднего арифметического значения (мате- матического ожидания) оценивается по формуле: s sm  n На основе ошибки математического ожидания строятся доверительные интервалы: (x  2Sm ; x  2Sm ) Если тестовый балл какого-либо испытуемого попадает в границы дове- рительного интервала, то нельзя считать, что испытуемый обладает повышен- ным (или пониженным) значением измеряемого свойства с заданным уровнем статистической значимости. Асимметрия и эксцесс нормального распределения должны быть равны нулю. Если хотя бы один из двух параметров существенно отличается от нуля, то это означает анормальность полученного эмпирического распределения. Проверку значимости асимметрии можно произвести на основе общего неравенства Чебышева: S As  a 1 p где Sa - дисперсия эмпирической оценки асимметрии: 6(n 1) Sa  (n 1)(n  3) , где р - уровень значимости или вероятность ошибки первого рода: ошиб- ки в том, что будет принят вывод о незначимости асимметрии при наличии зна- чимой асимметрии (в формулу подставляют стандартные р = 0,05 или р = 0,01 и проверяют выполнение неравенства). Сходным образом оценивается значи- мость эксцесса: S Ex  e 1 p где Sе - эмпирическая дисперсия оценки эксцесса: 24n(n  2)(n  3) Se  . (n 1) 2 (n  3)(n  5) Более легкий метод проверки нормальности эмпирического рас- пределения основывается на универсальном критерии Колмогорова. Для каж- дого тестового балла у. (для каждого интервала равнозначности при дискрети- зации непрерывной хронометрической шкалы) вычисляется величина D. - мо- дуль отклонения эмпирической и теоретической интегральных функций рас- пределения: D j  F(y j ) U (z j ) где F- эмпирическая интегральная функция (значение кумуляты в данной точке уj); U – теоретическая интегральная функция. Среди Dj отыскивается мак- симальное значение Dmax n , и величина e  Dmax n сравнивается с табличным значением t критерия Колмогорова. В таблице 5 приведены асимптотические критические значения для рас- пределения Колмогорова (при n  ). Близость эмпирического значения λе к левосторонним стандартным квантилям λt позволяет констатировать близость эмпирического и предполагаемого теоретического распределения с пренебре- жимо малой вероятностью ошибки р (0,01; 0,05; 0,10 и т, п.). Близость λе к пра- восторонним стандартным квантилям λt позволяет сделать вывод о статистиче- ски значимом отсутствии согласованности эмпирического и теоретического распределений. Надо помнить, что критерий Колмогорова, очень простой в вы- числительном' отношении, обеспечивает надежные выводы лишь при т  200: Критерий Колмогорова резко снижает свою эффективность, когда наблюдения группируются по малому количеству интервалов равнозначности. Например, при n = 200 количество интервалов должно быть не менее 20 (примерно по 10 наблюдений на каждый интервал в среднем). Таблица 12 Квантиль λt 0,44 0,52 0,57 0,61 0,65 0,71 Вероятность p 0,99 0,95 0,90 0,85 0,80 0,70 Квантиль λt 0,89 0,97 1,07 1,22 1,36 1,52 1,63 Вероятность p 0,40 0,30 0,20 0,15 0,05 0,02 0,01 Если проверка согласованности эмпирического распределения с нор- мальным дает положительные результаты, то это означает, что полученное рас- пределение можно рассматривать как устойчивое - репрезентативное по отно- шению к генеральной совокупности - и, следовательно, на его основе можно определить репрезентативные тестовые нормы. Если проверка не выявляет нормальности на требуемом уровне, то это означает, что либо выборка мала и нерепрезентативна к популяции, либо измеряемые свойство и устройство теста (способ подсчета) вообще не дают нормального распределения. Преобразованные стандартные баллы (стандартиированные баллы) Преобразованные стандартные баллы – это z-баллы, которые преобразо- ваны в значения, более простые для понимнаия. Эт осделанно за счёт измене- ния масштаба шкалы так, что шкала преобразованных баллов имеет другое среднее и стандартное отклонение. Преобразование может быть выполнено в два шага. Сначала разработчи- ки или пользователи тестов выбирают новое среднее и новое стандартное от- клонение для распределения преобразованныз баллов. На втором шаге индиви- дуальный z-балл преобразуется с помошью следующего уравнения: Приведем параметры для наиболее популярных стандартных шкал: 1) T -шкала Маккола (тест-опросник MMPI и другие тесты): М = 50 и σ = 10, 2) шкала IQ : М = 100 и σ = 15, 3) шкала «стэнайнов» (целые численные значения от 1 до 9 -стандартная девятка): М = 5,0 и σ = 2, 4) шкала «стенов» (стандартная десятка, 16PF Кеттелла): М = 5,5 .и σ = 2. Рисунок - 39. Стандартизация баллов Применение стандартных шкал позволяет использовать более грубые, приближенные способы проверки типа распределения тестовых баллов. Если, например, процентильная нормализация с переводом в стены и линейная нор- мализация с переводом в стены по формуле дают совпадающие целые значения стенов для каждого Y, то это означает, что распределение обладает нормально- стью с точностью до «стандартной десятки». Применение стандартных шкал необходимо для соотнесения результатов по разным тестам, для построения «диагностических профилей» по батарее те- стов и тому подобных целей. В принципе отнюдь не обязательно все нормативные распределения сво- дить к нормальным. Можно с равным успехом пользоваться хорошо разрабо- танными моделями гамма-распределения, пуассоновского распределения и т. п. Критерий Колмогорова позволяет оценить близость вашего эмпирического рас- пределения к любому теоретическому распределению. При этом устойчивым и репрезентативным может оказаться распределение любого типа. Если из нор- мальности, как правило, следует устойчивость, то обратное неверно - устойчивость вовсе не обязательно предполагает нормальность распределения. Наличие значимой положительной асимметрии свидетельствует о том, что в системе факторов, детерминирующих значение измеряемого показателя, преобладают факторы, действующие в одном направлении - в сторону повыше- ния показателя. Такого рода отклонения появляются при использовании хроно- метрических показателей: испытуемый не может решить задачу быстрее опре- деленного минимально необходимого периода, но может существенно долго задерживаться с ее решением. На практике распределения такого рода преобра- зуют в приближенно нормальное распределение с помощью логарифмической трансформации: z j  ln y j При этом говорят, что распределение хронометрических показателей подчиняется «логнормальному» закону. Подобную алгебраическую нормализацию тестовой шкалы применяют и к показателям с еще более резко выраженной положительной асимметрией. Например, в процедурах контент-анализа сам тестовый показатель является ча- стотным: он измеряет частоту появления определенных категорий событий в текстах. Для редких категорий вероятность появления значительно меньше 0,5. Формула преобразования z j  arcsin y j позволяет придать необходимую 5-образную форму кумуляте. Стандартизация шкалы. В психометрике следует различать две формы стандартизации. Под стандартизацией теста понимают прежде всего стандарти- зацию самой процедуры проведения инструкций, бланков, способа регистра- ции, условий и т. п. Без стандартизации теста невозможно получить норматив- ное распределение тестовых баллов и, следовательно, тестовых норм. Z – баллы имеют несколько преимуществ в контексте интерпретации те- стовых баллов. Во-первых, они выражают тестовые баллы таким образом, что позволяют избежать неоднозначности многих психологических оценок. Пред- ставляя тестовый балл в терминах «расстояния до среднего», z-баллы освобож- дают от необходимости контроля за еденицами измерения первоночального те- стового балла. Во-вторых, z-баллы могут быть использованы для сравнения баллов по тестам, имещим разный масштаб шкалы измерения. Допустим два человека прошли два различных теста на нейротизм – один получил 34 балла по одному тесту, а другой – 98 баллов по другому. Сами по себе такие баллы невозможно сравнить. Но можно обойти эту проблему, переведя тестовые результаты в z- баллы (на основании среднего и стандартного отклонения каждого распределе- ния). Z-преобразование может быть также полезно, когда проведения измеря- ется хорошо известными единицами. Как вариант, может воникнуть необходи- мость сравнить время реакции, измеренных в миллисекундах, с индикаторами поведения в иных стандартных единицах (например, веса) или нестандартных единицах (например, баллах по тесту оптимизма) Под стандартизацией шкалы понимают линейное преобразование мас- штаба нормальной (или искусственно нормализованной) шкалы. В общем слу- чае формула стандартизации выглядит так: x  X z ij   M S где xi - исходный балл по «сырой» шкале, для которой доказана нор- мальность распределения; X - среднее арифметическое по «сырому» распределению; S - «сырое» стандартное отклонение; М- математическое ожидание по выбранной стандартной шкале; σ - стандартное отклонение по стандартной шкале. Если шкала подвергалась предварительной искусственной нормализации интервалов, то формула упрощается: zj =σ zj =M Центрирование Центрирование – это линейная т рансформация величин измеренного признака, при которой средняя величина распределения становится равной ну- лю. Процедура нормирования заключается в переходе к другому масштабу (единицам) измерения Sе, который осуществляется по формуле: S c = ( X- X c p/ δ x ) A + M, где X – величина показателя теста; Х ср– среднее арифметическое пока- зателей; δ x – среднее квадратичное отклонение показателей; А – заданное сред- нее квадратичное отклонение; М – заданное среднее значение В применении к шкалам оценок (рейтинговым шкалам) метод нормализа- ции интервалов называется «методом последовательных интервалов» В результате применения процедуры нормализации исследователь- психометрист получает для нормативной выборки таблицу перевода сырых бал- лов в нормализованные баллы. На основе этих таблиц часто строят графики: деления сырых баллов наносят на числовую ось с неравными интервалами, так что эмпирическое рас- пределение частот максимально близко приближается к нормальной форме. Так как нормальное распределение описывается всего двумя параметра- ми: средним М (мерой положения) и средним квадратическим (или стандарт- ным) отклонением а (мерой рассеяния), то диагностические нормы в случае нор- мализованных шкал описываются в единицах отклонений от среднего по выбор- ке; например, заключают, что испытуемый А показал результат, превышающий средний балл на две сигмы, испытуемый В-результат, оказавшийся ниже средне- го балла на одну сигму, и т. п. Итак, априорная предпосылка нормальности распределения тестовых баллов основывается скорее на принципах операционального удобства, чем на теоретической необходимости. Психометрически корректные процедуры полу- чения устойчивых тестовых норм возможны с помощью специальных методов непараметрической статистики (критерий «хи-квадрат» и т. п.) для распределе- ний произвольной формы. Выбор статистической модели распределения - за- конный произвол психометриста, пока сам тест выступает в качестве един- ственного эталона измеряемого свойства. В этом случае остается лишь тща- тельно следить за соответствием сферы применения диагностических норм той выборке испытуемых, на которой они были получены. Произвольность в выбо- ре статистической модели шкалы исчезает, когда речь заходит о внешних по отношению к тесту критериях.Проверка устойчивости распределения. Общая логика проверки устойчивости распределения основывается на индуктивном рассуждении: если половинное (полученное по половине выборки) распределе- ние хорошо моделирует конфигурацию целого распределения, то можно пред- положить, что это целое распределение будет также хорошо моделировать рас- пределение генеральной совокупности. Таким образом, доказательство устойчивости распределения означает до- казательство репрезентативности тестовых норм. Традиционный способ дока- зательства устойчивости сводится к наличию хорошего приближения эмпири- ческого распределения к какому-либо теоретическому. Но если эмпирическое распределение не приближается к теоретическому, несмотря на значительное увеличение объема выборки, то приходится прибегать к более общему индук- тивному методу доказательства. Простейший его вариант может быть сведен к получению таблиц перево- да сырых баллов в нормализованную шкалу по данным всей выборки и приме- нению этих таблиц для каждого испытуемого из половины выборки; если рас- пределение нормализованных баллов из половины выборки хорошо приближа- ется к нормальному, то это значит, что заданные таблицами нормализации те- стовые нормы определены устойчиво. Близость к нормальному распределению проверяется с помощью критерия Колмогорова (при n <200 целесообразно ис- пользовать более мощные критерии: «хи-вадрат» или «омега-квадрат»). При этом под «половиной выборки» подразумевается случайная полови- на, в которую испытуемые зачисляются случайным образом - с помощью дво- ичной случайной последовательности (типа подбрасывания монетки и т. п.). В более общем случае такой простейший метод установления однородности двух эмпирических распределений может быть применен и при разбиении выборки по какому-либо систематическому признаку. Если, в частности, по какому-либо из популяционно значимых признаков (пол, возраст, образование, профессия) психолог получает значимую неоднородность эмпирических распределений; то это значит, что относительно данных популяционных категорий тестовые нор- мы должны быть специализированы (одна таблица норм - для мужчин, другая - для женщин и т. д.). Более статистически корректный метод проверки однородности двух рас- пределений, полученных при расщеплении выборки на равные части, опять же связан с применением критерия Колмогорова. Для этого с табличным значени- ем сравнивается: K e  max F j1  F j2 n / 4 где Ке - эмпирическое значение статистики Колмогорова; Fj1 - кумулятивная относительная частота для у-того интервала шкалы по первой половине выборки; Fj2 - та же частота для второй половины; n - полный объем выборки. Применение критерия Колмогорова не зависит от нормальности целого распределения и от необходимости производить нормализацию интервалов. Итак, априорная предпосылка нормальности распределения тестовых баллов основывается скорее на принципах операционального удобства, чем на теоретической необходимости. Психометрически корректные процедуры полу- чения устойчивых тестовых норм возможны с помощью специальных методов непараметрической статистики (критерий «хи-квадрат» и т. п.) для распределе- ний произвольной формы. Выбор статистической модели распределения - за- конный произвол психометриста, пока сам тест выступает в качестве един- ственного эталона измеряемого свойства. В этом случае остается лишь тща- тельно следить за соответствием сферы применения диагностических норм той выборке испытуемых, на которой они были получены. Произвольность в выбо- ре статистической модели шкалы исчезает, когда речь заходит о внешних по отношению к тесту критериях. Репрезентативность критериальных тестов. В таких тестах в качестве ре- ального эталона применяется критерий, ради которого создается тест, - целевой критерий. Особое значение такой подход имеет в тех областях практики, где высокие результаты могут дать узкоспециализированные диагностические ме- тодики, нацеленные на очень конкретные и узкие критерии. Такая ситуация имеет место в обучении: тестирование, направленное на получение информа- ции об уровне усвоения определенных знаний, умений и навыков (При профес- сиональном обучений), должно точно отражать уровень освоения этих навыков и тем самым давать надежный прогноз эффективности конкретной профессио- нальной деятельности, требующей применения этих навыков. Так возникают «тесты достижений», по отношению к которым критериальный подход обнару- жил свою высокую эффективность (Гуревич К. М, Лубовский В. И,, 1982). Рассмотрим операциональную схему шкалирования, применяемую при создании критериального теста. Пусть имеется некоторый критерий С, ради прогнозирования которого психодиагност создает тест X. Для простоты пред- ставим С как дихотомическую переменную с двумя значениями: 1 и 0. С, = 1 означает, что j-й субъект достиг критерия (попал в «высокую» группу по крите- рию), Сj=0 означает, что i-й субъект не достиг критерия (попал в «низкую» группу). Психодиагност применяет на нормативной выборке тест X, и в ре- зультате каждый индивид получает тестовый балл Xi. После того как для каж- дого индивида из выборки становится известным значение С (иногда на это требуются месяцы и годы после момента тестирования), психодиагност груп- пирует индивидов по порядку возрастания балла Xi и для каждого деления ис- ходной шкалы сырых тестовых баллов подсчитывает эмпирическую вероят- ность Р попадания в «высокую» группу по критерию С. На рис. 40 показаны распределения вероятности Р (Ci = 1) в зависимости от Xi Рисунок - 40. Эмпирическая зависимость между вероятностью критериального события и тестовым баллом Очевидно, что кривая на рис. 5 по своей конфигурации может со- вершенно не совпадать с кумулятивной кривой распределения частот появле- ния различных Xi. Кривая, представленная на рис. 5, является эмпирической линией регрессии С по Xi Теперь можно сформулировать основное требование к критериальному тесту: линия регрессии должна быть монотонной функцией С от Xi Иными словами, ни для одного более высокого значения X. вероятность Р не должна быть меньшей, чем для какого-либо менее высокого значения Xi Если это условие выполняется, то открывается возможность для критериально- го шкалирования сырых баллов X. Так же как в случае с интервальной норма- лизацией», когда применяется поточечный перевод интервалов Х в интервалы Z, для которых выполняется нормальная модель распределения, так и при кри- териальном шкалировании к делениям сырой шкалы X применяется поточеч- ный перевод прямо в шкалу Р на основании эмпирической линии регрессии. Например, если испытуемый А получил по тесту X 18 сырых баллов и этому результату соответствует Р=0,6, то испытуемому А ставится в соответствие по- казатель 60 %. Конечно, любая эмпирическая кривая является лишь приближенной мо- делью той зависимости, которая могла бы быть воспроизведена на генеральной совокупности. Обычно предполагается, что на генеральной совокупности линия регрессии С по Х должна иметь более сглаженную форму. Поэтому обычно предпринимаются попытки аппроксимировать эмпирическую линию регрессии какой-либо функциональной зависимостью, что позволяет затем производить прогноз с применением формулы (а не таблицы или графика). Например, если линия регрессии имеет вид приблизительно такой, какой изображен на рис. 6, то применение процентильной нормализации позволяет получить простую линейную регрессию С по нормализованной шкале Z. Это как раз тот случай, когда имеет место эквивалентность стратегии, использую- щей выборочно-статистические тестовые нормы, и стратегии, использующей критериальные нормы. Рисунок - 41. Зависимость вероятности критериального события Р от нормально распределенного диагностического параметра X Операции по анализу распределения тестовых баллов, построению тесто- вых норм и проверке их репрезентативности. Завершая этот раздел, кратко пе- речислим действия, которые последовательно должен произвести психолог при построении тестовых норм. 1. Сформировать выборку стандартизации (случайную или стра- тифицированную по какому-либо параметру) из той популяции, на которой предполагается применять тест. Провести на каждом испытуемом из выборки тест в сжатые сроки (чтобы устранить иррелевантный разброс, вызванный внешними событиями, происшедшими за время обследования). 2. Произвести группировку сырых баллов с учетом выбранного интервала квантования (интервала равнозначности). Интервал определяется величиной W/m , где W=x max – х max; m - количество интервалов равнозначности (градаций шкалы). 3. Построить распределение частот тестовых баллов (для заданных ин- тервалов равнозначности) в виде таблицы и в виде соответствующих графиков гистограммы и кумуляты. 4. Произвести расчет среднего арифметического значения и стандартного отклонения, а также асимметрии и эксцесса с помощью компьютера. Проверить гипотезы о значимости асимметрии и эксцесса. Сравнить результаты проверки с визуальным анализом кривых распределения. 5. Произвести проверку нормальности одного из распределений с помо- щью критерия Колмогорова (при n < 200 с помощью более мощных критериев) или произвести процентильную нормализацию с переводом в стандартную шкалу, а также линейную стандартизацию и сравнить их результаты (с точно- стью до целых значений стандартных баллов). 6. Если совпадения не будет - нормальность отвергается; в этом случае произвести проверку устойчивости распределения расщеплением выборки на две случайные половины. При совпадении нормализованных баллов для поло- вины и для целой выборки можно считать нормализованную шкалу устойчи- вой. 7. Проверить однородность распределения по отношению к варь- ированию заданного популяционного признака (пол, профессия и т. п.) с помо- щью критерия Колмогорова. Построить в совмещенных координатах графики гистограммы и кумуляты для полной и частной выборок. При значимых разли- чиях разбить выборку на разнородные подвыборки. 8. Построить таблицы процентильных и нормализованных тестовых норм (для каждого интервала равнозначности сырого балла). При наличии разнород- ных подвыборок для каждой из них должна быть своя таблица. 9. Определить критические точки (верхнюю и нижнюю) для до- верительных интервалов (на уровне Р < 0,01) с учетом стандартной ошибки в определении среднего значения. 10. Обсудить конфигурацию полученных распределений с учетом пред- полагаемого механизма выполнения того или иного теста. 11. В случае негативного результата: отсутствия устойчивых норм для шкалы с заданным числом градаций (с заданной точностью прогноза критери- альной деятельности) - осуществить обследование более широкой выборки или отказаться от использования, данного теста. ЗАДАНИЕ ПО РАЗРАБОТКЕ ПАСПОРТА ТЕСТА. Используя методические и нормативные правила документально- методического оформления и сопровождения диагностических методик, необ- ходимо создать паспорт теста для методик из реестра. Структура документально-методической характеристики диагно- стического инструментария: 1. Автор методики. 2. Название методики. 3. Тип методики. 4. Диагностический метод, реализуемый методикой (объективный, субъективный, проективный), классификация методики в рамках соответству- ющего диагностического подхода. 5. Историография (где и когда разрабатывалась, исследовательские цели, диагностические задачи и пр. информация об истории создания) 6. Область применения методики, классы диагностических задач. 7. Данные об адаптации или модификации (указать вариант). 8. Теоретический конструкт, на измерение и диагностику которого направлена методика. Теоретико-методологическая интерпретация автора кон- цепции измеряемого свойства (теоретического конструкта). 9. Операционализация теоретического конструкта в диагностических конструктах (указание диагностических шкал, описание и характеристика). 10. Порядок работы с методикой, процедура проведения исследования. 11. Возможность индивидуального и группового тестирования по ме- тодике. 12. Инструкция испытуемому, указания по проведению, прочие и осо- бые методические рекомендации по процедуре диагностического обследования. 13. Тестовый материал (бланки, опросные листы, тестовые тетради, ри- сунки и пр.) 14. Протокол исследования (форма представления). 15. Ключи к методике. 16. Процедура обработки результатов. 17. Тестовые нормы (по возрастам) 18. Данные о (ре)стандартизации в группах валидизации и стандарти- зации (показатели M, σ в каждой группе). Внутригрупповая и межгрупповая устойчивость тестовых норм. 19. Интерпретация диагностических шкал в рамках тестовых норм (группа «нормы», «низкая» и «высокая» группы для нормативных тестов, ха- рактеристика носителей диагностического признака для критериально- ориентированных тестов, количественно-качественная интерпретация диагно- стических показателей для проективных и рисуночных методик, процентиль- ные кривые для тестов достижений и т.д.) 20. Данные о надежности методики (психометрические показатели). 21. Данные о валидности методики (психометрические показатели). 22. Интеркорреляции диагностических шкал с другими тестовыми кон- структами. 23. Ссылки на публикации по экспериментальным исследованиям по методике. 24. Литература по методике. 25. Примеры интерпретации протокола обследования. ЗАДАНИЕ ПО РАЗРАБОТКЕ СТАНДАРТИЗИРОВАННОГО САМООТЧЁТА. Психометрический практикум предполагает знакомство с процедурой стандартизации на этапе обработки результатов. Выполнение требуемого объё- ма работ по переводу первичных показателей во вторичные (стены) для вы- бранных опросников, когда в качестве сравнительной базы используется вы- борка студентов, участвовавших в исследованиях (с использованием техноло- гий стандартизации). Проводится анализ, обсуждение и разработка паспортов тестов для со- ставления базы данных. Студенты, в течение данного лабораторного практикума, детально зна- комятся с назначением указанных и других опросников, с составом и с содер- жанием шкал опросников, методическими указаниями по проведению тестиро- вания, инструкциями для испытуемых, технологией подсчёта первичных пока- зателей по прилагаемым к методикам ключам и вариантами обработки с выхо- дом на вторичные показатели. Студенты разрабатывают паспорта тестов. Обращается особое внимание на необходимость унификации имеющих- ся бланков тестов-опросников, условий проведения опроса, процедуры опроса и соблюдения других требований стандартизации. Этапы задания. 1. Операционализация теоретического и диагностического конструк- та. 2. Выделение диагностических индикаторов диагностического кон- структа. 3. Разработка 3-х варианта шкалы субъективного самоотчёта в форме формулировок 3 вопросов. 4. Формирование критериев валидизации (экспертная оценка, рели- вантный диагностический тест, внешний критерий). 5. Подготовка стимульного материала для измерения перцептуальной силы (варианты для ответов: интервальная и номинальная шкала). 6. Сбор данных (тест-ретест, экспертный опрос). 7. Создание базы данных. 8. Психометрическая разработка субъективной шкалы самоотчёта. Пункты отчёта. 1 этап конструирование вопроса. 1. Операционализация теоретического конструкта Операционализация – процедура установления связиконцептуальной схемы с ее методическим инструментарием, заключающаяся в поиске средств фиксации в наблюдении референтов (денотатов) концептуальной схемы и обосновании их валидности. В операционализации фиксируются доступные наблюдению и измерению признаки (характеристики) объектов – индикаторы, которые такжеподлежат обоснованию в качестве таковых. Операционализация – сложно организованная процедура, включающая в себя минимум четыре уровня разнокачественной работы: Это уровень перевода концептов воперациональные определения и по- казатели, т.е. в конечном итоге указания эмпирических значенийтеоретических смыслов (логическая процедура); Уровень измерений по сконструированным определениям ипоказателям (предполагает выход в эмпирическую процедуру); «Вычисление» (статистическая процедура), допускающее возможность построения математической модели, состоящей из переменных; Уровень вывода ненаблюдаемого (концептуального) из наблюдаемого (упорядоченные данные, прошедшие, если это предусмотрено, статистическую обработку: интерпретационная процедура, первичное концептуальноеобъясне- ние). Согласование процедур, взаимопроникающих друг в друга (операцио- нальные определения и измерения, «вычисление» и интерпретация), между со- бой осуществляется в интерпретационной схеме, которая, в свою очередь, под- лежит обоснованию и согласованию с концептуальной схемой. Таким образом, интерпретационная схема может быть понята как «схема распознавания» смыслов предметностей, как комплекс средств для выявления существенных черт исследуемой действительности. Она предполагает наличие верификационной модели и неформализованных (неформализуемых) представ- лений, извлеченных как из концептуальной схемы, так и из знаний и опыта ис- следователя. Операционализация – это работа по переводу концептов в иерар- хию конструктов, вплоть до «деления шкалы» измерительного инструмента, и обеспечение обратного перевода. В социологии О. понимают в этом отношении как работу по переводу понятий в систему показателей. В любом случае она сопровождается сменой языков и заменой используемых терминов, содержит в себе содержательный и формальный аспекты. Операционализация связана с переформулировкой теоретических аб- страктных понятий в конкретные эмпирические, т.е. выходом на аспекты, непо- средственно наблюдаемые в рамках психологических фактов, которые хотим измерить. Не корректно спрашивать респондента, например, непосредственно о дистанциированности (абстрактное понятие). Такого рода понятий могут быть просто непонятны респонденту и вызывать множество установок на тестирова- ния и социальной желательности. Если же исследователь спрашивает о том, насколько близко респондент готов допустить представителей той или иной национальности (как членов семьи или близких друзей, или соседей, или коллег по работе, или жителей своей страны и т.д.), то он работает на операциональ- ном уровне, который одинаково понятен как ему, так и респонденту. Следовательно, качественная операционализация является залогом пра- вильной подготовки опросного инструмента. Если рассматривать проблему операционализации целостно (т.е. не вы- рывая из контекста всего эмпирического исследования), то ее решение начина- ется на этапе определения феномена, подлежащего изучению. Наименование и описание социальных феноменов связано с использованием таких теоретиче- ских инструментов как концепты и конструкты. Во-первых, концепты могут выступать как категории, которым отвечают явления и процессы окружающей действительности и которые могут объеди- няться в теоретические конструкты гипотетического характера, которые под- лежат эмпирической проверке. При этом концепты должны иметь более кон- кретный характер по отношению к более абстрактным конструктам. Во-вторых, концепты и конструкты можно различать по критериям оче- видности и доказанности – концепты являются очевидным образом интерпре- тируемыми, доказуемыми и общеупотребимыми категориями научной практи- ки, а конструкты – гипотетическими построениями, которые пока не достигли статуса очевидности и подлежат исследованию и обоснованию. В-третьих, кон- цепты и конструкты могут соотноситься как отображения двух видов реально- сти – сущего и возможного. К примеру, существование общества (концепт) не подвергается сомнению, но представление о его сути и особенностях конструи- руется по-разному исходя из различных теоретических перспектив. Этот по- следний способ соотнесения и принят в дальнейшем в качестве основного. Операционализация состоит из следующих этапов: наименование психологического феномена (концепт); описание концепта в наиболее общих теоретических понятиях (кон- структ); эмпирическая интерпретация конструкта, т.е. выделение аспектов, изу- чаемого явления, которые понятны респонденту (индикаторы); формулировка соответствующих переменных, легко переводимых в ан- кетные вопросы. Рассмотрим следующий пример: Феномен/концепт Социальная активность студентов Социальная активность студентов, как составная видов активности, при- Теоретический сущих жизнедеятельности индивида в соответствующий возрастной пе- конструкт риод и в соответствующих социальных условиях, а именно: академиче- ская активность, научная активность, трудовая активность, общественная активность, межличностная активность. 1. Академическая активность: посещение пар, активность на лекционных занятиях, активность на практических занятиях. Эмпирические ин- 2. Научная активность: (…) дикаторы 3. Трудовая активность: (…) 4. Общественная активность: (…) 5. Межличностная активность: (…) Академическая активность: А) Посещение пар: количество пропусков в неделю Переменные Б) Активность на лекциях: уточняющие вопросы на лекциях В) Активность на практических: частота подготовки (…) Вопросы для академической активности могут быть, например, такими: А1. Иногда студенты вынуждены пропустить часть или все пары в уни- верситете. Скажите, если говорить о недавнем прошлом, сколько дней в неделю в среднем Вы были вынуждены пропускать частично или полностью пары в университете, не считая дней, когда Вы действительно не могли присутствовать на парах? Если Вы практически никогда не пропускаете пар, напишите 0.___________ пропусков за неделю А2. Скажите, насколько часто вы готовитесь к выступлениям на семи- нарских или практических занятиях (выберите наиболее подходящий вариант)? Готовлюсь очень редко. Готовлю по два-три выступления на самые важные предметы. Стараюсь сделать по два-три выступления на всех предметах. Довольно часто готовлюсь к выступлениям. А3. Иногда на лекции, по ходу занятия, у студентов возникают уточня- ющие вопросы. Иногда лекции проходят таким образом, что вопросов не воз- никает вообще. Скажите, что из ниже приведенного характерно лично для Вас? Дайте один ответ, который более всего подходит. Когда у меня возникают уточняющие вопросы, я стараюсь их задать. У меня возникают уточняющие вопросы, тем не менее, лекции проходят в таком темпе, что задать их тяжело. В-третьих. Лекции обычно проводятся достаточно тщательно, поэтому необходимости в уточняющих вопросах я не вижу. Проведение операционализации характерно, прежде всего, для количе- ственных исследований, в которых исследователь начинает с теории, а уже по- том переходит к измерению социальных показателей. Если же говорить о качественных исследованиях, то в них ситуация ча- сто обстоит с точностью до наоборот – исследователь стремится рефлексивно наблюдать социальную действительность с тем, чтобы на основе такого наблю- дения сформулировать теорию. В этом случае на первых план выходит пробле- ма интерпретации эмпирического материала. Здесь я хочу сразу же оговорить- ся, что далее приведено авторское понимание интерпретации. Интерпретация выступает, в некотором смысле, обратной операционализацией. Так, в ходе интерпретации исследователь непосредственно наблюдае- мые аспекты эмпирической действительности стремится выразить в наиболее подходящих теоретических терминах. Процедура интерпретации, в отличии от процедуры операционализации, не является однозначной, т.е. может принимать различный вид, в зависимости от используемого подхода, опыта и предпочте- ний исследователя. Взаимосвязь метода и методики важна в методической операционализа- ции переменных. Этим понятием охватывается решение проблемы выбора ме- тодик для задания, фиксации и измерения переменных, как представляющих: - те или иные конструкты; - конкретизации переменных в экспериментальной гипотезе; - реалии моделируемой предметной (эксп) деятельности; - условия актуализации изучаемых базисных процессов. Уровни экспериментальных факторов становятся психологическими благодаря тому, что в ЭГ они связываются с ожидаемыми изменениями базис- ного процесса. 2. Шкала субъективной самооценки (конструируемый вопрос) : Формулировка вопроса: 3 Первичные данные опроса с учётом группирубщей. перцептуальная сила выра- группирующая(1-высокие, 0 - № испытуемого женности свойства низкие ) 1 2 3 N среднее 4. Оценка нормальности распределения шкалы субъективной само- оценки 4.1. Гистограмма плотности распределения шкалы субъективной само- оценки (визуальный критерий) Histogram 6 4 2 Mean =2,57 Std. Dev. =1,173 N =24 0 0,00 1,00 2,00 3,00 4,00 5,00 шкала субъективной самооценки 4.2. Критерий ассиметрии и экцесса Ассиметрия/ ошибка ассимери= 0,434/0,456=0,95175439<3 Интервал -0,022 - 0,89 включает значение 0 Критерий экцесса Экцесс/ошибка экцесса=-0,331/0,887=-0,37316798<3 Интервал -1,218 - 0,556 включает значение 0 Frequency 4.3. Критерий Колмагорова-Смирнова 5. Параметры описательной статистики по шкале субъек- тивной самооценки (меры центральной тенденции, меры изменчивости). 6. Конструктная валидность Определим устойчивость теста относительно предмета измерения. Определим насколько наш диагностический конструкт может рассмат- риваться в качестве меры теоретического конструкта, свойства. Для проверки конструктной валидности и индификации диагностиче- ского конструкта выявляем статистические зависимости и связи между шкалой субъективной самооценки и релевантными валидными и надёжными шкалами. Проверим дифференцирующую способность теста. Т-критерий по группирующему признаку для шкалы субъективной са- мооценки. Определим сферу измеряемого свойства и меру относительной свободы от ирреливантных факторов через интеркорреляцию тестовых конструктов. Так же определим конвергентную валидность.  Результаты корреляционного анализа шкалы субъективной само- оценки  Для определения структуры признака и проверки смысловой одно- родности проведём латентно-классификационный анализ. Эмпирическая валидизация В качестве критерия валидизации используется критерий средневзве- шенных экспертных оценок. Шкала экспертных оценок Первичные данные по шкале экспертных оценок среднее значение Выборка стандар- экспертных оце- тизации 1 эксперт 2 эксперт 3 эксперт 4 эксперт 5 эксперт нок 1 2 3 4 N Оценка нормальности распределения шкалы экспертных оценок Гистограмма плотности распределения шкалы экспертных оценок Histogram 5 4 3 2 1 Mean =-0,16 Std. Dev. =2,598 N =24 0 -4,00 -2,00 0,00 2,00 4,00 6,00 шкала экспертных оценок Параметры описательной статистики по шкале экспертных оценок Проверка статистической однородности экспертных оценок на основе корреляционного анализа . Пример. ЭКСПЕРТ1 ЭКСПЕРТ2 ЭКСПЕРТ3 Корреляция ЭКСПЕРТ1 Пирсона 1 0,814 0,943 Знч.(2-сторон) 0,021 0,034 Корреляция ЭКСПЕРТ2 Пирсона 0,814 1 0,535 Знч.(2-сторон) 0,021 0,011 Корреляция ЭКСПЕРТ3 Пирсона 0,943 0,535 1 Знч.(2-сторон) 0,034 0,011 Frequency Консенсусная валидность Определим насколько взаимозависимы изменения значений переменных шкалы субъективной самооценки и шкалы экспертных оценок и определим взаимодействие этих шкал. Результаты регрессионного анализа шкалы субъективной самооценки и шкалы экспертной оценки Зависимая переменная шкала субъективной самооценки Зависимая переменная шкала экспертных оценок Регрессионная связь статистически достоверна. Следовательно можно судить о взаимозависимости и взаимодействии диагностического конструкта и критерия валидизации. Вычислим коэффициент валидности. Пример! Для этого вычисли коэффициент корреляции шкалы субъективной само- оценки и критериальных показателей (шкалы экспертнойоценки и дополни- тельной шкалой СМИЛ «лидерство») шкала субъек- СМИЛ ЛИ- шкала экс- тивной само- ДЕРСТВО пертных оце- оценки ДОП ШКАЛА нок шкала субъективной Pearson Correlation 1 ,519(**) ,553(**) самооценки Sig. (2-tailed) ,009 ,005 N 24 24 24 СМИЛ ЛИДЕРСТВО Pearson Correlation ,519(**) 1 ,545(**) ДОП ШКАЛА Sig. (2-tailed) ,009 ,006 N 24 24 24 шкала экспертных Pearson Correlation ,553(**) ,545(**) 1 оценок Sig. (2-tailed) ,005 ,006 N 24 24 24 Найдём стандартную ошибку оценки SEest=𝑆𝐷√1 − 𝑟2=√0,49= 4,69 (критерий дополнительная шкала СМИЛ «лидерство») Относительно ошибки простого угадывания √1 − 𝑟2=√0,49=0,7 Максимальная ошибка составляет 70%от величины, которая была бы при случайном угадывании SEest= 𝑆𝐷√1 − 𝑟2=4,48 (критерий шкала экспертных оценок) Относительно ошибки простого угадывания √1 − 𝑟2=√0,45=0,67 Максимальная ошибка составляет 67%от величины, которая была бы при случайном угадывании Отработка конструктной валидности на шкале экспертных оценок Проверка гомогенности факторных матриц шкалы субъективаной само- оценки и шкалы экспертных оценок Результаты факторного анализа шкалы экспертных оценок , шкал MMPI, CHT и дополнительной шкалы Можно сделать вывод о гомогенности факторной структуры. В соответ- ствии с этим факторная структура диагностического контрукта подтверждена. 2 этап разработка самоотчёта. Разработка пунктов стандартизированного самоотчёта 1. Отбор вопросов при помощи факторного анализа методом главных компонент с варимакс вращением. Оценка дискременаннтной и дифференцирующей силы пунктов теста Факторизация с варимакс вращением пунктов вопроса для оценки дис- криминнатной силы вопросов Выделение анкерных вопросов. Пример. На основании ответов на вопрос в интервальной шкале необходимо в процедуре факторного анализа отобрать вопросы для субъективного самоотчё- та. Получена 2-факторная матрица, объясняющая 80% индивидуальных различий. Компонента Суммы квадратов нагрузок вращения Итого % Дисперсии Кумулятивный % 1 7,356 45,908 45,988 2 7,107 33,109 80 3 В матрице повёрнутых компонент необходимо выделить анкерные во- просы с наибольшей дисперсионной силой, которые будут входить в новый са- моотчёт и по знаку факторной нагрузке определить «ключ» к вопросу. Матрица повернутых компонентa Компонента 1 2 Вопрос 11 ,839 Вопрос 14 ,838 Вопрос 19 ,822 Вопрос 12 ,791 Вопрос 25 ,783 Вопрос 7 ,750 Вопрос 24 ,690 Вопрос 21 ,598 Вопрос 27 ,547 Вопрос 20 ,544 Вопрос 23 ,507 Вопрос 31 ,504 Вопрос 29 ,500 Вопрос 13 ,233 Вопрос 15 ,111 Вопрос 4 ,345 Вопрос 17 ,215 Вопрос 9 ,333 Вопрос 18 ,898 Вопрос 6 ,868 Вопрос 30 ,831 Вопрос 22 ,705 Вопрос 16 ,690 Вопрос 8 ,663 Вопрос 10 ,627 Вопрос 3 ,624 Вопрос 5 ,598 Вопрос 26 ,149 Вопрос 32 ,198 Вопрос 1 ,266 Вопрос 28 ,378 Вопрос 2 ,397 Метод выделения: Анализ методом главных компонент. Метод вращения: Варимакс с нормализацией Кайзера.a а.Вращение сошлось за 3 итераций. 2. Разработка ключа теста на основе факторных весов. Пример. Ключ к тесту № вопроса Факторная нагрузка Ключ Балл 1 0,73 + 1 2 0,54 + 1 3 0,73 + 1 4 0,69 + 1 5 0,69 + 1 6 0,65 + 1 7 - 0,82 - 0 8 0,8 + 1 9 0,8 + 1 10 - 0,61 - 0 11 0,83 + 1 12 - 0,91 - 0 13 0,86 + 1 14 0,77 + 1 15 - 0,88 - 0 16 0,8 + 1 17 - 0,72 - 0 18 0,84 + 1 19 0,81 + 1 20 0,82 + 1 21 0,58 + 1 22 - 0,7 - 0 23 - 0,93 - 0 24 - 0,67 - 0 25 - 0,81 - 0 26 0,69 + 1 27 0,87 + 1 28 - 0,72 - 0 29 0,55 + 1 30 0,87 + 1 31 - 0,91 - 0 32 -0,75 - 0 3. Расчёт суммарных тестовых баллов для каждого респондента вы- борки стандартизации для теста и ретеста по разработанному ключу. 3.1. Распределение тестовых норм на эмпирической группе валидизации (работа с суммарным тестовым баллом). Описательные статистики на эмпири- ческой выборки. 4. Оценка нормальности распределения. 5. Оценка надёжности 5.1. Ретестовая и прогностическая надёжность т-балла (корреляционная модель и регрессионная) 5.2. Ретестовая надёжность пунктов теста 5.3. Внутренняя согласованность (альфа Кронбаха) 5.4. Надёжность полного теста по формуле Рюлона 5.5. Стандартная ошибка оценки 6. Эмпирическая валидизация 7. Интеркорреляция тестовых конструктов Корреляционная модель (Таблица и графы/плеяды) Факторная модель (для общего балла и по факторам) (Таблица и гра- фы/плеяды) Модель связи по критерию Манна-Уитни Распределение тестовых норм на эмпирической группе валидизации Пункт 3.1. Описательные статистики сырые стэны среднее Ошибка среднего Медиана Мода Ст. отклон. Вариация ассиметрия Ошибка асимметрии эксцесс Ошибка эксцесса диапапзон Минимум Максимум Сумма Пункт 3.2. Тестовые норма на выборке эмпирической валидизации(стены/сырые) Среднее значение: Дисперсия: Коридор нормы: Разработка тестовых норм Оценка нормальности распределения суммарных показателей теста Параметры описательной статистики суммарных показателей теста Гистограмма плотности распределения суммарных показателей теста One-Sample Kolmogorov-Smirnov Test суммарные результаты N 24 Normal Parameters(a,b) Mean 7,6121 Std. Deviation 4,94237 Most Extreme Differences Absolute ,122 Positive ,122 Negative -,105 Kolmogorov-Smirnov Z ,599 Asymp. Sig. (2-tailed) ,866 a Test distribution is Normal. b Calculated from data. Тестовые нормы Доверительный интервал для ошибки среднего x̅ ±Sx̅ ∙tαη = 7,61 1,92 Группа низких 1,41-5,69)- высокая выраженность признака Группа средних 5,96-9,53- средняя выраженность признака Группа высоких (9,53-21,10- низкая выраженность признака z-преобразование суммарных тестовых баллов (пример расчётов) В В В В оп оп оп оп Во z- ро ро ро ро пр пока- с с с с ос Вопрос суммар- X- за- Респондент 1 2 3 3 4 N ШСС ный балл M тель T баллы 1 0 -5 -5 -5 -4 4 3 -40 -16 0 50,00 2 4 -5 -4 0 4 2 3 19 43 0 50,00 3 -5 -4 -5 -5 -4 -3 1 -41 -17 0 50,00 4 0 0 0 0 0 0 5 5 29 0 50,00 5 -3 -5 -5 -4 -3 -5 3 -71 -46 -1 40,00 6 -5 -5 -5 -4 1 -4 2 -65 -41 0 50,00 7 -2 -5 -5 -5 1 4 3 -32 -8 0 50,00 8 -2 -3 -3 -3 1 -3 3 -29 -5 0 50,00 9 -3 -1 -3 1 1 -1 1 26 50 1 60,00 10 -5 -4 -5 -5 -5 2 4 -74 -50 -1 40,00 11 -5 -5 -5 -5 2 -5 4 -63 -39 0 50,00 12 -4 -2 -4 -1 1 -1 2 -29 -5 0 50,00 13 -5 -5 -5 -5 2 -5 1 -58 -34 0 50,00 14 3 -1 -3 -3 2 -2 1 -3 21 0 50,00 15 -5 -5 -5 -5 -4 0 4 -54 -30 0 50,00 16 -5 -3 -2 -5 -4 -5 2 -78 -54 -1 40,00 17 -3 3 -4 1 2 -5 2 -39 -15 0 50,00 18 5 0 -3 4 5 5 2 69 93 2 70,00 19 3 4 1 4 4 2 2 79 103 2 70,00 20 5 2 2 5 4 3 1 61 85 1 60,00 21 -5 -5 -5 -4 2 -5 3 -47 -23 0 50,00 22 -1 -5 -5 -3 2 -1 4 -48 -24 0 50,00 N 2 -4 -5 0 -3 -4 3 -3 6 -11 0 50,00 средние -1 -3 -4 -2 0 среднее 3 -24 0 0 51 диспер- 205 дисперсия 12 8 4 10 9 сия 2057 7 1 55 Дове- ритель- доверитель- ный ин- ный вверх- терва ний 11 5 0 8 9 sd 45 51±55 доверитель- - - - ный нижний 14 10 -8 12 -9 Довери- тельный Довери- Сред- Диспер- ввер- тельный ресондент 1 2 3 4 5 6 7 8 N нее сия хний нижний вопрос 6 2 -1 3 -1 -5 -4 -5 -3 -3 -2 10 8 -11 вопрос 7 0 3 3 -3 2 3 5 -3 5 2 6 8 -3 вопрос 20 0 -2 -1 -1 4 2 5 2 3 1 7 8 -5 вопрос 22 -1 -1 2 -3 -5 -5 2 -4 3 0 12 11 -12 вопрос 36 0 1 -3 4 3 5 5 4 -3 2 11 13 -9 вопрос 39 0 5 -5 -4 -4 -5 -4 -5 -4 -2 14 12 -16 вопрос 42 2 -4 -2 -5 -5 -5 5 -4 -1 -3 7 4 -10 вопрос 49 3 -2 3 -4 -5 -5 3 -4 4 -1 15 14 -15 вопрос 52 -1 -5 -5 -5 -5 -5 -5 -5 1 -4 5 1 -8 вопрос 66 2 1 -2 4 5 4 3 -3 3 2 6 8 -4 вопрос 81 0 0 -5 -3 -5 -5 -4 -3 -5 -2 8 6 -10 вопрос 82 1 4 -1 -5 -5 -5 -5 -5 5 -3 9 5 -12 вопрос 95 3 5 -4 -3 -5 -5 3 1 -3 -1 14 13 -14 вопрос 97 2 5 2 -4 5 3 2 -2 0 1 9 10 -8 вопрос 101 4 4 -3 4 5 3 5 -2 -1 3 5 8 -2 вопрос 111 -1 -5 -5 -4 -5 -5 -5 -3 1 -2 11 9 -13 вопрос 123 5 1 3 -3 5 2 -3 -4 3 1 10 11 -10 вопрос 125 2 1 2 5 4 -5 4 4 4 1 11 12 -10 вопрос 126 -1 2 -5 -1 -5 -4 -5 -4 -1 -2 9 6 -11 вопрос 130 0 -1 -5 0 5 2 -4 -3 2 -1 7 6 -8 вопрос 136 2 -2 -2 -3 -5 -5 -5 -4 2 -2 9 7 -11 вопрос 138 0 4 5 3 5 5 5 -4 4 3 8 11 -6 вопрос 155 0 1 -5 -5 -5 -5 -5 -3 -3 -2 11 9 -13 вопрос 156 4 1 2 4 5 5 5 4 4 3 8 10 -5 вопрос 161 3 -2 1 4 1 5 3 -5 2 1 11 12 -10 вопрос 187 -1 1 2 -5 -5 -5 -2 -4 3 -1 13 13 -14 вопрос 191 0 4 -5 2 -5 3 -5 -4 3 -1 14 13 -15 вопрос 202 0 1 -5 -3 -5 -4 3 -2 3 -1 11 10 -12 вопрос 221 3 -2 -5 -3 -5 -5 -3 -3 -3 -2 9 7 -12 вопрос 245 1 -4 1 0 0 -3 5 -3 -4 -1 9 8 -10 вопрос 246 3 -1 2 4 5 5 5 4 5 2 9 12 -7 вопрос 272 1 1 -2 4 5 5 3 3 4 2 10 12 -8 вопрос 273 0 0 5 0 5 -3 5 -4 2 1 13 14 -12 вопрос 279 1 -3 -4 -4 -3 -5 -5 -4 -4 -3 7 4 -10 вопрос 292 0 -3 -3 4 5 3 -3 -3 1 1 9 9 -8 вопрос 298 0 3 -3 4 5 3 4 4 -3 2 7 9 -4 вопрос 307 -5 1 -2 -1 -4 -3 3 3 -5 -1 12 11 -13 вопрос 309 1 -4 -5 -5 -5 -5 -5 -3 5 -2 13 11 -15 вопрос 332 0 -3 3 -5 1 4 4 4 -3 1 10 11 -9 вопрос 335 1 -3 -4 3 5 5 3 3 4 0 14 14 -14 вопрос 350 3 -2 -3 1 1 2 3 -3 3 1 8 9 -8 вопрос 362 -5 2 -5 0 0 5 5 5 -2 3 9 12 -7 вопрос 363 0 2 -3 4 5 5 5 5 1 2 8 10 -6 вопрос 365 4 4 -2 3 -1 -4 -3 -2 2 -1 10 9 -11 вопрос 366 -4 4 -3 -3 -4 -2 3 1 4 0 12 11 -12 вопрос 368 0 -3 -1 -3 -5 -5 -5 -4 4 -1 12 11 -13 367 0 1 3 4 5 5 5 2 2 2 8 10 -6 среднее вопрос 371 4 2 -3 -1 -5 -4 4 -3 -4 значение суммарный балл 38 11 -69 -29 -20 -32 34 -66 40 -8 46 19 -61 -21 -12 -24 42 -58 48 0 z-показатель 1 0 -1 0 0 0 0 -1 1 0,04 0,39 42 среднее дисперсия SD значение Результаты теста Xi-M z - показатель (Xi-M\SD) Т- баллы 1 3,22 4,09 0 50 2 11,83 3,61 0 50 3 9,22 2,76 0 50 4 -3,68 -3,24 0 50 5 0,54 -3,39 0 50 6 3,52 -1,81 0 50 7 3,16 0,84 0 50 8 3,48 0,51 0 50 9 14,61 4,54 0 50 10 0 -0,09 0 50 11 0,55 -2,61 0 50 12 1,94 -2,11 0 50 13 2,62 -0,24 0 50 14 15,49 4,97 0 50 15 3,12 -4,88 0 50 16 0,69 -3,13 0 50 17 6,08 -1,00 0 50 18 22,34 14,81 2 70 19 17,2 8,66 1 60 20 20,88 11,27 1 60 21 3,96 -1,82 0 50 22 1,09 -3,97 0 50 23 3,9 1,41 0 50 24 5,26 2,55 0 50 среднее 6,29 1,32 0,17 51,67 дисперсия 49,37 24,43 0,23 23,19 стандартное отклонение 6,80 4,80 0,47 4,80 Пункт 4. Оценка нормальности распределения. 4.1. Визуальный Критерий Гистограмма плотности распределения 4.2. Критерий ассиметрии Ассиметрия/ ошибка ассимери= <3 Интервал включает значение 0 4.3. Критерий экцесса Экцесс/ошибка экцесса= <3 Интервал включает значение 0 4.4 Критерий Колмогорова – Смирнова Пункт 5. Расчёт надёжности 5.1. Найдём стандартную ошибку оценки Пример SEest=𝑆𝐷√1 − 𝑟2=√0,49= 4,69 (критерий дополнительная шкала стандар- тизированного теста) Относительно ошибки простого угадывания √1 − 𝑟2=√0,49=0,7 Максимальная ошибка составляет 70%от величины, которая была бы при случайном угадывании SEest= 𝑆𝐷√1 − 𝑟2=4,48 (критерий шкала экспертных оценок) Относительно ошибки простого угадывания √1 − 𝑟2=√0,45=0,67 Отбор пунктов теста для дифференциации детерминант признака на ос- нове группирующего признака шкаля экпертных оценок. Т-критерий по группирующему признаку для шкалы экспертных оценок 5.2. Расчёт надёжности Определим устойчивость и согласованность результатов теста, получае- мых при повторном его применении к тем же испытуемым в различные момен- ты времени, то есть определим какую долю общей дисперсиитестовых показа- телей составляет дисперсия ошибок Ретестовая надёжность Ретестовый интервал 2 недели Проверка наличия корреляционной связи, степени соответствия между показателями проведённого теста и ретестовых показателей Пример. Correlations результаты теста результаты ретеста результаты теста Pearson Correlation 1 ,909(**) Sig. (2-tailed) ,000 результаты ретеста Pearson Correlation ,909(**) 1 Sig. (2-tailed) ,000 ** Correlation is significant at the 0.01 level (2-tailed). Можно сказать, что степень соответствия тестовых показателей и стати- стически значима очень значима Коэффициент ретестовой надёжности 0,909. Проверим надёжность-согласованность каждого пункта теста. № испытуемого 1 половина теста 2 половина теста разница между результатами 1 2 3 N дисперсия Внутренняя согласованность Внутренняя согласованность Вычислим коэффициент альфа Кронбаха n rt =( )∙(sd 2 t - ∑(sd 2 2 i )\sdt )=1,03х(45,24-5,93\45,24)=0,90 n−1 Определим надёжность полного теста по формуле Рюлона rt =1-sd 2 d \sd 2 x =1-(3,74\45,24)=1-0,09=0,91 Пункт 6. Валидность. Пример. Для проверки конструктной валидности и индификации диагностиче- ского конструкта выявляем статистические зависимости и связи между шкалой субъективной самооценки и релевантными валидными и надёжными шкалами. Проверим дифференцирующую способность теста. Т-критерий по группирующему признаку для шкалы субъективной са- мооценки. Для этого респонденты были разбиты на группы высокой и ни зкой вы- раженности признака по результатам тестирования по нашему тесту и сравнены по показателей других тестов. Independent Samples Test Mean Sig. (2- Differen t df tailed) ce mean 1 mean 0 Lower Upper Lower Upper СМИЛ ЛИДЕРСТВО ДОП. ШКАЛА 38,92 31,50 2,40 22,00 0,03 7,42 Тейлор 14,42 22,67 -2,33 22,00 0,03 -8,25 Спилбергег ситуационная тре- вожность 38,67 44,33 -2,14 22,00 0,04 -5,67 H Кеттел(смелость - робость) 6,75 4,75 2,19 22,00 0,04 2,00 L Кеттел (подозрительность- доверчивость) 6,67 5,58 2,37 22,00 0,03 1,08 О Кеттел (склонность к чувтву вины- самоуверенность) 5,67 7,17 -2,26 22,00 0,03 -1,50 Мотивация достижения 140,25 108,17 3,31 0,00 32,08 Мотивация избегания неудач 140,25 108,08 3,31 22,00 0,00 32,17 Мотивация страха отвержения 104,08 133,92 -2,38 22,00 0,03 -29,83 2чхт (синзетивность) 2,75 5,75 -2,59 22,00 0,02 -3,00 4чхт (подвижность нервных про- цессов) 6,83 3,58 2,76 22,00 0,01 3,25 1реал Лири (властно- лидирующий) 7,83 5,17 2,37 22,00 0,03 2,67 5реал Лири (покорно- застенчивый) 2,92 7,67 -3,68 22,00 0,00 -4,75 6реалЛири (зависимо- подчиняемый) 4,17 7,33 -2,97 22,00 0,01 -3,17 7реал Лири 5,17 6,92 -2,11 22,00 0,05 -1,75 Индекс дом.реал.Лири 7,46 -0,10 2,98 22,00 0,01 7,56 Томас приспособление 10,00 7,92 2,64 21,00 0,02 2,08 К MMPI 50,83 44,08 2,12 22,00 0,05 6,75 9 MMPI (гипомания) 68,58 53,92 3,50 22,00 0,00 14,67 Определим сферу измеряемого свойства и меру относительной свободы от ирреливантных факторов через интеркорреляцию тестовых конструктов. Так же определим конвергентную валидность. Результаты корреляционного анализа шкалы субъективной самооценки шкала субъективной самооценки Тейлор Pearson Correlation -0,42 Sig. (2-tailed) 0,04 C Кеттел (эмоциональная устойчи- вость –эмоциональная неустойчи- вость) Pearson Correlation 0,41 Sig. (2-tailed) 0,05 E Кеттел(напористость- покорность,зависимость) Pearson Correlation 0,55 Sig. (2-tailed) 0,01 F Кеттел(беспечность- озабоченность) Pearson Correlation 0,53 Sig. (2-tailed) 0,01 H Кеттел(смелость - робость) Pearson Correlation 0,65 Sig. (2-tailed) 0,00 N Кеттел(проницательность- наивность, простота) Pearson Correlation -0,44 Sig. (2-tailed) 0,03 О Кеттел(склонность к чувству ви- ны- самоуверенность) Pearson Correlation -0,45 Sig. (2-tailed) 0,03 Айзенк экстраверсия Pearson Correlation 0,40 Sig. (2-tailed) 0,05 Мотивация достижения Pearson Correlation 0,58 Sig. (2-tailed) 0,00 Мотивация избегания неудач Pearson Correlation 0,58 Sig. (2-tailed) 0,00 1чхт (сила нервных процессов со стороны возбуждения) Pearson Correlation 0,49 Sig. (2-tailed) 0,01 2чхт(синзетивность) Pearson Correlation -0,48 Sig. (2-tailed) 0,02 Sig. (2-tailed) 0,01 2 MMPI (тревога и депресивные- тенденции) Pearson Correlation -0,41 Sig. (2-tailed) 0,04 9 MMPI (гипомания) Pearson Correlation 0,60 Sig. (2-tailed) 0,00 0 MMPI (социальная интроверсия) Pearson Correlation -0,47 Sig. (2-tailed) 0,02 6 ист-70 (ряды чисел, анализ индук- тивного мышеления, способность оперировать числами) Pearson Correlation 0,41 Sig. (2-tailed) 0,05 СМИЛ ЛИДЕРСТВО ДОП. ШКА- ЛА Pearson Correlation 0,52 Sig. (2-tailed) 0,01 Correlation is significant at the 0.05 level (2- * tailed). Correlation is significant at the 0.01 level (2- ** tailed). Для определения структуры признака и проверки смысловой однородности проведём латентно-классификационный анализ. Результаты факторного анализа шкалы субъективной самооценки, шкал MMPI, CHT и дополнительной шкалы F1 F2 F3 F4 F5 - СМИЛ ЛИДЕРСТВО ДОП ШКАЛА 0,76 -0,17 0,05 0,05 -0,34 Шкала субъективной самооценки 0,75 0,06 0,32 0,12 0,01 1чхт (сила нервных процессов со стороны возбуж- - - дения) 0,74 -0,04 0,21 0,14 -0,03 2чхт(синзетивность) -0,78 0,28 0,05 0,36 0,15 3чхт сила нервных процессов со стороны тормаже- - ния) -0,25 -0,74 0,00 0,45 0,12 - 4чхт (подвижность нервных процессов) 0,77 0,24 0,16 0,27 -0,01 5чхт (эмоциональная лабильность) -0,30 0,52 0,31 0,22 0,51 - 6чхт(развитие 1 сигнальной системы) 0,31 0,37 0,01 0,79 0,12 - 7чхт (развитие 2 сигнальной системы) 0,18 0,14 0,02 0,83 0,10 8чхт(психопатические особенности) 0,15 0,07 0,58 0,04 -0,12 - - 9чхт(искущённость) 0,15 -0,09 0,07 0,09 0,85 - 10чхт(уровень притязаний) 0,70 0,16 0,13 0,09 0,41 - Л MMPI 0,10 -0,05 0,63 0,13 -0,27 - Ф MMPI -0,55 0,01 0,52 0,20 -0,22 К MMPI 0,74 -0,13 0,08 0,18 0,09 - 1 MMPI (ипохондрия) -0,37 0,65 0,35 0,05 -0,01 - 2MMPI (тревожности и депрессивных тенденций) -0,71 0,44 0,29 0,23 -0,21 - 3MMPI(истерия) 0,08 0,80 0,39 0,05 0,14 4MMPI(психопатия) 0,10 0,05 0,79 0,32 0,01 - 5MMPI(мужественность/женственность) -0,17 0,79 0,14 0,06 -0,04 - 6 MMPI(паранояльности) -0,35 0,15 0,39 0,21 0,11 - 7MMPI(психостения) -0,63 0,53 0,32 0,16 -0,20 8MMPI(шизофрения) -0,45 0,22 0,75 0,00 -0,10 9MMPI(гипомания) 0,41 0,26 0,29 0,49 -0,07 - 0MMPI(cщциальнаяинтроверсия) -0,69 0,13 0,35 0,13 -0,19 Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a Rotation converged in 7 iterations. Initial Eigenvalues Total % of Variance Cumulative % 1 7,68 30,72 30,72 2 4,29 17,16 47,89 3 2,32 9,28 57,16 4 1,72 6,87 64,03 5 1,51 6,06 70,09 Эмпирическая валидизация В качестве критерия валидизации используется критерий средневзвешен- ных экспертных оценок. Шкала экспертных оценок Первичные данные по шкале экспертных оценок среднее значе- ние экспертных Респондент 1 эксперт 2 эксперт 3 эксперт 4 эксперт 5 эксперт оценок 1 -2,4 -4 -2,5 -1,4 -2,5 -2,56 2 -3,5 -5 -3,6 -2,5 -3,6 -3,64 3 1,8 -0,3 -3,4 -3 -3,4 -1,66 4 3,4 0 1,3 2 1,3 1,6 5 4,6 1,1 3,8 3,1 3,8 3,28 6 -1,4 0,4 2 0,6 2 0,72 7 -3,5 1,1 1,2 0,5 1,2 0,1 8 -3,6 -1,3 -1,8 0,4 -1,8 -1,62 9 -5 -0,5 1,1 2,1 1,1 -0,24 10 5 5 4,1 2,2 4,1 4,08 11 0,1 1,5 3,2 2 3,2 2 12 1,4 -5 -3,3 -2,5 -3,3 -2,54 13 2,5 -0,5 -2,2 -1,6 -2,2 -0,8 14 -4 -5 -3,4 -3,3 -3,4 -3,82 15 3,4 -4,5 0,7 1,7 0,7 0,4 16 1,8 4,1 2 0,4 2 2,06 17 0,1 -1 -1,8 0,1 -1,8 -0,88 18 -3,1 -5 -3,3 -1,5 -3,3 -3,24 19 -5 -5 -3,6 -2 -3,6 -3,84 20 -5 -5 -3,4 -2,5 -3,4 -3,86 21 2,7 5 2,9 2,5 2,9 3,2 22 3,3 3,7 2,5 2,7 2,5 2,94 23 2,8 4,5 1,8 2,5 1,8 2,68 24 3 0,2 2,6 0,4 2,6 1,76 Оценка нормальности распределения шкалы экспертных оценок. Гистограмма плотности распределения шкалы экспертных оценок. Histogram 5 4 3 2 1 Mean =-0,16 Std. Dev. =2,598 N =24 0 -4,00 -2,00 0,00 2,00 4,00 6,00 шкала экспертных оценок Параметры описательной статистики по шкале экспертных оценок N Valid 24 Missing 0 Mean -,1617 Std. Error of Mean ,53037 Median -,0700 Mode -3,86(a) Frequency Std. Deviation 2,59829 Variance 6,751 Skewness -,034 Std. Error of Skewness ,472 Kurtosis -1,354 Std. Error of Kurtosis ,918 Range 7,94 Minimum -3,86 Maximum 4,08 Sum -3,88 One-Sample Kolmogorov-Smirnov Test шкала экспертных оценок N 24 Mean -,1617 Normal Parameters(a,b) Std. Deviation 2,59829 Most Extreme Differences Absolute ,126 Positive ,112 Negative -,126 Kolmogorov-Smirnov Z ,618 Asymp. Sig. (2-tailed) ,840 a Test distribution is Normal. b Calculated from data. Исходя из визуального анализа и критерия Колмогорова-Смирнова мож- но сделать вывод о нормальности распределения показателе по шкале эксперт- ных оценок. Проверка статистической однородности экспертных оценок на основе корреляционного анализа эксперт 1 эксперт 2 эксперт 3 эксперт 4 эксперт 5 эксперт 1 Pearson Correlation 1 ,609(**) ,610(**) ,540(**) ,610(**) Sig. (2-tailed) ,002 ,002 ,006 ,002 N 24 24 24 24 24 эксперт 2 Pearson Correlation ,609(**) 1 ,823(**) ,741(**) ,823(**) Sig. (2-tailed) ,002 ,000 ,000 ,000 N 24 24 24 24 24 эксперт 3 Pearson Correlation ,610(**) ,823(**) 1 ,909(**) 1,000(**) Sig. (2-tailed) ,002 ,000 ,000 ,000 N 24 24 24 24 24 эксперт 4 Pearson Correlation ,540(**) ,741(**) ,909(**) 1 ,909(**) Sig. (2-tailed) ,006 ,000 ,000 ,000 N 24 24 24 24 24 эксперт 5 Pearson Correlation ,610(**) ,823(**) 1,000(**) ,909(**) 1 Sig. (2-tailed) ,002 ,000 ,000 ,000 N 24 24 24 24 24 Консенсусная валидность Определим насколько взаимозависимы изменения значений переменных шкалы субъективной самооценки и шкалы экспертных оценок и определим вза- имодействие этих шкал. Результаты регрессионного анализа шкалы субъективной самооценки и шкалы экспертной оценки Зависимая переменная шкала субъективной самооценки Unstandardized Standardized Model Coefficients Coefficients t Sig. B Std. Error Beta B Std. Error 1 (Constant) 2,607 ,204 12,759 ,000 Шкала экспертной ,250 ,080 ,553 3,117 ,005 оценки a Dependent Variable: Шкала субъективной самооценки Зависимая переменная шкала экспертных оценок Unstandardized Standardized Model Coefficients Coefficients t Sig. B Std. Error Beta B Std. Error 1 (Constant) -3,308 1,106 -2,991 ,007 Шкала субъектив- 1,226 ,393 ,553 3,117 ,005 ной самооценки a Dependent Variable: Шкала экспертной оценки Регрессионная связь статистически достоверна. Следовательно можно су- дить о взаимозависимости и взаимодействии диагностического конструкта и критерия валидизации. Вычислим коэффициент валидности. Для этого вычисли коэффициент корреляции шкалы субъективной само- оценки и критериальных показателей (шкалы экспертнойоценки и дополнитель- ной шкалой СМИЛ «лидерство») шкала субъек- СМИЛ ЛИ- шкала экс- тивной само- ДЕРСТВО пертных оце- оценки ДОП ШКАЛА нок шкала субъективной Pearson Correlation 1 ,519(**) ,553(**) самооценки Sig. (2-tailed) ,009 ,005 N 24 24 24 СМИЛ ЛИДЕРСТВО Pearson Correlation ,519(**) 1 ,545(**) ДОП ШКАЛА Sig. (2-tailed) ,009 ,006 N 24 24 24 шкала экспертных Pearson Correlation ,553(**) ,545(**) 1 оценок Sig. (2-tailed) ,005 ,006 N 24 24 24 БИБЛИОГРАФТЧЕСКИЙ СПИСОК 1. Александров, А.А. Психодиагностика и психокоррекция. Серия: Мастера психологии. / А.А. Александров. – СПб.: Питер, 2008. – 384 с. 2. Анастази, А., Психологическое тестирование / А. Анастази, С. Ур- бина. – СПб.: Питер, 2009. – 688 с. 3. Ахвердова, О.А. Дифференциальная психология: теоретические и прикладные аспекты исследования интегральной индивидуальности. / О.А. Алахвердов, Н.Н. Волоскова, Т.В. Белых. – СПб.: Речь, 2012. – 168 c. 4. Бодалев, А.А. Общая психодиагностика / А.А. Бодалёв, В.В. Сто- лин. – СПб.: Питер, 2000. – 440 с. 5. Бурлачук, Л.Ф. Психодиагностика / Л.Ф. Бурлачук. – СПб.: Питер, 2008. – 351 с 6. Бурлачук, Л.Ф. Словарь-справочник по психологической диагно- стике / Л.Ф. Бурлачук, С.М. Морозов. – СПб.: Питер, 1999. – 528 с. 7. Гайда, В.К. Психологическое тестирование / В.К. Гайда, В.П. Заха- ров. – Л.: Изд-во ЛГУ, 1982. – 100 с. 8. Глуханюк, Н.С. Практикум по психодиагностике / Н.С. Глуханюк. – М.: Изд-во Московский психолого-социальный институт, 2009. – 204 с. 9. Глуханюк, Н.С. Психодиагностика. Практикум / Н.С. Глуханюк, Д.Е. Белова. – М.: Изд-во Акад.проект, серия Gaudeamus, 2009. – 272 с. 10. Гуревич, К.М. Надежность психологических тестов // Психологиче- ская диагностика. Ее проблемы и методы. – М., 1975. – с. 162 –176. 11. Гуревич, К.М. Статистика – аппарат доказательства психологиче- ской диагностики // Проблемы психологической диагностики. – Таллин, 1977 – с. 206–225 12. Гуревич, К.М. Что такое психологическая диагностика. – М., 1985. 13. Гуревич, К.М. Дифференциальная психология и психодиагностика. Избранные труды / К.М. Гуревич. – СПб.: Питер, 2008. – 336 с. 14. Гуревич, К.М. Основы психологической диагностики: учебное по- собие / К.М. Гуревич, М.К. Акимова. – М.: УРАО, 2003. – 392 с. 15. Гусев, А.Н. Измерение в психологии: общий психологический практикум / А.Н. Гусев, Ч.А. Измайлов, М.Б. Михайловская. – М.: УРАО, 1997. – 187 с. 16. Двинин, А.П. Современная психодиагностика. Учебно– практическое руководство / А.П. Двинин, И.А. Романченко. – СПб.: Речь, 2012. –283 с. 17. Елисеев, О.П. Практикум по психологии личности / О.П. Елисеев. – СПб: Питер, 2010. – 512 с. 18. Ким, В.С. «Тестирование учебных достижений» / В.С. Ким. – Уссу- рийск: УГПИ, 2007. – 2014 с. 19. Клайн, П. Справочное руководство по конструированию тестов / П. Клайн. – Киев: «ПАН-лтд», 1994. – 283 с. 20. Курс лекций по психодиагностике: Материалы для самостоятельно- го изучения / Сост. С.В. Голев, О.С. Голева. – Херсон: ХФ ОМУРЧ «Украина», 2008. – 155 с. 21. Либин, А.В. Дифференциальная психология / А.В. Либин. – М.: Смысл, 2000. – 532 с. 22. Никандров, В.В. Метод тестирования в психологии. Учебное посо- бие / В.В. Никандров, В.В. Новочадов. – СПб.: Речь, 2003. – 48 с. 23. Носс, И.Н. Психодиагностика, тест, психометрия, эксперимент (ин- формационно–методический комплекс материалов к практическим занятиям по психодиагностике и экспериментальной психологии) / И.Н. Носс. – М.: КСП+, 1999. – 320 с. 24. Носс, И.Н. Руководство по психодиагностике / И. Н. Носс. – М.: Изд–во Института психотерапии, 2005. – 688 с. 25. Носс, И.Н. Психодиагностика : учебник для академического бака- лавриата / И.Н. Носс. – 2–е изд., перераб. и доп. – М. : Издательство Юрайт, 2016. – 500 с. 26. Основы психодиагностики / Под ред. А.Г. Шмелева. – Москва, Ро- стов-на-Дону: «Феникс», 1996. – 544 с. 27. Практикум по психодиагностике личности. Дидактические матери- алы / Под ред. Н.К. Ракович. – Мн.: БГПУ им. М.Танка, 2002. – 248с. 28. Практикум по психодиагностике / Под ред. В.В. Столина, А.Г. Шмелева. – М.: МГУ, 1984. – 212 с. 29. Прыгин, Г.С. Основы психодиагностики / Г.С. Прыгин. – М.: УМК Психология, 2003. – 223 с. 30. Психологическая диагностика: Учебник для вузов /Под ред. М.К. Акимовой, К.М. Гуревича. – СПб.: Питер, 2003. – 652 с. 31. Романова, Е.С. Психодиагностика: Учебное пособие / Е.С, Романо- ва. – СПб.: Питер, 2006. – 400 с. 32. Сыромятников, И.В. Психодиагностика: Учебное пособие / И.В. Сыромятников. – М.: Академический Проект; Екатеринбург: Деловая книга, 2005. – 640 с. 33. Фер Р. Психометрика: Введение / Р. Майкл Фер, Верн Р. Бакарак; пер. с англ. А.С. Науменко, А.Ю. Попова; под ред. Н.А. Батурина, Е.В. Эйдма- на. – Челябинск: Издательский центр ЮУрГУ, 2010. – 445 с. 34. Яньшин, П.В. Практикум по клинической психологии. Методы ис- следования личности. Серия: Практикум / П.В. Яншин. – СПб.: Питер, 2004 – 336 с. ГЛОССАРИЙ D-анализ – психометрическая модификация дизайна теста. G-анализ – идентификация факторов, оказывающая влияние на наблюда- емую дисперсию баллов, количественная оценка этих эффектов. G-теория анализ множественных компонентов сложноорганизуемых пе- ременных- объяснение единой дисперсии. Компонент измерения - аспект изме- рительной стратегии. Q-методология– изучение изменчивости субъекта. R. Множественный коэффициент корреляции между зависимой перемен- ной и двумя или более независимыми переменными. Значение R лежит в преде- лах от 0 до 1 и интерпретируется по аналогии с обычным (двухмерным) коэф- фициентом корреляции. R2. Квадрат коэффициента множественной корреляции (коэффициент де- терминации), доля дисперсии зависимой переменной, обусловленная воздей- ствием двух или более независимых переменных. R-методология – изучение изменчивости свойства. t-критерий в регрессионном анализе. Критерий, определяющий стати- стическую значимость корреляций, равен отношению коэффициента B к своей стандартной ошибке. t-критерий для зависимых выборок. Критерий, сравнивающий средние значения двух распределений для одной и той же выборки. t-критерий для независимых выборок. Критерий, сравнивающий сред- ние значения одной и той же переменной для двух независимых выборок. t-критерий для одной выборки. Критерий, предназначенный для срав- нения среднего значения распределения переменной с некоторой эталонной ве- личиной. t-критерий. Критерий для определения статистической значимости раз- личия двух средних. Альфа (α). Мера внутренней согласованности измерительной шкалы, вы- числяемая по формуле α = rk/[1 + (k – 1)r], где k – число переменных в анализе, r – среднее значение корреляции между пунктами шкалы. Значение α зависит от числа переменных, поэтому нет точной интерпретации его величины; тем не менее, в большинстве случаев действует следующая оценка внутренней согла- сованности шкалы: α > 0,9 – отличная; α > 0,8 – хорошая; α > 0,7 – приемлемая; α > 0,6 – сомнительная; α > 0,5 – малопригодная; α < 0,5 – недопустимая. Альфа-коэффициент - один из распространенных коэффициентов, оце- нивающих надежность тестирования как внутреннюю однородность (гомоген- ность) тестовых заданий. Для подсчета А.К. Не требуется проведение повтор- ного тестирования – ретеста. Артикулированность системы конструктов (рус. эквиваленты – «рас- члененность», «структурированность») – такая характеристика структурной ор- ганизации системы конструктов, при которой наблюдается определенное соче- тание, скоординированность принципов интеграции и дифференциации, в част- ности, по типу соподчиненное микроконструктов (видовые понятия в традици- онной логике) и макроконструктов (родовые понятия в традиционной логике). Но полностью сводить артикулированность к модели категориального дерева неправильно, так как определенные системы конструктов при этом образуют пространственные модели (или субпространственные). «артикул» – это пункт в перечне. Понятие артикулированность ныне используется многими современ- ными исследователями личностных конструктов в качестве более удачного за- местителя для понятия «когнитивная сложность». Асимметрия – мера отклонения распределения от нормального, характе- ризующая симметричность графика. Баллирование - это процедура подсчета баллов по результатам тестиро- вания. В простейшем случае Б. Сводится к подсчету числа правильных ответов или суммы весов решенных заданий (при наличии разных весов для заданий разной значимости). В общем случае б. – это применение уже построенной процедуры шкалирования – таблицы, отображающей первичные тестовые бал- лы (сырые баллы) в стандартные баллы. Банк заданий - широкий перечень тестовых заданий, из которых черпа- ется набор тестовых заданий, предъявляемых данному конкретному испытуе- мому. Современные производительные технологии создания вариантов тестов предполагают их автоматическую сборку на основе Б.Т.З. Определенные алго- ритмы сборки (генерации) обеспечивают равную представленность в создавае- мых вариантах тестовых заданий разного типа, тематической направленности и уровня трудности. Использование технологии оперативной автоматизирован- ной сборки вариантов - важнейший инструмент обеспечения информационной безопасности современного тестирования. Бейсы – установка смещения в процедуре шкалирования. Бета (β) - в регрессионном анализе β означает стандартизованный коэф- фициент регрессии и представляет собой B-коэффициент для нормализованных переменных. Значения β всегда лежат в интервале от –1 до +1 и могут сравни- ваться друг с другом для разных переменных. Бета при включении - данная величина используется во множественном регрессионном анализе для переменных, не вошедших в уравнение регрессии, и представляет собой значение коэффициента β. В оптимальном тесте набор и последовательность заданий - органи- зуются таким образом, чтобы повысить долю постоянного компонента и сокра- тить долю случайного в величине суммарного балла. Валидность дискриминантная - степень, в которой тест не измеряет тот конструкт, для измерения которого он не предназначен. О наличии дискрими- натной валидности говорит отсутствие значимой статистической корреляции между тестовыми показателями, отражающими концептуально независимые свойства. Частный случай (пример) требования к методике в виде ВД - это тре- бование отсутствия корреляции с переменными (такими как «социальная жела- тельность ответа»), приводящими к фальсификации. Валидность дифференциальная – вид валидности конструктной, рас- сматривающий внутренние взаимоотношения между психологическими факто- рами, диагностируемыми с помощью психодиагностической методики. Содер- жание ВД может быть проиллюстрировано на примере тестов интересов, кото- рые в своем большинстве обычно умеренного коррелируют с показателем об- щей академической успеваемости, однако в различной степени связаны с успе- ваемостью по отдельным дисциплинам: тем, кому интереснее математика, как правило, удается показывать более высокие достижения именно по математике и т.п. ВД особенно важна как показатель диагностической ценности методик, используемых в профотборе. Русскоязычный эквивалент ВД - «избирательная пригодность» теста. Валидность инкрементная - русскоязычный эквивалент - «нарастающая пригодность» теста. Один из компонентов критериальной валидности, прогно- стической валидности теста, отражающий практическую ценность методики при проведении отбора. Ви может быть выражена количественно при помощи коэффициента валидности. Показатель ви указывает на роль теста в улучшении отбора лиц для реальной деятельности, степень улучшения результативности процедуры отбора по сравнению с традиционной, основанной на анализе объ- ективных сведений, документов, бесед, приеме с испытательным сроком и пр. ВИ рассчитывается в зависимости от значений индекса отбора (доля поступив- ших по отношению к числу претендентов), коэффициента валидности теста, ба- зового уровня (отношение между лицами, справляющимися с критериальной деятельностью, и случайной выборкой лиц). При уменьшении индекса отбора значение коэффициента ВИ значительно повышается при условии, что исполь- зуемый тест обладает высокой валидностью. Определение величины коэффи- циента ви производится с помощью специальных таблиц. Валидность конвергентная - это степень соответствия двух тестовых методик, направленных на измерение концептуально-родственных конструк- тов. Валидность консенсуальная – тип валидности (пригодности), основы- вающийся на установлении связи (корреляции) тестовых данных с данными, полученными от внешних экспертов, хорошо знакомых с теми лицами, которые были подвергнуты тестированию. Понятие и процедура ВК введены Р. Мак- Краэ в 1982 году с целью обеспечения валидизации личностных опросников, которая нередко затруднена (а иногда и невозможна) в связи с отсутствием не- обходимых для установления валидности критериев. Валидность конструктная - один из основных теоретических типов ва- лидности (аргументов пригодности), отражающий степень отражения исследу- емого психологического конструкта в результатах теста. В качестве конструкта могут выступать практический или вербальный интеллект, эмоциональная устойчивость, интроверсия, понимание речи, переключаемость внимания и пр. Иначе говоря, ВК определяет область теоретической структуры психологиче- ских явлений, измеряемых тестом. Тест, базирующийся на развитой, логически- связной теории, обеспеченной высоко-операционализированными понятиями, обладает КВ, в противном случае говорить о высокой КВ нельзя. Среди кон- кретных методов характеристики ВК в первую очередь необходимо назвать со- поставление исследуемого на предмет ВК теста с другими методиками, содер- жание которых известно. При анализе ВК методики обычно формулируют ряд гипотез о том, как будет коррелировать разрабатываемый тест с широким кру- гом других тестов, направленных на конструкты, находящиеся в теоретически известной или предполагаемой связи и исследуемыми. При этом ВК характери- зуется не только связями проверяемого теста с близкородственными показате- лями, но и с теми, где, исходя из гипотезы, значимых связей наблюдаться не должно (см. Конвергентная и дискриминантная валидность). Важным аспектом ВК является внутренняя согласованность (внутренняя валидность), отражаю- щая то, насколько определенные пункты (задания, вопросы), составляющие ма- териал теста, подчинены основному направлению теста как целого, ориентиро- ваны на изучение одних и тех же конструктов. Анализ внутренней согласован- ности осуществляется путем коррелирования ответов на каждое задание с об- щим результатом теста. При измерении ВК важное место принадлежит динами- ке изучаемого конструкта. Валидность концептуальная - обоснование тестовой методики с пози- ций соответствия авторским (теоретическим) представлениям об особенностях диагностируемых свойств, иными словами - мера соответствия содержания за- даний теста авторской концепции этих свойств. Валидность критериальная - комплекс характеристик, отражающий со- ответствие результатов тестирования определенным значениям критериальной переменной или вероятности критериального события. В качестве критерия вы- ступают либо независимые от результатов теста непосредственные меры иссле- дуемого качества (такие как уровень достижения в какой-либо деятельности, степень развития способности, выраженность определенного свойства лично- сти и т.д.), либо показатели социально- или производственно-значимых резуль- татов деятельности (производительность труда в индустриальной психологии, успеваемость в педагогической психологии, устойчивость брака в психологии семьи и т.п.). Валидность прогностическая - способность теста прогнозировать кри- териальное событие. В частности случае, ВП - это информация о том, с какой степенью точности и обоснованности методика (тест) позволяет судить о диа- гностируемом психологическом качестве спустя определенное время после из- мерения. Сведения о ВП имеют самое непосредственное отношение к раскры- тию предсказательной силы методики, выяснению степени обоснованности сформулированного на ее основе ближайшего и более отдаленного прогноза, анализу значимости получаемых в тесте показателей с т.з. Экстраполирования результатов на будущее. Для проверки ВП разработчик теста должен организо- вать схему квазиэксперимента по принципу «проспективной валидизации»: следует провести тест на обширной выборке испытуемых с определенным ин- тервалом упреждения по отношению к возможному в будущем критериальному событию. Валидность текущая (диагностическая, конкурентная) - это соответ- ствие результатов валидизируемого теста независимому критерию, отражаю- щему состояние исследуемого тестом качества в момент проведения исследо- вания. Вместе с прогностической валидностью, вт входит в комплекс сведений критериальной валидности методики. Основной процедурой определения вт является корреляционный анализ связи результатов теста с критериальными характеристиками исследуемого свойства. Отличие вт от прогностической (проспективной) или ретроспективной валидизации заключается в том, что оба источника информации об испытуемом - и тест, и критерий - «работают» фак- тически на одном и том отрезке времени, то есть совпадают в реальном мас- штабе времени. Валидность экологическая - валидность теста по отношению к измеря- емому свойству в контексте определенной ситуации, определенного расстанов- ке ролей между испытуемым и диагностом. Вэ является свойством теста, про- являющемся в том, что его применение при решении различных практических задач ведет к качественно различной интерпретации результатов тестирования. В российской психологии это понятие активно разрабатывал в.н.дружинин, то- гда как другие авторы нередко считают его избыточным. Валидность эмпирическая - совокупность характеристик валидности те- ста, полученных экспериментально-статистическим способом. Имеет отноше- ние главным образом к области критериальной валидности и трем ее видам: ва- лидности текущей, ретроспективной ивалидности прогностической. Варимакс-факторы - факторы, которые получаются в факторном анали- за из главных компонент путем применения ортогонального вращения по кри- терию «варимакс», предложенному кайзером. Этот критерий максимизирует дисперсию факторных нагрузок по каждому фактору и приводит к повороту факторных осей в центр скопления изображающих точек в факторном про- странстве. В результате такого вращения интерпретация факторов, как правило, значительно облегчается. Вероятность события – численная мера степени объективной возможно- сти события. Достоверное событие – вероятность равна 1. Невозможное собы- тие – вероятность равна 0. Вероятность любого события лежит в интервале от 0 до 1. Вес задания (балл за задание) - это вклад в общий (сырой) балл по тесту, который вносит отдельное задание. В ЕГЭ, например, все задания типа а дают минимальный вклад в общий балл, равный 1, а некоторые задания типа с дают вклад в 4 очка и даже больше. Внутреннее шкалирование (Дж. Келли, Д.Леонтьев) – признаки объек- тов классификации категории – категориальные шкалы, служащие инструмен- том выделения, классификации и оценивания субъектом значимых характери- стик объектов и явлений действительности. – атрибутивный механизм смысло- образования (Д. Леонтьев) конструкту. Вращение. Процедура, применяемая в факторном анализе для того, что- бы получить более простую структуру факторов. Выборка – это часть или подмножество совокупности. Проводить иссле- дование всей популяции не принято. Обычно из нее выделяют группу людей – выборку стандартизации – которая реально подвергается тестированию, и с ее помощью оценивается генеральная совокупность. Чтобы оценки носили досто- верный характер, выборка должна быть репрезентативна, представительна рас- сматриваемой популяции, т. Е. Ее вероятностные свойства должны совпадать или быть близкими к свойствам генеральной совокупности. Выборка из генеральной совокупности вопросов - в тестах интеллекта и специальных способностей относительно легко убедиться в том, что задания принадлежат или с высокой степенью вероятности выглядят принадлежащими к подразумеваемой для них генеральной совокупности. Лингвистические зада- ния нелегко перепутать с математическими или какими-либо другими. Однако, в области особенностей диагностики личности и темперамента все гораздо сложнее. Выборка стандартизации – в математической статистике принято раз- личать такие понятия, как генеральная совокупность (популяция) и выборка. Всякая большая совокупность людей, которую хотели бы исследовать или от- носительно которых собираются делать выводы, называется генеральной сово- купностью. Выборочная (эмпирическая) функция распределения – в математиче- ской статистике - это приближение теоретической функции распределения, по- строенное с помощью выборки из него. Выборочная (эмпирическая) функция распределения –это приближе- ние теоретической функции распределения, построенное с помощью выборки из него. Переменная величина называется случайной, если в результате опыта она может принимать действительные значения с определёнными вероятностя- ми. Наиболее полной, исчерпывающей характеристикой случайной величины является закон распределения. Выделение главных компонент – вращение, максимизирующее диспер- сию (варимакс) исходного пространства переменных и минимизации разброса вокруг новой переменной. Каждый фактор выделяется с учётом максимизации оставщейся дисперсии, изменчивости и оказались не коррелированны, ортого- нальны. Вызванные конструкты - конструкты, которые испытуемый формули- рует сам в ходе теста личностных конструктов, в частности, на эта- пе«триадической оценки сходства». Гало-эффект - постоянная ошибка, связанная с влиянием всей личности оцениваемого индивида на оценку отдельной черты характера (узле, 1907). Генеральный фактор «g» - фактор, дающий вклад в результаты всех ин- теллектуальных субтестов, то есть присутствующий во всех частных и относи- тельно общих способностях. Согласно различным концепциям, фактор «g» мо- жет трактоваться как уровень обучаемости, «умственный темп» и т.п. Гетерогенность - это свойство теста, указывающее на внутреннюю раз- нородность тестовых заданий. Г выражается в низких корреляциях между зада- ниями. Гетерогенный - разный, неодинаковый, разнородный, состоящий из раз- личных по составу частей. Гетерогенный (многофакторный) тест - это тест, задания которого направлены на измерение (выявление) различных, независимых друг от друга факторов (знаний, компетенций, способностей и т.п.). Г.Т. Отличается от со- ставного теста тем, что задания, относящиеся к разным факторам, следуют впе- ремешку, а не разделены по блокам, предъявляемым в разное время. Гистограамма – это функция, приближающая плотность вероятности не- которого распределения, построенная на основе выборки из него. Гистограмма - столбиковая диаграмма для отображения распределения частот по категориям (диапазонам значений) переменной. Горизонтальная ось графика соответствует значениям переменной, а вертикальная – частотам. Гистограмма - столбиковая диаграмма для отображения распределения частот по категориям (диапазонам значений) переменной. Горизонтальная ось графика соответствует значениям переменной, а вертикальная – частотам. Главный эффект. Воздействие независимой переменной на зависимую переменную. Примеры главных эффектов можно найти в главах 14 и 15. Граничный балл, балл отсечения (CUT SCORE) - определенная точка на шкале тестовых баллов, баллы на или выше которой интерпретируются от- лично от баллов ниже этой точки. Иногда используют только один граничный балл, разделяющий потенциальных испытуемых на категории «зачет» / «неза- чет» или «эксперт» / «новичок». В других случаях могут использоваться не- сколько граничных баллов для определения трех или более категорий испытуе- мых (как в стандартах выполнения определенной деятельности). Граничные баллы задают на шкале тестовых баллов так называемые «категориальные ин- тервалы», или «интерпретационные интервалы» - области значений, которым приписывается определенная интерпретация или применяются определенные организационные решения («уволить», «послать на доучивание», «допустить к работе», «повысить» и т.п.). График собственных значений. Диаграмма, позволяющая выбрать чис- ло факторов в факторном анализе на основе критерия каменистой осыпи Р.Кеттелла. Графическое шкалирование - процедура субъективного оценивания («субъективного шкалирования»), согласно которой индивид выносит свои суждения, делая отметки на сплошной графической (вертикальной или гори- зонтальной) шкале. Двухпараметрическая модель шкалирования - частный случай irt, раз- работана а. Бирнбаумом. Она устанавливает соответствие между скрытыми па- раметрами (уровень подготовки испытуемых и уровень трудности задания) и наблюдаемыми результатами выполнения теста. В результате работы этой мо- дели определяется вероятность, с которой испытуемый с определенным уров- нем подготовки справится с заданиями разной сложности. И наоборот, можно определить, с какой вероятностью испытуемые с разной подготовкой справятся с заданием определенного уровня сложности. Таким образом выбираются зада- ния, наилучшим образом диагностирующие уровень развития способности (уровень знаний). Помимо разности, вводится еще параметр А (AI и АJ). Пара- метр Аj - это характеристикадифференцирующей способности задания при из- мерении различных значений уровня подготовки испытуемых; параметр ai ука- зывает на меру структурированности знаний ученика. Детерминант ковариационно-дисперсионной матрицы. Величина, ха- рактеризующая степень зависимости между значениями переменных. Чем меньше значение детерминанта, тем сильнее соответствующая зависимость. Эта величина используется при вычислении М Бокса. Детерминант общей дис- персионно-ковариационной матрицы учитывает все матрицы, используемые в анализе. Диагностическая категория - это широкий класс oбъектов диагностики (в психодиагностике - класс людей), которые обладают сходными характери- стиками, и на этом основании могут быть отнесены к одному классу. В меди- цине это совокупность симптомов, характерных для заболевания. В психологии - это совокупность типичных реакций, которая определяет тип личности, или умение решать тип задач, характерных для определенного уровня умственного развития или типа интеллекта. Диагностические нормы - это статистические или нормативно заданные (как правило, в количественной форме) границы междудиагностическими кате- гориями, сформулированные в виде диагностических признаков или точечно- интервальных значений на шкалеизмеряемых психических свойств. В случае тестовых методик речь идет о тестовых нормах. В обыденной практике часто можно встретить более узкое понимание термина дн - это диапазон значений наблюдаемых или измеряемых диагностических признаков, присущих наиболее многочисленной группе хорошо социально и эмоционально адаптированных (приспособленных), или «нормальных» людей. В последнем случае выражен- ные отличия от нормы приобретают не всегда оправданный отрицательный оценочный смысл, будто все они свидетельствуют о психической «анормально- сти» (или «ненормальности») человека. Более корректно в общем случае опи- сывать отклонение от типичной диагностической категории («нормы»). Диагностические признаки - это определенные внешне выраженные признаки объекта диагностики, которые оказываются информативными для от- несения обследуемого объекта к определенной диагностической категории. Диагностические факторы - это ненаблюдаемые непосредственно, глу- бинные обобщенные признаки, по которым различаются между со- бойдиагностические категории. Диагностическое обследование - конкретная программа действий с определенным объектом, направленная на регистрацию или оценку диагности- ческих признаков и постановку диагноза данному объекту. «обследование» следует отличать от «исследования»: последнее направлено на получение обобщенного знания (проверку теоретических гипотез), тогда как обследование - на получение конкретных знаний о конкретном объекте. Диаграмма рассеяния. График для анализа связи между двумя перемен- ными, на котором каждый объект представляет собой точку. Положение точки задано парой значений двух переменных для данного объекта. Более подробное описание приведено в главе 9. Диаграмма регрессии. Диаграмма разброса, включающая сдвиги точек от линии регрессии по вертикальной оси. Диапазон ситуаций - не вполне формализованный (скорее концептуаль- ный) количественный показатель, отражающий степень разнообразия множе- ства ситуаций, в которых проявляется та или иная стратегия поведения или личностная черта. Кросс-ситуационные черты темперамента проявляются на максимально широком дс, в то время как более частные черты характера и си- туационные стратегии (установки) проявляются на более узком дс. Дискриминантная валидность - частный случай эмпирический валид- ности, который выражается в требовании статистической независимости (орто- гональности, нескоррелированности) двух тестовых показателей, если они должны быть направлены на измерение концептуально различных, независи- мых психических свойств. Дискриминантная валидность теста – это сбалансированность пунктов относительно иррелевантных факторов. Дискриминативности – способности отдельных пунктов (заданий) теста дифференцировать испытуемых относительно «максимального» и «минималь- ного» результата теста. Дискриминативность - дифференцирующая, различающая способность теста в целом или отдельного тестового задания, указывающая на их способ- ность разделять отдельных испытуемых по уровню выполнения. Если все ис- пытуемые дают на тестовое задание один и тот же ответ, то это означает, что данное задание не обладает дискриминативностью. Дискриминативность зада- ния определяется обычно как разность между относительной численностью ис- пытуемых, справившихся с заданием, из высокопродуктивной и низкопродук- тивной группы. Более сложные коэффициенты подсчитываются как меры кор- реляции между ответами на задания и общими баллами по тесту в целом (см. Точечно-бисериальный коэффициент корреляции). Достоинства более сложных мер д.т. В том, что их статистическая значимость связана с точными статисти- ческими критериями поясним, что для личностных тестов «высокопродуктивной», или просто «вы- сокой» группой называется группа испытуемых, примыкающих к высокому по- люсу измеряемого фактора; нередко их называют также «экстремальными», или «контрастными» группами. Если высокопродуктивная группа определяется по внешнему критерию (успе- ваемость, производительность труда и т.п.), то дискриминативность совпадает с внешней валидностью пункта. Определенным функциональным синонимом дискриминативности является информативность. Дискриминативностью теста - способность теста дифференцировать испытуемых в диапазоне от «максимального» до «минимального» результата набранного по данному теста. Дисперсия. Характеристика выборочного распределения переменной, описывающая разброс значений вокруг среднего и вычисляемая как отношение суммы квадратов отклонений к объему выборки, уменьшенному на 1. Кроме того, дисперсия представляет собой квадрат стандартного отклонения. Диссимуляция - поведение, противоположное симуляции: связанное с установкой на сокрытие, затушевывание болезни, ее симптомов или отдельных проявлений. Может мотивироваться и осознанными целями - например, выпис- кой из клиники, поступлением на работу и пр., и неосознаваемыми, в том числе компенсаторными формами личностного реагирования. Наблюдается в основ- ном при заболеваниях, сопряженных для человека с некоторыми объективно или субъективно невыгодными ситуациями. Чаще встречается при психозах. Дистрактор - это ложная, отвлекающая альтернатива среди перечня воз- можных ответов на вопрос тестового задания. Т.е. Дистрактор - это готовый ва- риант ответа на закрытое тестовое задание, похожий на правильный ответ, но таковым не являющийся. «слабыми» в тестах с выбором ответа называют дис- тракторы, которые по статистике выбирают очень мало испытуемых, «сильны- ми» - те, которые выбирают многие. Диффузная система конструктов (рус. Эквивалент «рыхлая», «бес- структурная») - такое состояние системы категорий (понятий, конструктов), при котором связи между ними носят случайный, бессмысленный характер, имеется значительное количество «изолированных», одиночных конструктов, никак не связанных с другими. Дск характерна для первичных стадий форми- рования новой системы конструктов, для перестройки системы конструктов (при ломке старой и нечеткости новой). Хроническая дск может быть симпто- мом шизофренического расстройства психики. Доверительная вероятность - вероятность с которой значение св оказы- вается или попадает в границы доверительного интервала. Доверительный интервал - диапазон, в котором находится большинство значений выборки. Например, термин «доверительный интервал в 95 %» озна- чает интервал, в который любое случайное значение из выборки попадает с ве- роятностью 95 %. Доверительный интервал - интервал в границах которого оказывается значение св с заданной доверительной вероятностью. Диапазон, в котором находится большинство значений выборки. Например, термин «доверительный интервал в 95 %» означает интервал, в который любое случайное значение из выборки попадает с вероятностью 95 %. ЕPA - сокращенное англоязычное обозначение трехфакторной модели семантического пространства, полученной Ч. Осгудом с помощью факторного анализа результатов «семантического дифференциала». EPA состоит из трех фактов - оценка (evaluation), сила (potency) и активность (activity). Ч. Осгуд свя- зывает эти факторы с трехкомпонентной теорией эмоций в.вундта - «удоволь- ствие, возбуждение, напряжение». Заданные конструкты – разновидность способов обозначения полюсов шкал в экспериментах по шкалированию, при которой эти обозначения форму- лируются экспериментатором, а не самим испытуемым (ср. «вызванные кон- структы»). Другие варианты для обозначения «заданных конструктов» – это «маркеры», «дескрипторы». Метод «семантического дифференциала», с точки зрения последователей дж. Келли, является тестом с заданными конструктами. Задача - в тестологии это разновидность тестовых заданий, предполага- ющих обоснование избранного решения. Согласно функциональной теории де- ятельности (а.н.леонтьев) з - это данная в определенных условиях (например, в проблемной ситуации) цель деятельности, которая должна достигаться преоб- разованием этих условий согласно определенной процедуре. Задача включает в себя требования (цель), условия (известное) и искомое (неизвестное), формули- рующееся в вопросе. Между этими элементами существуют определенные свя- зи и зависимости, за счет которых осуществляются поиск и определение неиз- вестных элементов через известные. При описании хода решения задачи нужно указывать и действия, и операции, реализующие их. Закон распределения – правило устанавливающее соответствие (связь) в виде равенства между возможными значениями св и вероятностями этих собы- тий или значений. Закон распределения – функция (таблица, график, формула), позволяю- щая определять вероятность того, что случайная величина х принимает опреде- леное значение или попадает в некоторый интервал. Если случайная величина имеет данный закон распределения, то говорят, что она распределена по этому закону или подчиняется этому закону распределения. Закон распределения – функция (таблица, график, формула), позволяю- щая определять вероятность того, что случайная величина х принимает опреде- леное значение или попадает в некоторый интервал. Если случайная величина имеет данный закон распределения, то говорят, что она распределена по этому закону или подчиняется этому закону распределения. Законом распределения случайной величины - называют соотношение между возможными значениями случайной величины и соответствующими им вероятностями. Значимость (p-уровень) - мера случайности полученного результата, равная вероятности того, что в генеральной совокупности этот результат (раз- личия, связь) отсутствует. Чем меньше эта вероятность (значение p-уровня), тем выше статистическая значимость результата. Результат считается статисти- чески достоверным (значимым), если p-уровень не превышает 0,05. Значимость (p-уровень) - мера случайности полученного результата, равная вероятности того, что в генеральной совокупности этот результат (раз- личия, связь) отсутствует. Чем меньше эта вероятность (значение p-уровня), тем выше статистическая значимость результата. Результат считается статисти- чески достоверным (значимым), если p-уровень Значимость (p-уровень). Мера случайности полученного результата, равная вероятности того, что в генеральной совокупности этот результат (раз- личия, связь) отсутствует. Чем меньше эта вероятность (значение p-уровня), тем выше статистическая значимость результата. Результат считается статисти- чески достоверным (значимым), если p-уровень не превышает 0,05. Значимость регрессионной модели - в основе проверки значимости ре- грессии лежит идея разложения дисперсии (разброса) результативного призна- ка на факторную и остаточнуюдисперсии, т.е. объясненную (за счет независи- мых факторов) часть дисперсии и часть, оставшуюся необъясненной в рамках данной модели. Для каждого значения F можно вычислить соответствующую вероятность. Если значение этой вероятности меньше принятого уровня значи- мости pили вероятности ошибки, гипотеза об отсутствии линейной связи между результативным и факторными признаками отклоняется и регрессия признается значимой. Идеографический подход - подход к изучению личности, при котором используются уникальные диагностические материалы, применяется уникаль- ная последовательность диагностических процедур, так как сама уникальность каждого человека постулируется изначально и является приоритетной целью исследования. Идеографический способ – тип исследования ориентирован на описание и объяснение сложного целого (например, конкретной личности). Описание должно быть максимально полным и конкретным, единичный элемент пред- ставляется, при этом, как уникальный феномен. Изменение R2. Изменение величины R2 в результате введения новой пе- ременной в уравнение регрессии. Измерение – приписывание числовых форм объектам или событиям в со- ответствии с определённым правилом. Имплицитная теория личности - подразумеваемая, не вполне осознава- емая концепция личности, которая хранится в опыте практически у каждого че- ловека в виде, прежде всего, системы связей между чертами. ИТЛ позволяет человеку на основе информации о наличии определенных черт у партнера по общению быстро выдвигать гипотезы о наличии у него других черт. Феномен ИТЛ в терминах психологии мышления должен быть квалифицирован как про- явление обыденной (житейской, наивной) концепции личности, возникающей на доконцептуальном уровне обобщения субъективного опыта (на уровне т.н. «комплексов» по Л.С.Выготскому). Одним из способов моделирования ИТЛ в психосемантике является построение«личностных семантических пространств» Инкрементная валидность - это психометрическая характеристика те- ста, состоящая в относительном приращении точности отнесения испытуемого к определенной категории над возможной точностью отнесения, которая име- лась уже до проведения данного теста. Инструментальная ошибка - ошибка диагностики, приводящая к сни- жению валидности диагностической информации вследствие особого взаимо- действия инструмента измерения (диагностической методики) с объектом из- мерения (испытуемым). Источники ио - неправильное понимание инструкции, особые мотивационные искажения, наличие предыдущего опыта выполнения данной или сходной методики и т.п. Ио можно сократить только путем парал- лельного применения различных методических приемов с целью независимой проверки правильности полученных результатов. Интерваллы, равенство субъективных интервалов - классификация объектов по принципу больше/ меньше на определённое количество единиц и позволяет определить не только различия между объектами, но и величину раз- личий в проявлении того или иного свойства (нельзя определить во сколько раз только на сколько) – это уже шкала отношений (сравнение попарных отноше- ний). Интерпретация коэффициента множественной корреляции R - сте- пень зависимости двух или более предикторов (независимых переменных или переменных X) с зависимой переменной (Y) выражается с помощью коэффици- ента множественной корреляции R. По определению он равен корню квадрат- ному из коэффициента детерминации. Это неотрицательная величина, прини- мающая значения между 0 и 1. Для интерпретации направления связи между переменными смотрят на знаки (плюс или минус) регрессионных коэффициен- тов или B-коэффициентов. Если B-коэффициент положителен, то связь этой пе- ременной с зависимой переменной положительна (например, чем больше IQ, тем выше средний показатель успеваемости оценки); если B-коэффициент от- рицателен, то и связь носит отрицательный характер (например, чем меньше число учащихся в классе, тем выше средние оценки по тестам). Конечно, если B-коэффициент равен 0, связь между переменными отсутствует. Ипсативные нормы - такой выбор базы сравнения для оценки индиви- дуальных баллов, при котором индивидуальные баллы сравниваются с показа- телями того же индивида по другим шкалам или по тем же шкалам в прежних сеансах тестирования. Исправленная величина R2. Во множественном регрессионном анализе величина R2 является точной для выборок, однако в генеральной совокупности ее значение лишь приблизительно. Исправленная величина R2 представляет со- бой более точную оценку R2 для генеральной совокупности и используется при сравнениях моделей, содержащих различное число независимых переменных. Итерация. Стадия процесса формирования регрессионного (дискрими- нантного) уравнения, на которой происходит включение или исключение оче- редной переменной. Процесс продолжается до тех пор, пока не перестанет удо- влетворяться заданный в процедуре критерий. Калибровка (calibration) - процесс формирования шкалы тестовых бал- лов, принимающий в расчет среднее, стандартное отклонение и, возможно, форму распределения тестового балла. Результатом калибровки может быть стандартизация тестовых шкал разных тестов с разным количеством тестовых заданий, что позволяет сравнивать между собой результаты одного или не- скольких испытуемых по разным тестам. Под калибровкой тестовых заданий в irt (теории тестовых заданий) понимают вычислительный процесс, позволяю- щий оценить такой ключевой параметр тестовых заданий, кактрудность. Ка- либровка – один из ключевых элементов процесса «шкалирования» - процесса формирования шкалы тестовых баллов. Категориальная установка – разновидность установки, которая про- является в том, что в определенных ситуациях (на фоне определенной мотива- ции, в частности) у субъекта наблюдается повышенная готовность (диспозици- ональная, доситуационная) к отнесению объекта в определенную категорию. Чаще всего при этом актуализируется либо один, либо другой полюс биполяр- ной категории (биполярного конструкта). Например, алкоголик в состоянии острой абстиненции (похмельный синдром). Категоризация - психический процесс отнесения единичного объекта, события, переживания к некоторому классу, такому как вербальные и невер- бальные значения, символы, сенсорные и перцептивные эталоны, социальные стереотипы, стереотипы поведения и пр. Непосредственно включен в процессы восприятия, мышления, воображения, объект которых воспринимается и мыс- лится не как нечто единичное, а как представитель обобщенного класса, причем на объект переносятся особенности данного класса явлений. Формы к имеют сложную иерархическую организацию, построение и функционирование кото- рой изучают психология генетическая и общая. Будучи средством осознания мира, категориальные структуры индивидуального сознания могут и не осозна- ваться. Методы эмпирического исследования категориальных структур пред- ложены в рамкахпсихосемантики, которую можно рассматривать как область психодиагностики, связанную с индивидуальным сознанием. Квадрат евклидового расстояния. Мера, используемая по умолчанию в кластерном анализе для определения расстояния между объектами и кластера- ми и вычисляемая как сумма квадратов разностей между значениями перемен- ных двух объектов. Квалиметрия - комплекс стандартизированных (или слабостандартизи- рованных) процедур, позволяющих переводить качественные данные в количе- ственную форму. Например, процедура подсчета баллов по определенным фак- торам (шкалам) на основе качественных экспертных оценок, является квали- метрической. Многие специалисты считают, что подсчет тестового балла по сумме правильных ответов (с весами или без них) также можно называть ква- лиметрией. Кейс-тест - в отличие от кейсов открытого типа, предполагающих реше- ние в виде свободного текста с обоснованием, кейс-тест предлагает испытуе- мому (экзаменуемому) готовые варианты решения на выбор. В более гибких случаях кейс-тесты допускают кроме заданных решений применение также и граф «свободный ответ». КИМ (контрольно-измерительный материал) - это комплект (вариант) тестовых заданий разного типа (открытого и закрытого), подготовленных для апробации; синонимичный термин - предтест. Классическая теория тестов (CLASSICAL TEST THEORY) – подход, доминировавший в тестологии до 60-х годов 20 века – до появления IRT (тео- рии тестовых заданий). Ктт базируется на представлении о том, что индивиду- альный тестовый балл является суммой истинного балла испытуемого и неза- висимой ошибки измерения. Из нескольких несложных посылок об этих двух компонентах выводится представления о соотношении валидности, надежности и других статистических показателях качества тестов. Главным инструментом конструирования тестов в рамках КТТ является обеспечение гомогенности (статистической согласованности) тестовых заданий, включенных в одну тествую шкалу. Для многих разделов психодиагностики (например, для лич- ностных тест-опросников) КТТ сохраняет свою актуальность и в наши дни. Од- на из характерных для КТТ процедур заключается в форсированной нормали- зации – подгонке тестовой шкалы под модель нормального распределения и дальнейшем оперировании статистическими мерами и критериями, корректны- ми для нормально-распределенных случайных величин (например, коэффици- ентом корреляции Пирсона, критерием Стьюдента и т.п.). Классообразующие термины – термины, использованные автором при построении тезауруса личностных черт, к этим терминам эксперты относили все слова из словника. Кт подбирались специальным образом так, чтобы обес- печить высокую семантическую (смысловую) репрезентативность (представи- тельность) таксономической модели (тезауруса личностных черт). Ключ к заданию - это правильный ответ на тестовое задание. Иногда в ключ к заданию включают определенный весовой коэффициент (если задания вносят разных вклад в суммарный тестовый балл). В психометрических тестах ключи проходят через экспериментально-статистическое обоснование - с по- мощью различных инструментов корреляционного анализа и IRT. В случае за- даний с развернутым ответом единственный формализованный ключ к тесто- вому заданию отсутствует, и правильность ответа устанавливают независимые эксперты(проверяющие), действующие на основе авторской инструкции и эта- лонных ответов на конкретные задания этого типа. Кодификация признаков - один из этапов организации процедуры стан- дартизованного наблюдения, который состоит в присвоении наблюдаемым при- знакам определенных стандартизованных обозначений (кодов, номеров), с по- мощью которых эти признаки фиксируются в протоколе наблюдения. Колличественное измерение – аддитивное представление эмпирических объектов в множестве вещественных чисел. Колмогорова-Смирнова критерий для одной выборки. Непараметри- ческий критерий, определяющий, отличается ли данное эмпирическое распре- деление от теоретического распределения (нормального, равномерного, Пуас- сона или экспоненциального). Конвергентная валидность - частный случай эмпирический валидности, который выражается в требовании статистической зависимости (скоррелиро- ванности) двух тестовых показателей, если они должны быть направлены на измерение концептуально родственных психических свойств индивида (см. Родственное понятие «дискриминантная валидность»). Конвергентная валидность теста – это соответствие пунктов измеряе- мому фактору. Конкордация кенделла - это непараметрический статистический тест. Он обычно используется для измерения статистической связи между несколь- кими выборками. И если для корреляции пирсонаиспользуется дополнительное предположение о нормальности выборок и сравниваются одновременно только две выборки, то в конкордации Кенделла нет предположения о виде распреде- лении и используется любое количество выборок. Конкурентная валидность - способность более краткого и дешевого те- ста давать диагностическую информацию, не менее надежную и валидную, чем другой известный, но более продолжительный тест. Конструктная валидность. Это один из основных типов валидности, от- ражающий степень представленности (репрезентации) исследуемого психоло- гического конструкта в результатах теста. В качестве конструкта могут высту- пать практический или вербальный интеллект, эмоциональная неустойчивость, интроверсия, понимание речи, переключаемость и т. Д. Иначе говоря, кон- структная валидность определяет область теоретической структуры психологи- ческих явлений, измеряемых тестом. Корреляционная связь – согласованное изменение 2 признаков и отоб- ражает тот факт, что изменчивсоть некоторого фактора связан с изменением другого. Корреляционная связь является стохостической и носит функциональ- ный характер (причинно-следственный зависимости нет строгой функции по которой определённый у по х). В корреляционной связи каждому значению од- ному признаку может соответствовать распределение значений другого призна- ка, но не определённое значение и изменение математического ожидания. КА может свидетельствовать не о зависимости признаков между собой, а зависи- мость этих признаков от какого-то третьего или других факторов. Корреляционная связь –совместное распределение признаков совмест- ная дисперсия Корреляционный метод определения валидности - это один из основ- ных методов статистического измерения валидности теста путем оценки корре- ляции результатов тестирования с некоторой внешней переменной - критерием валидности. Корреляция – мера линейной зависимости между случайными перемен- ными, не еняемыми строго функционально характера, изменение одной св при- водит к изменению метематичсекого ожидания другой. Косоугольное вращение - такая трансформация факторного простран- ства, которая предполагает возможность проведения факторных осей под угла- ми друг к другу, отличающимися от 90 градусов (от ортогональности). Самый популярный алгоритм косоугольного вращения - OBLIMIN. Коэффициент корреляции – числовая характеристика совместного рас- пределения 2 св , выражающаяся их взаимосвязь. Коэффициент корреляции по- казывает пропорциональность совместной дисперсии к полной дисперсии Коэффициента дискриминативности, «õ» фергюсона - оценивания дискриминативности тестов. Коэффициенты регрессии. B-коэффициенты, то есть множители при пе- ременных, входящих в состав регрессионного уравнения, а также константа. Критериальный показатель - количественный (или градуальный) пока- затель той деятельности, ради прогноза которой создается тест. Это, например, производительность труда, успеваемость, уровень физического здоровья и т.п. Такой показатель выделяется при организации исследования по проверке соци- ально-прагматической валидности теста. Между ним и баллом по тесту рассчи- тывается статистическая корреляция. Критериальный показатель является част- ным случаем критерия валидности. Критерий F-Фишера для сравнения дисперсий - применение для направленных и ненаправленных гипотез (односторонний, двусторонний уро- вень значимости). Оценивает нулевую гипотезу о равенстве дисперсий. Критерий валидизации - непосредственная и независимая от валидизи- руемого теста мера психического свойства, на исследование которого направ- лена психодиагностическая методика. Критерий согласия. В логлинейном анализе критерий χ2 для определе- ния степени адекватности модели исходным данным. Чем выше его значения и чем ниже соответствующие уровни значимости, тем хуже модель соответствует данным. Критическая точка на тестовой шкале - (cut-off point), точка, разделя- ющая интервальные категории на шкале: все испытуемые, попадающие выше кттш, направляются по одной учебной или профессиональной траектории (до- пускаются до следующей образовательной ступени, допускаются к работе и т.п.), а все испытуемые, оказывающиеся на тестовой шкале ниже КТТШ, направляются по другой траектории. Кросс-ситуационные факторы – факторы, описывающие наиболее уни- версальные (глобальные) личностные черты, которые проявляются в самом широком диапазоне самых разнообразных ситуаций. Большинство исследова- телей сходятся в том, чтобы интерпретировать эти факторы в терминах свойств темперамента. Ливиня критерий. Критерий, предназначенный для проверки гипотезы о том, что все распределения зависимой переменной для сравниваемых выборок имеют одинаковые дисперсии. Линия регрессии. Линия на графике двухмерного рассеяния, отражаю- щая наиболее точные прогнозируемые значения («линия наилучшего соответ- ствия»). Личностное семантическое пространство – это разновидность семанти- ческого пространства, при которой его координаты интерпретируются в терми- нах важнейших личностных особенностей человека. В данной работе утвер- ждается и проверяется гипотеза о том, что лсп имеет единое строение, в равной мере приложимое и к описанию категориальной системы субъекта (его так называемой «имплицитной теории личности»), и к описанию реального пове- дения (системы поступков). Личностные дескрипторы – в общем случае это любые обозначения личностных особенностей и проявлений человека. Частный случай дескрипто- ры – это маркеры, т. Е. Обозначения одним словом. Поэтому термин дескрип- торы чаще используется, когда речь идет о сложных обозначениях, состоящих из многословного утверждения и набора утверждений (в частности, описание поступков, стратегий поведения и т.п.). Личностный конструкт - термин, предложенный в психологии личности дж.келли. Лк - это субъективная категория (когнитивная единица, обобщение), которую субъект, как правило, вырабатывает самостоятельно в ходе процесса анализа собственного опыта и усвоения языковой культуры. Лк позволяют ин- дивиду не только объяснять чужое поведение, но и проектировать собственное поведение, так как лк задает фактическую программу такого поведения. Эта особенность лк сближает теорию личностных конструктов с идеями, развитыми в несколько популистской форме в рамках психотерапевтического учения, из- вестного как нлп - «нейролингвистическое программирование». Личностный конструкт – термин, предложенный в психологии лично- сти Дж. Келли. Лк – это субъективная категория (когнитивная единица, обоб- щение), которую субъект, как правило, вырабатывает самостоятельно в ходе процесса анализа собственного опыта и усвоения языковой культуры. Лк поз- воляет индивиду не только объяснять чужое поведение, но и проектировать собственное поведение, так как лк задает фактическую программу такого пове- дения. Личностный семантический дифференциал – разновидность семанти- ческого дифференциала, при котором полюса биполярных шкал обозначаются с помощью личностных дескрипторов, или маркеров. Манна-Уитни и Уилкоксона критерий ранговых сумм. Непараметри- ческий аналог t-критерия, определяющий различие между двумя выборками на основе рангов. Маркеры шкал - простые (односложные) словесные обозначения для полюсов биполярных, или униполярных шкал в произвольной методике шкали- рования. Например: «светлый - темный» (в рамках коннотативного «семантиче- ского дифференциала»), «общительный - замкнутый» (в рамках «личностного семантического дифференциала»). Маркеры шкал – простые (односложные) словесные обозначения для полюсов биполярных или униполярных шкал в произвольной методике шкали- рования. Например: «светлый –темный» (в рамках коннотатив-ного «семанти- ческого дифференциала»), «общительный – замкнутый» (в рамках «личностно- го семантического дифференциала»). Меры центральной тенденции – показатели выраженности измеряемого признака (М, Х, М, Ме). Метод - широкий класс методик, обладающих родством основного тех- нологического приема или родством теоретической системы представлений, на которой базируется валидность данного класса методик. Класс методик, объ- единенных родством технологического приема, также называется«техникой». Метод наименьших квадратов (МНК, англ. Ordinary Least Squares, OLS) – математический метод, применяемый для решения различных задач, основан- ный на минимизации суммы квадратов некоторых функций от искомых пере- менных. Он может использоваться для «решения» переопределенных систем уравнений (когда количество уравнений превышает количество неизвестных), для поиска решения в случае обычных (не переопределенных) нелинейных си- стем уравнений, для аппроксимации точечных значений некоторой функцией. МНК является одним из базовых методов регрессионного анализа для оценки неизвестных параметров регрессионных моделей по выборочным даны Метод расщепления – метод состоит в том, что тест разбивают на две сопоставимые части. Респондент выполняет задания этих двух частей в течение одного сеанса с получением двух результатов. Методика - конкретная, частная процедура, или система действий, пред- назначенная для получения информации о конкретном психическом свойстве (предмет обследования) у конкретного контингента испытуемых (объект обсле- дования) в определенной классе ситуаций (условия обследования) для решения определенных задач (цель обследования). Многомерное шкалирование. Метод, позволяющий на основе матрицы различий между объектами построить одно-, двух- или трехмерное изображе- ние, иллюстрирующее удаленность этих объектов друг от друга. Множественный регрессионный анализ. Метод, позволяющий спро- гнозировать значения зависимой переменной на основе известных значений не- зависимых переменных. Модель компетенций - такой набор компетенций, который наилучшим образом отражает требования должности в конкретной организации к кандида- ту. В некоторых случаях МК снабжается весовыми коэффициентами, указыва- ющими на значимость каждой компетенции. В этом случае МК сближается с «идеальным профилем исполнителя». Часто мк разрабатывается так, чтобы от- ражать желательные технологические и информационные связи между сотруд- никами. МК позволяет оценить заранее, какими качествами должен обладать кандидат на конкретную должность и, следовательно, вести поиск по уже за- данным параметрам. В лаборатории «гуманитарные технологии» разработка МК проводится в составе услуг по «кадровому консалтингу». Модель многомерного шкалирования- взаиморасстояния между сти- мулами, шкала относительного расстояния (расположение объектов относи- тельно друг другу их взаиморасположение. Нулевая точка произвольна ) – оценка аддетивной константы и перевод в абсолютные значения – проекции стимулов. Монолитная система конструктов - крайняя степень упрощенности си- стемы личностных конструктов, при которой все конструкты практически сли- ваются в один макроконструкт, построенный чаще всего по оценочному прин- ципу «хороший - плохой». Мотивационное сцепление – это разновидность индивидуальной транс- формации личностного семантического пространства, при которой его факторы склеиваются в силу того, что какой-то очень значимый мотив или очень значи- мый идеал, представлен индивиду как носитель данной комбинации факторов (пример имплицитной психологики в этом случае: «добрый – значит силь- ный»). Обратная трансформация – это «мотива-ционная дифференциация». Мотивационные искажения – это снижение истинности (валидности, достоверности) психодиагностики в результате непроизвольного (иногда бессо- знательного) стремления индивида отвечать на тест (вопросник) в соответствии с тем мотивом, который оказался актуализированным у него в данной ситуации. Например, в ситуации производственной экспертизы актуализируется, как пра- вило, мотив создания социально одобряемого «Я-образа» (проявляется арте- факт «социальной желательности»), а в ситуации судебно-психиатрической экспертизы – мотив симуляции психического расстройства и т. П. Мультиколлинеарность и плохая обусловленность матрицы - про- блема мультиколлинеарности является общей для многих методов корреляци- онного анализа. Представим, что имеется два предиктора (переменные X) для роста субъекта: (1) вес в фунтах и (2) вес в унциях. Очевидно, что иметь оба предиктора совершенно излишне; вес является одной и той же переменной, из- меряется он в фунтах или унциях. Попытка определить, какая из двух мер явля- ется лучшим предиктором, выглядит довольно глупо; однако, в точности это происходит при попытке выполнить множественный регрессионный анализ с ростом в качестве зависимой переменной (Y) и двумя мерами веса, как незави- симыми переменными (X). Если в анализ включено много переменных, то ча- сто не сразу очевидно существование этой проблемы, и она может возникнуть только после того, как некоторые переменные будут уже включены в регресси- онное уравнение. Тем не менее, если такая проблема возникает, это означает, что, по крайней мере, одна из зависимых переменных (предикторов) является совершенно лишней при наличии остальных предикторов. Существует доволь- но много статистических индикаторов избыточности (толерантность, получаст- ное R и др.), а также немало средств для борьбы с избыточностью (например, метод Гребневая регрессия). Надёжность – показатель на сколько различия в тестовых баллах респон- дентов являются функцией от истинных различий между ними, а не ошибкой измерения. Устойчивость относительно объекта исследования. Надёжность – свойство измерительной процедуры. Надёжность – согласованность, эквивалентность оценок тестируемых. Величина ошибки измерения - обратный индикатор точности измерения. Чем больше ошибка, тем шире диапазон неопределенности на шкале (доверитель- ный интервал индивидуального балла), внутри которого оказывается статисти- чески возможной локализация истинного балла данного испытуемого. Надёжность – степень, в которой различия между наблюдаемыми балла- ми испытуемых согласованы с различиями в их истинными баллами Надежность взаимозаменяемых форм – повторное тестирование вы- борки испытуемых параллельной формой теста через минимальный интервал времени при одних и тех же условиях. Надежность параллельных форм - предусматривает создание эквива- лентных форм опросника и предъявление их одним и тем же испытуемым для того, чтобы затем оценить корреляцию между полученными результатами. Ос- новная проблема, препятствующая широкому распространению этого способа определения надежности, – необходимость подготовки двух наборов заданий, что чрезвычайно сложно, поскольку требуются убедительные доказательства их эквивалентности. Надежность и точность - общий разброс (дисперсию) ре- зультатов произведенных измерений можно представить как результат дей- ствия двух источников разнообразия: самого измеряемого свойства и неста- бильности измерительной процедуры, обусловливающей наличие ошибки из- мерения. Надежность ретестовая (диахронная) – предполагает повторное предъ- явление того же само- го теста тем же испытуемым и примерно в тех же усло- виях, что первоначальное, а затем установление корреляции между двумя ря- дами данных. Надежность-валидность экспертных оценок - интегральный показа- тель, получаемый путем расчета степени согласованности (скоррелированно- сти) экспертных оценок. В этом показателе одновременно учитывается и ста- бильность оценок (надежность), и степень их соответствия оцениваемому пока- зателю (валидность). Национальные (федеральные) тестовые нормы - это граничные значе- ния на шкале тестовых баллов, позволяющие делать определенные выводы, статистический смысл которых универсален в масштабах всей страны. Если нормы определены только на выборке в масштабах одного региона, то выводы нельзя применять к другому региону. Необходимо иметь бесконечный эксперимент –генеральную совокуп- ность (все данные). Неортогональное вращение. Процедура, используемая в факторном анализе, допускающая результат, в котором угол между факторами отклоняется от прямого. Это иногда желательно для достижения более простой структуры. Непараметрические критерии. Серия критериев, каждый из которых применяется без предварительных допущений относительно нормальности рас- пределения. Непараметрические критерии основаны на ранжировании, попар- ных сравнениях и других средствах, не требующих нормальности распределе- ния переменных. Номинальная, наименований, классификационная шкала – приписывание имён объекту на основе сравнения по принципу эквивалентности (тождественности). Критерии на основании которых производится классифика- ция. Разделение на пересекающиеся множества и распределяющиеся на ячейки классификации (дихотомическая шкала, приписывается имена). Операции с числами характеризующие объекты. Выделение классов. Корреляция каче- ственных признаков. Определение близости распределения признака. Номотетический способ – тип исследования ориентирован на открытие общих закономерностей, справедливых для любого частного случая. Нормализация тестовой шкалы - это один из вариантов процедуры шкалирования , в результате которой каждому баллу на шкале первичных (сы- рых) баллов ставится в соответствие балл на шкале новой переменной, имею- щей нормальное распределение. Если частотное распределение первичных бал- лов подчиняется нормальному закону, то нормализация сводится лишь к ли- нейному преобразованию с использованием определенных параметров средне- го и стандартного отклонения. В противном случае используется более сложное преобразование, основанное на использование функции обратного нормального интеграла. Нормализованные стандартные показатели - это стандартные показа- тели, соответствующие распределению, преобразованному так, что оно прини- мает вид нормальной кривой. Нормализованный z-балл - стандартизованный показатель, имеющий нормальное распределение со средним 0 и стандартным отклонением 1. Нормальное распределение (закон гаусса) - это предельный закон, к которому приближаются все другие распределения при увеличении числа ис- пытаний. В частности этому закону подчиняются ошибки измерений. Время восстановления ремонтируемых изделий, как правило также, распределено по нормальному закону. Наработка до отказа невосстанавливаемых изделий и многие другие случаи могут приближаться к этому распределению. Нормативное на интервальном уровне – используется предположение о равенстве единиц измерения показателя теста во всем интервале его вариа- ции. Для сравнения показателей разных тестов они переводятся в стандартные шкалы. Связь многих статистических параметров с нормальным распределени- ем определяет предпочтительность нормального распределения тестовых оце- нок. Если эмпирическое распределение отличается от нормального, оно может быть в большинстве случаев нормализовано искусственно стандартизировано). Нормативное на ординальном (ранговом) уровне - используется так называемая перцентильная (процен-тильная) шкала, gостроение которой не обусловлено видом распределения тестовых оценок. Единственное условие – возможность ранжирования показателей по величине. Единицы перцентильной шкалы отличаются тем, что арифметически одинаковые различия перцентиль- ных тестовых оценок могут не соответствовать равным различиям в интенсив- ности оцениваемого свойства. Обучающий эксперимент - эксперимент (как правило, протекающий в виде нестандартизованного психодиагностического диалога), в ходе которого у испытуемого формируются определенные психические свойства (понятия, ум- ственные навыки и умения) с заданными характеристиками в результате актив- ного, целенаправленного и методичного воздействия на него со стороны экспе- риментатора-диагноста (наводящие примеры, подсказки и т.п.). В коррекцион- но-диагностической практике некоторые приемы обучающего эксперимента могут быть использованы для выявления так называемой «зоны ближайшего развития» и прощупывания возможностей для оперативной коррекции дефекта развития. Общая внутригрупповая ковариационная матрица. Матрица, состоя- щая из средних значений ковариационных матриц, вычисленных для каждого уровня зависимой переменной. Общая сумма квадратов. Сумма квадратов отклонений всех значений от среднего значения всего распределения. Общее семантическое пространство – это пространство, в котором од- новременно, в единой системе координат отображаются и личностные черты, обозначенные словами естественного языка, и поступки, обозначенные развер- нутыми дескрипторами. Общность. В факторном анализе мера, характеризующая долю диспер- сии переменной, обусловленную воздействием всех факторов. Объект психодиагностики - это конкретный человек, являющийся носи- телем (обладателем) различных индивидуальных психических свойств. Психи- ческие свойства образуют предмет психодиагностики. Важность различения предмета и объекта проявляется, прежде всего, при обсуждении вопросов, свя- занных с обеспечением таких психометрических свойства теста, как надеж- ность и валидность. Иногда тест может обладать высокой надежностью - это как раз и есть устойчивость относительно объекта: при проведении перетести- рования практически все испытуемые могут оставаться на тех же местах на ранговой (порядковой) диагностической шкале, которые они занимали после первого тестирования. Но это еще не означает, что тест направлен на измерение желательного для нас психического свойства, то есть, это еще не означает вы- сокой валидности. Объективные тесты - это диагностические методики, в которых резуль- тат в очень малой степени зависит от субъективного отношения диагноста к испытуемому, зависит только от профессионально-точного проведения методи- ки. К числу объективных методик относятся: психофизиологические и аппара- турные методики, собственно объективные психологические тесты, тесты- опросники, методики шкалирования. Некоторые формализованные процедуры контент-анализа текстов также приближаются к о.т. В методиках самоотчета (тест-опросники и субъективное шкалирование) искажения возникают не бла- годаря субъективности диагноста, но благодаря субъективному отношению ис- пытуемого к процедуре (см.психодиагностическая ситуация). Объектная парадигма – такая структура экспериментально- психологических данных, в рамках которой человек описывается как объект, обладающий определенными психическими свойствами (чертами), но не как субъект, строящий собственную модель (образ) мира. Одномерное – одномерная психологическая стимуляция и известная из- мерения стимула. Одномерные F-критерии. В многомерном дисперсионном анализе кри- терии, которые характеризуют влияние независимых переменных и их взаимо- действий на каждую зависимую переменную в отдельности. Одномерные тесты - тесты-опросники (тесты самоотчета) или тесты способностей, измеряющие одну определенную черту или способность испыту- емого (например, стремление к успеху, устный счет и т.п.). В каталоге лабора- тории «гуманитарные технологии», как правило, от представлены в форме теста с одной генеральной шкалой и с краткими, не слишком надежными субшкала- ми: к от относятся тесты «суицидального риска», кто (краткий тест отбора), «секретарь», «бухгалтер» и т.п.. Одномоментная (синхронная) надежность (согласованность) - тип надежности независим от устойчивости (поскольку не имеет временного интер- вала) и имеет особую содержательную и операциональную природу. Ее надо понимать именно как согласованность частей теста. В психотехнике этот вид надежности часто называют коэффициентом внутренней согласованности те- ста. Ожидаемое значение. В перекрестной таблице при использовании кри- терия χ2 значение, вычисляемое в предположении, что все переменные являют- ся полностью независимыми друг от друга. В регрессионном анализе термин «ожидаемое значение» эквивалентен термину «прогнозируемое значение» и означает величину, получаемую для каждого объекта в результате подстановки значений переменных для него в уравнение регрессии. Операциональная категоризация – естественный процесс распознава- ния образов человеком, при котором определенному внешнему объекту (или ситуации) ставится в соответствие определенная «реакция», а в общем случае программа действий (операций). Операциональный компонент -– фактически любая единица хранения семантического опыта в памяти человека имеет предметный и операциональ- ный компоненты, между которыми она и устанавливает соответствие. Послед- ний содержит указание (ссылку) на определенную программу действий (опера- ций), которая должна быть адекватной в отношении к данному предмету (сти- мулу, объекту внешнего мира). Описательно-симптоматическая диагностика - диагностика, которая регистрирует относительно поверхностные психические свойства, оказываю- щиеся в причинно-следственной цепочке развития в роли следствий. Их реги- страция позволяет делать прогноз с некоторой вероятностной точностью, но не позволяет понять и скорректировать истинных причин развития (как в случае причинной диагностики), что особенно важно в случае появления нарушений развития, отклонений в поведении или эмоциональной дезадаптации. Ортогональность признаков - взаимная статистическая независимость между показателями (параметрами). На языке геометрических моделей каждый параметр изображается в виде вектора, а корреляция - в виде косинуса угла между векторами. В этом контексте независимость - это нулевое значение ко- синуса, которое достигается при углах в 90 или 270 градусов (при взаимной перпендикулярности). Ортогональность признаков – взаимная статистическая независимость оценка – фактор коннотативного семантического пространства, один из трех основных факторов системы «оценка–сила–активность» (или ера) Ч. Осгуда. Остаточная дисперсия и коэффициент детерминации R-квадрат - чем меньше разброс значений остатков около линии регрессии по отношению к об- щему разбросу значений, тем, очевидно, лучше прогноз. Например, если связь между переменными X и Y отсутствует, то отношение остаточной изменчиво- сти переменной Y к исходной дисперсии равно 1.0. Если X и Y жестко связаны, то остаточная изменчивость отсутствует, и отношение дисперсий будет равно 0.0. В большинстве случаев отношение будет лежать где-то между этими экс- тремальными значениями, т.е. между 0.0 и 1.0. 1.0 минус это отношение назы- вается R-квадратом или коэффициентом детерминации. Это значение непо- средственно интерпретируется следующим образом. Если имеется R-квадрат равный 0.4, то изменчивость значений переменной Y около линии регрессии составляет 1-0.4 от исходной дисперсии; другими словами, 40% от исходной изменчивости могут быть объяснены, а 60% остаточной изменчивости остаются необъясненными. В идеале желательно иметь объяснение если не для всей, то хотя бы для большей части исходной изменчивости. Значение R-квадрата явля- ется индикатором степени подгонки модели к данным (значение R-квадрата близкое к 1.0 показывает, что модель объясняет почти всю изменчивость соот- ветствующих переменных). Оценочные (экспертные) баллы - баллы, которые выставляются экспер- тами – по результатам проверки заданий с развернутыми ответами или в ходе оценки устных ответов. Оценочный компонент – практически в каждой категориальной единице обыденного сознания присутствует оценочный компонент. Чаще всего это эмо- циональная оценка, но возможна и моральная, и прагматическая. Для освобож- дения дескрипторов черт личности от оценочного компонента, по мнению ав- тора, недостаточно использовать биполярные шкалы, нужны пары взаимосвя- занных биполярных шкал, то есть «четырехполюсная модель личностной чер- ты». Ошибка диагноста – разновидность артефакта, обусловленная недоста- точной опытностью или предубежденностью исполнителя методики. Неопыт- ный диагност вольно или невольно может подсказывать правильный ответ на тестовое задание. Или, будучи включенным наблюдателем, диагност оказыва- ется предвзятым в своих оценках и интерпретациях. Или, будучи нелишенным собственных внутренних комплексов и проблем, диагност допускает искажен- ную интерпретацию результатов проективной методики так называемую «вто- ричную проекцию» на проективный материал. Устранить од можно только пу- тем привлечения нескольких опытных и независимых диагностов (экспертов), независимых как друг от друга, так и от испытуемых и заказчиков психодиа- гностической информации. Ошибка измерения - (ERROR OF MEASUREMENT), количественная мера возможного интервала неопределенности на тестовой шкале, внутри кото- рого истинное значение уровня подготовки (измеряемого свойства) испытуемо- го может находиться фактически с равнодопустимой вероятностью. Ошибка измерения, как правило, не может быть меньше, чем интервал между точками на шкале, определенный числом заданий. Если в тесте только 10 заданий, то бессмысленно применять стобалльную шкалу, так как ошибка измерения ока- зывается не менее 10 пунктов. В данном случае достаточно более грубой шкалы - такой, как шкала стенов («стандартная десятка»). Ошибка измерения - мера ожидаемого отклонения измеренного значе- ния тестового показателя от истинного значения показателя, возникающего благодаря наличию различных помех, обуславливающих снижение точности, или надежности измерения. Это ожидаемая разность между точным и измерен- ным значением параметра, которая является случайной величиной. Ошибка центрации - одной из причин ошибки центрации, или, как ее называют, центральной. Тенденции, является та, что испытуемый реже дает крайние утверждения и, таким образом, смещает оцениваемые объекты- стимулы в направлении к середине всей группы. Это особенно характерно для балльных оценок таких объектов, о которых эксперты-испытуемые знают не очень много. Параметр. Некоторая числовая характеристика генеральной совокупно- сти. Параметрические критерии. Критерии, применяемые в предположении о нормальном распределении переменных в генеральной совокупности. Парциальные факторы - психические свойства, обусловливающие зави- симость общей интеллектуальной эффективности от уровня развития отдель- ных психических функций, связанных с определенными органами чувств и мозговыми структурами (цветовым, фигуративным или пространственным зре- нием, музыкальным или фонематическим слухом, памятью на лица и т.п.). Перекрестная валидность - это вид валидности, который устанавливает- ся на независимой выборке испытуемых, отличающейся от той, на которой был получен фактор (построен ключ к тесту) или выявлено какое-то значимое раз- личие между выборками и т.п. См. Также «кросс-валидизация Переменная величина - называется случайной, если в результате опыта она может принимать действительные значения с определёнными вероятностя- ми. Наиболее полной, исчерпывающей характеристикой случайной величины является закон распределения. Переменные в уравнении. При выводе результатов пошагового регрес- сионного анализа SPSS включает для каждого шага статистики тех перемен- ных, которые вошли в уравнение регрессии. Перцептуальная сила – это чувствительность субъекта к определенному семантическому фактору, что приводит к поляризации (растяжению) семанти- ческого пространства вдоль оси этого фактора. Пирсона коэффициент корреляции. Мера корреляции, идеально подхо- дящая для двух непрерывных (метрических) переменных. Поле прогноза (область валидности теста) - класс ситуаций, на которых распространяется прогноз определенного поведения испытуемого по результа- там психодиагностики. Полная информация о случайных величинах заключена в плотности распределения . Пороговые измерения (Герберт, Фехнер, Вудвортс, Тюргенсон) – нахождение одного шкального значения или локализации точки на психологи- ческой шкале – единственное значение и нулевую размерность. Порядковая –отношения возрастания. Известно об объектов последова- тельности (интервал между объектами не знаем). Предмет психодиагностики – закономерности вынесения валидных и надёжных диагностических суждений в правила, с помощью которых осу- ществляется переход от признаков определённого психологического процесса, состояния, свойства к констатации и наличии их выраженности у индивида. Предмет психодиагностики - основной предмет связан с измерением пси- хологических объектов относительно диагностического критерия (нормативно- критериальными и ипсотивными диагностическими показателями) Предмет психодиагностики - это различные психические свойства чело- века. От предмета следует отличать объект психодиагностики. Предмет психодиагностики (как научной дисциплины общей психо- диагностики) – составляют универсальные принципы (феномен, природа) при- роды и строения диагностируемых психологических процессов, состояний и свойств, а так же фундаментальные законы и закономерности построения ин- струмента измерений. Предмет психодиагностического обследования – достоверное измере- ние кого-либо свойства при помощи выявления определённой реакции человека на стандартизированный стимул. Предсказанные значения и остатки - линия регрессии выражает наилучшее предсказание зависимой переменной (Y) по независимым перемен- ным (X). Однако, природа редко (если вообще когда-нибудь) бывает полностью предсказуемой и обычно имеется существенный разброс наблюдаемых точек относительно подогнанной прямой (как это было показано ранее на диаграмме рассеяния). Отклонение отдельной точки от линии регрессии (от предсказанно- го значения) называется остатком. Принцип комплексной диагностики - принцип сочетания различных методических приемов при диагностике одного и того же психического свой- ства, а также сочетания методик, направленных на родственные психические свойства, для повышения валидности диагностического заключения. Если диа- гностический вывод базируется только на одной методике, то не исключено, что вся выявленная психологическая специфика испытуемого обусловлена ин- струментальной ошибкой и является артефактом. Проспективная валидизация - выявляет прогностическую эффектив- ность диагностической процедуры. Высокая прогностическая валидность дока- зывает как валидность самого измерения, так и наличие предполагаемой при- чинной связи. Пространственно-семантические модели – описывают категориальную систему в виде системы координат, в которой оси образованы семантическими факторами (глобальными признаками), а отдельные элементы (объекты) и зна- чения (конструкты) изображаются в виде точек (векгоррв), заданных их проек- циями на оси. Пространственные таксономические модели – это наиболее универ- сальные семантические пространства, призванные вместить всю лексику, суще- ствующую в языке для обозначения определенных явлений, в частности, лич- ностных черт. В рамках ПТМ различные классы черт (таксоны) размещаются в определенных квадрантах или секторах (фасетках) многомерного пространства. Пример ПТК представляет модель большая пятерка. Процентиль - процент испытуемых из выборки стандартизации, которые получили равный или более низкий балл, чем балл данного испытуемого. Психодиагностика – методология конструирования, применения и раз- работки методик. Психодиагностика – наука об выявлении и измерении индивидуально- психологических различий как между индивидами так и их реакциях различий (диагностика – обнаружение, выявление методом измерения). Психодиагностика (ЭПИСТЕМОЛОГИЧЕСКИЙ характер предмета - метод) – профилактическое обследование индивидов или групп с целью дать оценку той или иной психхологической особенности с помощью надежной ме- тодики (С ТОЧКИ ЗРЕНИЯ АКТУАЛЬНОГО СОСТОЯНИЯ) (В. Штерн) Психодиагностическая ситуация - это социально-психологический кон- текст, в котором осуществляется диагностическое обследование. Всякое диа- гностическое обследование находится под влиянием как непосредственных си- туационных факторов, возникающих в общении диагноста с испытуемым, так и под влиянием более широкой социальной рамки, в которую погружено обсле- дование. Например, то, в какой степени диагност справляется с задачей по установлению контакта, влияет на достоверность результатов диагностики не меньше, чем общая установка испытуемого по отношению к участию в данном обследовании, основанная на его интерпретации целей и задач обследования, на его отношении к психологическим методам и процедурам. Принято различать, по крайней мере, два класса д.с. - «ситуацию клиента» (обследование проводит- ся по запросу клиента и в его интересах) и «ситуацию экспертизы» (обследова- ние по инициативе и в интересах определенной организации или какого-то со- циального института: образования, здравоохранения, правопорядка и т.п.). Очень многие методики (прежде всего основанные на самоотчете), которые дают достоверную информацию в «ситуации клиента» не дают достоверной информации в «ситуации экспертизы». Защита достоверности теста в ситуации экспертизы - особая проблема, требующая строго применения как определен- ных технологических процедур (шкалы достоверности и т.п.), так и следования профессионально-этическим нормам. Психодиагностический профиль - простейшая разновидность диагно- стограммы в психологии. Это графическое представление результатов много- факторного теста или батареи тестов в виде ломанной кривой, подъемы и спады которой указывают на уровень выраженности у данного испытуемого опреде- ленного психического свойства (фактора). Родственные термины – «психологи- ческий профиль личности «,«реальный профиль» (в противоположность «иде- альному профилю» ). Психодиагностическое исследование – комплекс теоретических и экс- периментальных работ, направленных на формирование концепции измеряемо- го психологического свойства на выявление диагностических признаков по ко- торым можем получать информацию о заданном свойстве. Психодиагностическое обследование – применение разработанного го- тового диагностического инструментария. Его результат – сведение психологи- ческих свойств обследуемого в форме диагностического заключения. Психологический диагноз – конечный результат деятельности психоло- га психодиагноста, направленный на выявление существующих индивидуаль- но-психологических различий с целью оценки актуального состояния (ситуа- тивность), прогноза дальнейшего развития и разработки рекомендаций, опреде- ляемых задачей ПД обследования (нет безцелевого характера) Психологический диагноз - результат психодиагностического обследо- вания, выраженный в простейшем случае в форме отнесения испытуемого к определенной психодиагностической категории. В общем случае ПД носит комплексный и системный характер и содержит описание структуры выявлен- ных психических свойств (в виде профиля, в частности), возможное причинное объяснение текущего психического состояния индивида, а также прогноз его будущего поведения или возможных событий в его жизни. Психологический портрет личности - это комплексная психологическая характеристика человека, содержащая описание его внутреннего склада и воз- можных поступков в определенных значимых обстоятельствах. В отличие от психологического профиля личности, портрет – это в большей степени каче- ственное, а не количественное описание. В случае обработки тестовых данных портрет - это не график, описывающий соотношение баллов по разным факто- рам, а текстовая интерпретация этого соотношения баллов. Психометрические свойства теста - это свойства, обеспечивающие определенный стандарт качества для любой измерительной психодиагностиче- ской методики (теста). Практически все современные авторы относят к числу п.с.т. Три свойства: надежность, валидность ирепрезентативность. Некоторые авторы зачисляют в число свойств дискриминативность (способность теста раз- личать испытуемых), некоторые - достоверность (способность теста сопротив- ляться искажениям). Различающая сила фактора (перцептуальная сила) – это дисперсия проекций элементов семантического пространства на ось данного фактора. Чем выше РСФ, тем выше чувствительность индивида к различиям между объекта- ми по тем признакам, которые контрастируют на полюсах фактора. Размерность семантического пространства – количество независимых, взаимно-ортогональных факторов. Рандомизация вариантов - формирование вариантов с помощью ком- пьютерной программы, включающей то или иное задание в вариант из банка заданий случайным образом. Для обеспечения параллельности (эквивалентно- сти) вариантов задания выбираются на каждом шаге алгоритма случайным об- разом не из всего множества, а из подмножества заданий с одинаковой специ- фикацией - одинаковой тематической отнесенностью, форматом и уровнем трудности. Распределение тестовых баллов - функциональная зависимость частоты встречаемости от величины тестового балла. Описывается в табличной или графической (гистограмма или кумулята) форме. Показатель частоты буквально указывает на количество испытуемых в выборке стандартизации, которые по- лучили тестовых балл данной величины. Раша модель - однопараметрическая модель, частный случай IRT, уста- навливающая соответствие между двумя множествами значений скрытых свойств и наблюдаемыми результатами выполнения теста. Элементы первого множества - это значения скрытого параметра, определяющего уровень подго- товки испытуемых. Второе множество образуют значения латентного парамет- ра, равного трудности задания теста. Г. Раш предложил ввести соответствие между этими двумя множествами как разность, предполагая, что параметры и оцениваются в одной и той же шкале интервалов. Это возможно с помощью специальных алгоритмов шкалирования матрицы данных «задания - испытуе- мые». Абсолютная величина разности - это расстояние, между испытуемым i с уров- нем подготовки i и заданием j. Если разность велика по модулю и отрицатель- на, то задание бесполезно для измерения уровня знаний i-го ученика, он навер- няка не сможет выполнить его верно. Большие положительные значения этой разности тоже не представляют интереса для обучения i-го испытуемого: зада- ние такой трудности давно им освоено. Наиболее информативными в этой мо- дели являются низкие показатели разности. Региональные тестовые нормы - границы тестовых баллов, позволяю- щие устанавливать уровень образовательных достижений учащихся с опреде- ленной статистической достоверностью в рамках одного региона. Репертуарные решетки - особый класс методик для изучения системы индивидуальных представлений. Репертуарные решетки - это разновидность матричных тестов (методик шкалирования), при которой индивиду самому предлагается конкретизировать стимулы для шкалирования на основе т.н. «ро- левых инструкций» пример ролевых инструкций: «человек, которому вы дове- ряете», «человек, которого вы презираете» и т.п. При этом испытуемый в явном или неявном виде заполняет своими субъективными оценками матрицу (решет- ку), по столбцам которой варьируют различные объекты (элементы, понятия, заданные с помощью обобщенной «репертуарной» инструкции), а по строкам - различные признаки (шкалы, личностные конструкты). С помощью многомер- ного анализа решеток (в частности, с помощью факторного анализа) строятся модели индивидуальных представлений в виде «семантических пространств». Репертуарные решетки – это разновидность матричных тестов (методик шкалирования), при которой индивиду самому предлагается конкретизировать стимулы для шкалирования на основе т. н. «ролевых инструкций». Пример ро- левых инструкций; «человек, которому вы доверяете», «человек, которого вы презираете». Также матричные тесты, тест личностных конструктов. Репертуарные стимулы – это стимулы, которые формулируются в виде «ролевых инструкций» (типа «человек, которому вы доверяете») и характери- зуются неопределенностью, которую индивиду предлагается снять путем кон- кретизации-подстановки известного ему конкретного объекта (другого челове- ка). Репрезентативная реакция – это реакция, которая отражается и пережи- вается человеком как символический эквивалент определенного действия, как умственный и эмоциональный образ возможного внешнего действия, но пред- ставленный во внутреннем плане. Репрезентативность показывает, что измеряемый признак распределен в выборке примерно так же, как и в генеральной совокупности (проще говоря, репрезентативность показывает можно ли нормы, рассчитанные для генераль- ной совокупности, использовать для конкретной выборки). Репрезентативность тестовых норм - соответствие граничных точек на распределении тестовых баллов, полученных на выборке стандартизации, ана- логичным граничным точкам, которые могли бы быть получены на популяции проведения - на множестве испытуемых, для которых предназначен тест. Обычно при получении кривой нормального распределения делается вывод о том, что тестовые нормы обладают репрезентативностью. Но нормальность не является необходимым условием репрезентативности. РТН может достигаться и в отсутствие нормального распределения. РТН. - это возможность использо- вания тестовых норм, полученных по результатам выборочного тестирования, для оценки генеральной совокупности испытуемых. Р. - это одна из ключевых психометрических (тестологических) характеристик теста. Чем шире обследо- ванная выборка, чем точнее она отражает структуру генеральной совокупности (по полу, возрасту, уровню образования и т.п.), тем выше репрезентативность тестовых норм. Cм. Также общее определение репрезентативности. Рестандартизация - определение норм для новой социоэтнической попу- ляции является одним из основных и обязательных элементов адаптации те- ста. Ретестовый метод – повторное тестирование выборки испытуемых од- ним и тем же тестом через определенный интервал времени при одних и тех же условиях. Ретроспективная валидизация - позволяет в лучшем случае решить только первую из двух задач. Ричардсон модель многомерного шкалирования - взаиморасстояния между стимулами, шкала относительного расстояния (расположение объектов относительно друг другу их взаиморасположение. Нулевая точка произвольна ) – оценка аддетивной константы и перевод в абсолютные значения – проекции стимулов Семантический дифференциал – содержательное соотнесение различ- ных описаний как независимых ортогональных друг другу – метод построения репрезентации опыта в обыденном сознании (Ч. Осгуд). Семантический код – это полученный с помощью методики шкалирова- ния вектор (профиль) значений, приписанных стимулу (элементу, шкалируемо- му понятию) по первичным шкалам. В отличие от «факторного профиля», СК, или иными словами «шкальный профиль», используется в так называемых «нижоиптегративных.» моделях семантических (категориальных) систем. Семантическое пространство – это модельное представление, которое описывает категориальную систему в виде системы координат. При этом оси образованы семантическими факторами (глобальными признаками), а отдель- ные элементы (объекты) и значения (конструкты) изображаются в виде точек (векторов), заданных их проекциями на оси. Сила – фактор коннотативного семантического пространства, один из трех основных факторов системы «оценка-сила-активность» (или ЕРА) ч. Осгу- да. В терминах трехкомпонентной теории эмоций в. Бунда с. Интерпретируется как параметр «напряжение – расслабление». Случайная величина – величина, которая в результате опыта может принимать то или иное заранее неизвестное значение. Смещение категориальной шкалы – сдвиг начала координат шкалы. Скш может происходить в силу особенностей индивидуального опыта или определенных мотивационных искажений. Событие – всякий факт, который в результате опыта может произойти или не произойти. Согласованность экспертных оценок - определенное совпадение оце- нок, которые дают независимые эксперты одним и тем же объектам по опреде- ленным критериям. СЭО - важный признак наличия у экспертной процедуры определенного уровня надежности-валидности. Содержательная валидность (внутренняя, логическая) - это комплекс сведений о том, насколько задания теста репрезентируют измеряемые свойства и особенности. Одним из основных требований при установлении содержа- тельной валидности методики является отражение в содержании теста ключе- вых сторон изучаемого психологического феномена. Способ (метод) шкалирования - алгоритм, согласно которому каждому эмпирическому объекту в процессе построения шкалы ставится в соответствие некоторое число (или совокупность чисел). Стандартизация – это единообразие процедуры проведения и оценки выполнения теста. Таким образом, стандартизация рассматривается в двух пла- нах: как выработка единых требований к процедуре эксперимента и как опре- деление единого критерия оценки результатов диагностических испытаний. Стандартизованный коэффициент α. В анализе надежности значение α, полученное в случае, если перед проведением анализа стандартизовать распре- деления всех элементов шкалы. Стандартная ошибка. Стандартное отклонение величины, получаемое в результате ее многократного вычисления для случайных выборок. Как правило, стандартная ошибка вычисляется для среднего значения распределения. Стандартное отклонение. Мера разброса значений распределения во- круг среднего. Стандартное отклонение определяется как квадратный корень дисперсии (суммы квадратов отклонений от среднего, деленной на N – 1, где N – объем. Статистические нормы - граничные значения на шкале тестовых бал- лов, образованные на основе частотного распределения тестовых баллов ввыборке стандартизации. Как правило, эти граничные значения отделяют от выборки фиксированный процент испытуемых: 10 (дециль), 25 (квартиль), 50 (медиана). При нормальном распределении сн описываются с помощью пара- метров (среднее плюс-минус сигма, или стандартное отклонение). СН служат принятию сравнительных решений и не дают информации для принятия норма- тивных решений. Столбиковая диаграмма. График распределения частот по категориям (значениям) переменной. Каждый столбец на графике соответствует одному значению признака, а его высота пропорциональна частоте встречаемости этого значения. Аналогичное средство для количественных переменных, имеющих большое число возможных значений, обычно называется гистограммой. Стратегия «сбалансирования социальной желательности» - цель обеспечить дискриминативную валидность теста относительно шкалы «соци- альной желательности». Это достигается с помощью факторного анализа кор- реляций между пунктами. Факторный анализ, в применении к одномерному тест-опроснику, как правило, выделяет два фактора: относящийся к самому из- меряемому свойству и относящийся к социальной желательности. Структура описания объекта и семантических универсалий – инди- видуально-специфического способа структурации опыта Субшкалы - это однородные подмножества тестовых заданий в много- факторном тесте (гетерогенном или составном), которые нацелены на измере- ние одного фактора и должны учитываться при подсчете баллов по одной фак- торной шкале. Сцепление факторов - индивидуальная трансформация СП, при которой наблюдается полная утрата взаимной независимости (ортогональности) факто- рами, которые в норме (в общественном сознании) являются независимыми. СФ приводит к неразличимости полюсов этих факторов. Например, нередко наблюдается сцепление даже таких универсальных факторов как «сила» и «ак- тивность», в этом случае новый макрофактор, как правило, получает название «динамизм». СФ приводит к сокращению размерности семантического про- странства, к снижению когнитивной сложности. Таксономическая модель – как правило, это иерархическая классифика- ция, призванная связать закономерными отношениями все термины из заданной области. Самая известная ТМ в науке – биологическая классификация видов животных и растений. Если для ряда классов (таксонов) в такой классификации задаются отношения «близости–удаленности», то речь идет уже о «простран- ственных ТМ». В последнее время число типов отношений между понятиями (узлами) в ТМ расширяется, в это число входят не только отношения «видовой спецификации» и «близости–удаленности», но и отношения «целевой причин- ности», «быть атрибутом» и т. п. Таксономические исследования - исследования в области психологии личности, направленные на классификацию терминов естественного языка, обозначающих личностные черты. Тезаурус личностных черт – система связей между словесными обозна- чениями личностных черт (в основном в виде отношений нестрогой синонимии и антонимии), построенная на базовом словнике. Теория генерализованности - теория, разработанная Кронбахом, требу- ет от исследователей соблюдать высокую точность по отношению к тем заклю- чениям, которые могут быть сделаны на основе набора тестовых оценок. Она пытается идентифицировать все возможные источники ошибок, которые могут возникнуть при оценивании, в значительной степени так же, как это было пока- зано выше для отдельных заданий теста. Она стремится оценить каждый из возможных источников ошибок независимо и внести поправку в оценку каждо- го индивидуума с учетом влияний этих посторонних факторов. Теория тестовых заданий - совокупность математических принципов и методов конструирования тестов, основанная на предположении о том, что трудность тестовых заданий и измеряемая способность – это величины, кото- рые измеряются на одной шкале. В отличие от классической теории тестов ал- горитмы IRT не делают различий между столбцами (задания) и строками (ис- пытуемые) в матрице первичных протоколов тестирования (ответов на зада- ния). Тест - испытательно-оценочная направленность. Тест - как измерение – индивидуальный подход. Тест - как инструмент стандартизированного измерения выборки поведе- ния (психометрическое определение). Тест - как испытание – тесты структуры интеллекта. Тест - как оценка – тесты достижений (ОЦЕНКА ЭТО МЕТОДИКА А НЕ ТЕСТ). Тест - как ПД инструмент, обеспечивающий переход от поверхностных, наблюдаемых структур регистрации диагностируемых признаков к скрытым, латентным признакам (диагностическая категория). Тест – метод измерения индивидуально-психологических различий предоставляющий собой кратковременное стандартизированное психометриче- ское испытание методологической задачей которого является необходимость сравнивать между собой оценки, получаемые различными испытуемыми при соблюдении константности самой процедуры исследования. Тест – научно разработанные, профессионально составленные диагно- стические методики прощедщие апробацию и стандартизацию (ЛИНГВИСТИ- ЧЕСКАЯ ПАРАДИГМА). Тест – стандартизованное, часто ограниченное во времени испытание (ИЗМЕРЕНИЕ) предназначенного для установления (ИЗМЕРЕ- НИЯ)качественных и колличественных индивидуальных различий. Тест - теоретическое эмпирический обоснованная система высказываний, позволяющая получить измерение соответсвующих психологических свойств. Тест (как диагностический инструмент) – диагностическая методика- диагностическая техника (НО ТОЛЬКО ОБОЗНАЧЕНИЕ) Тест (Кронбах) – систематическая процедура для сравнения поведения двух или более людей (предполагает определённое поведение, образцы поведе- ния должны отбираться систематически, цель – сравнение). Тест конструктов - синонимичное название для техники «репертуарных решеток». В процессе попарного или триадического (тройками) сравнения объ- ектов испытуемый сам называем значимые для него различительные признаки этих объектов. Эти признаки и называются конструктами. В общем случае тк может проводиться с объектами любого типа (названия профессий, товаров и т.п.). Более узкий вариант ТК - тест личностных конструктов. Тестовая шкала - упорядоченные множества числовых оценок результа- тов тестирования. Для разных целей создаются различные тестовые шкалы. В психометрических тестах очень важно различать шкалы первичных (сырых) баллов и стандартные тестовые шкалы. Тестовые нормы - количественные и качественные критерии оценки ре- зультатов теста, позволяющие определить уровень достижений или степень вы- раженности психологических свойств, которые являются объектами измерения. Тест-опросник - формализованный вариант опросника, содержащий в своих пунктах заданный перечень возможных ответов. Каждый из ответов свя- зывается с определенным вкладом в тестовый балл, который подсчитывается по ключу к тесту. В то вопросы, как правило, формулируются в косвенной форме или в форме утверждений, описывающих определенные формы поведения. Вы- сокая степень стандартизации и формализации сближает то с объективными те- стами. Особенно широко то используются в личностной психодиагностике. Тесты достижений - тесты, направленные на измерение уровня развития знаний, умений и навыков в конкретных областях. Не имеют четкой границы, которая отделяла бы их от тестов специальных способностей, так как актуаль- ные способности могут рассматриваться как достижения индивида, полученные им в ходе развития его потенциальных способностей. Но, как правило, резуль- таты ТД интерпретируются в виде ссылки на эффективность определенной дея- тельности, а результаты тестов специальных способностей в виде ссылки на выраженность определенных психологических факторов (свойств). Тесты интеллекта - стандартизованные методики, направленные на из- мерение общего уровня способности индивида к решению широкого класса мыслительных задач. Особые тесты структуры интеллекта (например, Вексле- ра, Амтхауэра и др.) Позволяет при этом соотнести степень развитости различ- ных компонентов (или видов) общего интеллекта. Тесты критериально-ориентированные - это тесты, баллы которых ин- терпретируются в соответствии с заранее заданными абсолютными норматива- ми (числовыми порогами) для оценки достижений, сформулированными экс- пертами в данной области. ТКО – это иное название для подхода, который в ли- тературе часто обозначается как корт - критериально-ориентированное тести- рование. КОРТ, как правило, противопоставляется в определенном контексте НОРТ, то есть, нормативно-ориентированному тестированию (см тесты норма- тивно-ориентированные). Тестовые задания в ТКО по принципу «надежный минимум», то есть подавляющее большинство испытуемых, которых можно допустить до определенного вида деятельности, должны справляться с этим за- данием (не менее 95 процентов от допущенной выборки). ТКО применяют для допуска к наиболее ответственным видам работы, где цена ошибки очень высо- ка. Не следует смешивать тко савторскими тестами, так как задания ТКО обяза- тельно проходят статистическую проверку. Тесты культурно-независимые - это тесты, которые фактически не тре- буют перевода и статистической адаптации при переносе из одной языковой культуры в другую. Как правило, это тесты, которые оперируют невербальным (неречевым) тестовым материалом: графическими схемами, рисунками, фото- графиями, звуками и т.п. Особую роль ткн получили в контексте задачи выяв- ления перспективных иммигрантов из числа тех, кто плохо владеет языком страны пребывания. Тесты личностные - это тесты, результаты которых интерпретируются в терминах свойств характера или мотивов человека. Тл принято отличать от те- стов интеллекта, специальных способностей и тестов достижений. Наиболее распространенная в практике управления персоналом форма Тл – это тест- опросники. Но следует учесть, что в ситуации экспертизы (отбора или аттеста- ции) тест-опросники обладают низкой достоверностью (уязвимы к фальсифи- кации). Поэтому они применяются в сочетании с проективными тестами), хотя последние по уровню стандартизации чаще всего нельзя относить к измери- тельным тестам. Тесты множественного выбора – это тесты, которые состоят из заданий с определенными заранее предложенными (заданными) вариантами ответов. В общем случае ТМВ позволяют испытуемому выбирать несколько вариантов от- ветов. Но более распространенным является частный случай, когда испытуемо- му предлагается выбрать только один (наилучший, или правильный) ответ. В последнем случае более корректно было бы говорить о «тестах с альтернатив- ным выбором». ТМВ предполагают более простую, количественно- формализованную обработку. В отличие от ТМВ «тесты со свободным отве- том» очень часто не имеют однозначного ключа (в виде числа, слова или набо- ра букв) и поэтому требуют первичной доколичественной обработки (кодиров- ки, категоризации) ответов. Тесты нормативно-ориентированные - это тесты, баллы которых ин- терпретируются в соответствии со статистическими нормами, а тестовые зада- ния отобраны по принципу «фифти-фифти» (половина решает). В простейшем случае в качестве нормы устанавливаются границы так называемого «цен- трального интервала» (или коридора) для наиболее часто встречающихся бал- лов – от «среднее минус сигма» до «среднее плюс сигма» (здесь «сигма» обо- значает среднее квадратическое отклонение). Но в общем случае статистиче- ские нормы – это любые пороговые значения для тестовых баллов, основанные на процентильных баллах, то есть процентах от протестированной выборки ис- пытуемых. ТНО применяют в ситуации выбора лучших из широкого числа кан- дидатов, а также в ситуации, когда по тесту нужно сформулировать долгосроч- ный и универсальный (пригодный для разных ситуаций) прогноз. Но непра- вильно применять ТНО для допуска к выполнению высокоотвественной рабо- ты. В таком случае следует отдавать предпочтение тестам критериально- ориентированным. Тесты предметные - сосуществуют 2 различные трактовки этого терми- на: а) это тесты, направленные на измерение уровня знаний по какому-то пред- мету (чаще всего это дисциплина школьной программы), б) это тесты, предпо- лагающие практические (ручные) действия испытуемых с определенными фи- зическими предметами. Тесты профессиональные - это тесты, результаты которых интерпрети- руются в терминах соответствия требованиям определенной профессии. Част- ный случай ТП – это тесты профессионального отбора, профориентации, ква- лификационные тесты и т.п. Неправильная трактовка данного термина – тесты, созданные профессиональными разработчиками тестов. В состав батареи ТП могут входить и психологические тесты, если они направлены на диагностику профессионально-важных качества . Тесты результативности - это тесты, как правило, открытого типа, в хо- де решения которых испытуемые не ограничены во времени. Данный термин используется в контексте противопоставления тестам скорости. ТР дают луч- шие результаты при прогнозировании успешности деятельности, не сталкива- ющейся с жестким дефицитом времени. Тесты скорости - это тесты, как правило, закрытого типа, в ходе решения которых испытуемые ограничены во времени. Тестовый балл отражает в дан- ном случае число заданий, которые испытуемый успел решить за отведенный на выполнение интервал времени. Данный термин используется в контексте противопоставления тестам результативности. ТС дают лучшие результаты при прогнозировании успешности деятельности, сталкивающейся с жестким дефи- цитом времени на выполнение отдельных этапов и операций. Тесты специальных способностей - тесты, направленные на измерение уровня успешности решения задач конкретного типа и в конкретных областях деятельности (то есть так называемых специальных способностей). Тсс не имеют четкой границы, отделяющей их от тестов достижений, так как актуаль- ные способности могут рассматриваться как достижения индивида, полученные им в ходе развития его потенциальных способностей. Но, как правило, резуль- таты тсс интерпретируются в виде ссылки на выраженность определенных пси- хологических факторов (звуковысотный слух, например), а результаты тестов достижений - в виде ссылки на эффективность определенной деятельности (пе- ние, музицирование и т.п.). Тс следует отличать от тестов достижений (или квалификационных тестов) таким образом: высокий (приемлемый) балл тс яв- ляется лишь необходимым, но не достаточным условием успешности деятель- ности. Для успеха кроме способностей нужно иметь желание, интерес к делу и умение правильно оценить ту или иную проблемную ситуацию, чтобы вовремя актуализировать нужную способность (последнее умение формируется только под влиянием опыта). Таким образом, тс более информативны при низких бал- лах – как инструмент отсева непригодных, а не отбора пригодных. Техника – класс методик, объединенных родством определенного техно- логического приема. Типичный измерительный тест в психодиагностике - это последова- тельность кратких заданий, или пунктов, дающая в результате ее выполнения испытуемым последовательность исходов, которая затем подвергается одно- значной количественной интерпретации. Типы данных – различаются по своему происхождению и делятся на l- данные, q-данные, т-данные, s-данные. ТД не следует смешивать со структура- ми данных (плоская, трехсторонняя и т. П.). Точность измерения - статистический показатель, характеризующий близость к нулю ошибки измерения Точность-согласованность - точность в экспертных (субъективных) оценках, которая измеряется как степень соответствия индивидуальных оценок оценкам большинства других экспертов. Высокая согласованность - гарантия объективности результатов шкалирования. Трудность заданий - калибровка шкалы измерительного инструмента производится на основе какого-либо эталона, роль которого выполняет физиче- ский объект, стабильно сохраняющий заданную величину измеряемого свой- ства (например, метр, килограмм и пр.). Трудность задания - характеристика задания, отражающая статистиче- ский уровень его выполнения на выборке стандартизации. Т.З. Отражает про- цент ошибок, допущенных учащимися при выполнении данного задания. Трудность тестовых заданий - параметр, характерный для тестов спо- собностей и тестов достижений. Под величиной (параметром) трудности обыч- но понимается монотонно-убывающая функция от процента испытуемых, дав- ших правильных ответ на данный пункт: чем меньше испытуемых справились с заданием, тем выше уровень его трудности. Слишком легкие и слишком труд- ные пункты автоматически оказываются малоинформативными. Поэтому для большинства тестов (за исключением особых адаптивных тестов), оптималь- ными считаются пункты среднего уровня трудности. Современная психометри- ка настаивает на том, что ТТЗ можно измерить только экспериментально - пу- тем предъявления тестовых заданий тем испытуемым, на которых предполага- ется проводить тест. Т-шкала Мак-Колла - тесты, где среднее равно х = 50, а σ = 10). Шкала «стенов» (стандартная десятка) - предложена Р.Б. Кеттеллом. Этот спо- соб представляет собой перевод исходных тестовых оценок в 10-балльную шкалу, путем разбиения оси значений тестовых оценок на 10 интервалов, соот- ветствующих долям стандартного отклонения. Унифицированная методика - методика, обладающая высокой степе- нью стандартизации и возможностью применения в широком классе ситуаций. Уравнение регрессии - прямая линия на плоскости (в пространстве двух измерений) задается уравнением Y=a+b*X; более подробно: переменная Y мо- жет быть выражена через константу (a) и угловой коэффициент (b), умножен- ный на переменную X. Константу иногда называют также свободным членом, а угловой коэффициент - регрессионным или B-коэффициентом. Установка на «крайние» (расположенные по краям шкалы) ответы - установка может проявляться при использовании многоэлементной рейтинго- вой шкалы. Некоторые испытуемые, независимо от содержания вопросов, предпочитают выбирать крайние ответы. Установка на неопределенные или средние ответы - если в опроснике представлена средняя категория ответов, отражающая нерешительность или неуверенность в ответе (например, «не уверен», «не знаю», или «затрудняюсь ответить»), то многие испытуемые склонны к ней прибегать, как к безопасному компромиссу. Это приводит к снижению валидности заданий, поскольку боль- шинство методов анализа вопросов основывается на крайних значениях показа- телей. Установка на согласие - тенденция испытуемого соглашаться с утвер- ждениями или отвечать на вопросы «да» независимо от их содержания. Чаще всего проявляется, когда утверждения (вопросы) неоднозначны и неопределен- ны. Установка на социально одобряемые ответы - это тенденция испытуе- мых отвечать на вопросы теста так, чтобы выглядеть «социально положитель- ным»: если возможен «социально желательный» ответ, то весьма вероятно, что испытуемые будут его давать. Фактор. В факторном анализе объединение нескольких переменных, чья взаимная корреляция исчерпывает определенную долю общей дисперсии. По- сле процедуры вращения каждый фактор интерпретируется как некоторая об- щая причина взаимосвязи группы переменных. Факторная нагрузка - степень причинного влияния определенного диа- гностического фактора на уровень результатов выполнения определенного субтеста или отдельного тестового задания. Может быть выявлена в результате применения процедуры факторного анализа. Факторный анализ. Метод, позволяющий свести большое количество исходных переменных к значительно меньшему числу факторов, каждый из ко- торых объединяет исходные переменные, имеющие сходный смысл. Факторный профиль - это вектор числовых значений, изображенный в виде диаграммы (гистограммы) с указанием выраженности каждой оценочной шкалы (фактора). Существуют реальные ФП и идеальные ФП. Первые описы- вают реальные результаты тестирования (оценки) реального человека. Вторые – идеальные требования профессии (или должности) к человеку. Фи (φ). Мера связи (корреляции) двух категориальных переменных, обычно применяемая наряду с критерием χ2 при анализе таблиц сопряженности. Частотное распределение суммарных баллов - имеет удобную графи- ческую интерпретацию в виде кривых распределений: гистограммы и кумуля- ты. Числовая функция шкалы – допустимые преобразования для шкал – тип шкалы – тип преобразования - выбор числовой структуры - шкала отноше- ний. Шкала – направленная прямая, вектор и количественная оценка, интен- сивности перцептуальной силы признака. Шкала – числовая структура в которой изо и гомоморфно отобразить ин- тересующий эмпирическую структуру. Шкала диагностическая - это континуум количественных значений, обозначающих определенную степень выраженности измеряемого или диагно- стируемого свойства. Распространенное заблуждение начинающих диагностов заключается в том, что они склонны путать и отождествлять (ставить знак ра- венства) шкальное значение измеряемого психического свойства (тестовый балл) и саму истинную выраженность свойства. На самом деле шкальное зна- чение отражает истинное значение лишь с определенной точностью. Именно поэтому профессиональная психодиагностика предполагает обязательный учет различных факторов и погрешностей, снижающих точность психологического измерения. ШД - это количественная модель измеряемого диагностического свойства. На более продвинутых ступенях овладения психодиагностикой пред- полагается различение ШД по типам, предусмотренным в математической тео- рии измерения: шкала наименований, шкала порядка, шкала интервалов и т.п. Психологи-практики часто обозначают термином «шкалы» наглядно представ- ленные испытуемому градации оценок (в числовой, словесной или графической форме). Шкала интервалов - этот тип шкалы требует дополнительной возмож- ности устанавливать равенство попарных различий между двумя парами сти- мулов, иначе говоря, определять равенство субъективных интервалов. Возмож- ность построения такой шкалы позволяет большую часть свойств существую- щих числовых систем приписывать тем числам, которые получены на основе субъективных оценок. Построение для реакций шкалы интервалов является в психологии уже значительным достижением. Но, с другой стороны, интуитивно не очевидно, что человек всегда может делать оценки, соответствующие шкале интервалов. Действительно, если субъективные оценки не соответствуют неко- торому физически измеряемому свойству, то совсем не очевидно, как можно установить соответствие оцениваемых стимулов шкале интервалов. Шкала Лайкерта (англ. Likert scale, шкала суммарных оценок) – психометрическая шкала, которая часто используется в опросниках и анкетных исследованиях (разработана в 1932 году Ренсисом Ликертом). При работе со шкалой испытуемый оценивает степень своего согласия или несогласия с каж- дым суждением, от «полностью согласен» до «полностью не согласен». Сумма оценок каждого отдельного суждения позволяет выявить установку испытуемо- го по какому-либо вопросу. Предполагается, что отношения к исследуемому предмету основаны на простых непротиворечивых суждениях, и представляют собой континуум от одной критической точки через нейтральную к противопо- ложной критической. Шкала наименований, или классификационная шкала - строится на единственном отношении – отношении эквивалентности. Деления на шкале ха- рактеризуют критерии, на основании которых производится классификация. Способность человека оценить любой стимул по заданному критерию как при- надлежащий или не принадлежащий данному классу настолько очевидна, что возможность построения шкалы наименований для реакций различного уровня сложности обычно не вызывает возражений. Шкала отношений - получается, когда, кроме уже перечисленных опе- раций: эквивалентности, порядка и сравнения разностей – можно осуществить для объектов сравнение попарных отношений. Это обусловлено возможностью оценивать абсолютное значение величины реакции и требует наличия на шкале нулевой точки, как на шкале температур Кельвина, например. Шкала порядка - строится на основании сразу двух отношений – экви- валентности и порядка. Шкала равных отношений - это шкала, классифицирующая объекты или субъектов пропорционально степени выраженности измеряемого свойства. В шкалах отношений классы обозначаются числами, которые пропорциональны друг другу: 2 так относится к 4, как 4 к 8. Шкалаграммный анализ Гутмана - Американский психолог Луи Гутт- ман в 1941 году предложил методику шкалограммного анализа. Цель Гутмана заключалась в построении гомогенных (однородных) шкал посредством куму- лятивных высказываний. Шкалирование – метод вынесение субъектов оценок, построена на про- цедуре атрибуции признака оценки объекта и использованием шкал. Шкалирование результатов - это процесс формирования тестовых шкал и тестовых норм, то есть правил начисления тестовых баллов по результа- там тестирования на основе статистических данных. Эксплораторный факторный анализ - такая схема факторного анализа, при которой исследователь изначально не знает, какая система факторов позво- ляет описать матрицу корреляционных связей. Эксцесс. Мера «сглаженности» («островершинности» или «плосковер- шинности») распределения. Если значение эксцесса близко к 0, это означает, что форма распределения близка к нормальному виду. Детальное описание экс- цесса приведено в главе 7. Эмпирическая экспертная валидизация - предполагает работу экспер- тов не с тестом, а с испытуемыми из выборки стандартизации.