.

Кто из ученых ввел понятие психометрии

Становление научной психодиагностики связано в первую очередь с проникновением в психологическую науку эксперимента, идеи измерения. Идея квантификации психологических наблюдений родилась достаточно давно, в 30-х гг. XIX столетия. Впервые об этом заговорил немецкий исследователь Вольф, который полагал, что можно продолжительностью аргументации, за которой мы в состоянии проследить, измерить величину внимания. Этим же ученым было введено понятие психометрии. Однако психологические замыслы философов, естествоиспытателей и математиков тех лет начали обретать кровь и плоть лишь век спустя. Реализация идеи измерения психических явлений, начавшись с работ по психофизике Э. Вебера и Г. Фехнера (середина XIX столетия), определила важнейшее направление исследований в экспериментальной психологии того времени. Очень скоро психология попытается, и небезуспешно, говорить на «математическом языке» не только в области ощущений, ее взгляд обратится к измерению более сложных психических функций.

В связи со сказанным интересно отметить, что стимулы к изучению индивидуальных различий исходили и от ученых, весьма далеких от психологии, физиологии и медицины. В 1816 г. Фридрих Бессель, астроном из Кенигсберга, прочел в «Астрономическом журнале» о том, что ассистент Королевского астронома был уволен из Гринвичской обсерватории из-за профессиональной непригодности. Причина его увольнения была в том, что он неоднократно отмечал время «падения» звезд почти на секунду позже своего начальника. Заинтересовавшись этой историей, Бессель провел исследование и обнаружил заметную разницу между временем реакции на «падение» звезды у различных людей. Он предложил вычислять своего рода «уравнение наблюдателя», которое существует для каждого из тех, кто наблюдает за звездами. Таким образом, астрономия в известном смысле побудила физиологов и психологов к изучению индивидуальных различий во времени реакции.

Наиболее значительный вклад в направление, получившее название «ментальной хронометрии», внес голландский физиолог Ф. Дондерс (1818–1889). Он предположил, что время, затрачиваемое на реакцию свыше определенной Гельмгольцем скорости прохождения нервного импульса (определялась при раздражении участков нерва, отстоящих от мышцы на разных расстояниях), следует относить к психическим процессам. Он выделил несколько типов реакций. Реакция А – испытуемый знает, какой раздражитель будет воздействовать и какой реакцией нужно на него отвечать. Реакция В – на разные раздражители обследуемый отвечает разными движениями. Реакция С – при предъявлении нескольких стимулов необходимо было реагировать только на один из них. Вычитая А из В (простая психическая реакция), Дондерс получал, как он предполагал, скорость таких психических процессов, как выбор и представление. В том случае, когда из С вычиталось А, получалось время различения, а при вычитании С из В – время выбора. Основным в этих исследованиях является то, что психическое становилось особой областью экспериментального исследования, отличной от физиологии.

М. Г. Ярошевский (1976) высказывает мнение о том, что дифференциально-психологическое изучение человека не простое логическое развитие экспериментальной психологии, оно складывается под влиянием запросов практики, в первую очередь медицинской и педагогической, затем – индустриальной. С этим в какой-то мере следует согласиться, но необходимо помнить и о том, что экспериментальная психология не может быть противопоставлена психологии индивидуальных различий. Процесс развития экспериментальной психологии, а сегодня это очень хорошо видно, неумолимо приводит ее к проблеме личности, а тем самым – к индивидуальным различиям.

Источник: https://www.e-reading.club/chapter.php/1042681/4/Burlachuk_-_Psihodiagnostika__uchebnik_dlya_vuzov.html

Определение понятия «измерение» в социальных науках

Основная статья: Шкала

Определение измерения в социальных науках имеет долгую историю. В настоящее время широкое определение, предложенное Стэнли Смит Стивенсом (1946), гласит, что измерение «приписывание чисел объектам или событиям по некоторому правилу». Это определение было представлено в работе, в которой Стивенс предложил четыре уровня измерения. Хотя это определение имеет широкое распространение, оно отличается от более классического определения измерения, принятого в физике, которое гласит, что измерение — это численная оценка и выражение одной величины по отношению к другой (Мишель, 1997).

Действительно, определение Стивенса было выдвинуто в ответ Британскому Комитету Фергюсона, председатель которого, А. Фергюсон, был физиком. Комитет был назначен в 1932 году Британской ассоциацией для содействия развитию науки в исследовании возможности количественной оценки сенсорных восприятий. Хотя её председатель и другие члены были физиками, комитет также включал нескольких психологов. Доклад Комитета подчеркнул важность определения измерения. В то время, как ответ Стивенса заключался в том, чтобы предложить новое определение, которое окажет значительное влияние на эту область, это был не единственный ответ на доклад. Другой, кардинально отличающийся, ответ призывал принять классическое определение, как это отражено в следующем заявление: «Измерение в психологии и физике ни в каком смысле не различны. Физики могут проводить измерения тогда, когда они могут найти операции, с помощью которых можно обнаружить необходимый критерий. Психологи могут не беспокоиться о таинственных различиях в значении «измерения» в двух науках «. (Риз, 1943, стр. 49)

Эти различные точки зрения отражены в альтернативных подходах к измерению. Например, методы, основанные на ковариационной матрице, как правило, используют числа, такие как сырые баллы, как измерение. Такой подход неявно влечет за собой определение Стивенса, которое требует только то, что номера присваиваются по некоторому правилу. Таким образом, основной задачей исследований, как правило, считается открытие связей между показателями, и факторов, положенных в основу этих связей.

С другой стороны, когда используется измерительная модель такая, как модель Раша, номера не присваиваются на основе правил. Вместо этого, в соответствии с заявлением Риз выше, конкретные критерии для измерения указаны, а цель состоит в построении процедур или операций, которые предоставляют данные, отвечающие соответствующим критериям. Измерения оцениваются на основе моделей, и испытания проводятся для того, чтобы удостовериться в том, были ли выполнены соответствующие критерии.

Нормирование тестов

Нормирование тестов — составная часть их стандартизации, обычно включает проведение обследования репрезентативной выборки лиц, определение различных уровней выполнения тестов и перевод сырых тестовых оценок в общую систему показателей. Тесты иногда приравнивают, когда существуют различные формы того же самого теста. Приравнивание приводит оценки по всем формам к общей шкале.

Существуют 4 основные стратегии приравнивания. Первый метод предполагает проведение каждой формы теста на эквивалентной (например, случайной отобранной) группе респондентов, а затем оценки по этим различным формам устанавливаются т. о., чтобы равные оценки имели равные процентильные ранги (та же самая пропорция респондентов получает ту же или более низкую оценку). При более точном методе все респонденты заполняют все формы теста, и для определения эквивалентности показателей используются уравнения. Третий часто используемый метод связан с проведением общего теста или части теста со всеми респондентами. Эта общая оценочная процедура служит в качестве «связывающего» теста, который позволяет все последующие измерения привязывать к единой шкале. При проведении обследования с использованием различных форм одного и того же теста в каждую включаются несколько «анкерных заданий», выполняющих функцию такого «связывающего» теста.

Требования к тестированию

Надежность и валидность имеют отношение к обобщаемости показателей тестов — определению того, какие выводы по тестовым показателям являются обоснованными. Надежность касается выводов о согласованности измерения. Согласованность определяется по-разному: как временная устойчивость, как сходство между предположительно эквивалентными тестами, как однородность в рамках одного теста или как сравнимость оценок, выносимых экспертами. При использовании метода «тест-ретест» надежность теста устанавливается путём повторного его проведения с той же группой спустя определенный промежуток времени. Затем два полученных набора показателей сравниваются с целью определения степени сходства между ними. При использовании метода взаимозаменяемых форм, на выборке обследуемых проводятся два параллельных измерения. Привлечение экспертов («оценщиков») к оценке качества параллельных форм теста дает меру надежности, наз. надежностью оценщиков. Этот метод часто применяют, когда есть необходимость в экспертной оценке.

Валидность характеризует качество выводов, получаемых на основе результатов проведения измерительной процедуры.

Валидность рассматривается как способность теста отвечать поставленным целям и обосновывать адекватность решений, принятых на основе результата. Недостаточно валидный тест не может считаться инструментом измерения и использоваться на практике, поскольку зачастую полученный результат может серьёзно влиять на будущее тестируемого.

Выделяется три вида валидности тестов.

Конструктная (концептуальная) валидность. Её требуется определить, если тест измеряет свойство, имеющее абстрактный характер, то есть не поддающееся прямому измерению. В таких случаях необходимо создание концептуальной модели, которая бы объясняла данное свойство. Эту модель и подверждает или опровергает тест.

Критериальная (эмпирическая) валидность. Показывает, насколько соотносятся результаты теста с неким внешним критерием. Эмпирическая валидность существует в двух видах: текущая критериальная валидность — корреляция результатов теста с выбранным критерием, существующим в настоящее время; прогностическая критериальная валидность — корреляция результатов с критерием, который появится в будущем. Определяет, насколько тест предсказывает проявление измеряемого качества в будущем, учитывая влияние внешних факторов и собственной деятельности тестируемого.

Содержательная валидность. Определяет, насколько соответствует тест его предметной области, то есть измеряет ли он качество, для измерения которого предназначен, у репрезентативной выборки. Чтобы поддержать содержательную валидность теста, необходимы его регулярные проверки на соответствие, так как реальная картина проявления определённого качества может меняться у выборки с течением времени. Оценка содержательной валидности должна производиться экспертом в предметной области теста.

Процесс валидизации теста должен представлять собой не сбор доказательств его валидности, а комплекс мер по повышению этой валидности.

Большинство процедур анализа заданий предполагают: а) регистрацию числа испытуемых, давших правильный или неправильный ответ на определенное задание; б) корреляцию отдельных заданий с др. переменными; в) проверку заданий на систематическую ошибку (или «необъективность»). Долю испытуемых, справившихся с заданием теста, наз., возможно не вполне точно, трудностью задания. Способ улучшить задания — подсчитать процент выбора каждого варианта ответа на задание с множественным выбором; полезно также вычислить средний тестовый показатель испытуемых, выбравших каждый вариант. Эти процедуры позволяют контролировать, чтобы варианты ответов выглядели правдоподобными для неподготовленных испытуемых, но не казались правильными наиболее знающим. Отбор заданий, которые сильно коррелируют с показателем полного теста, максимизирует надежность как внутреннюю согласованность теста, тогда как отбор заданий, которые сильно коррелируют с внешним критерием, максимизирует его прогностическую валидность. Описательная аналоговая модель этих корреляций называется характеристической кривой задания; в типичных случаях — это график зависимости доли испытуемых, правильно отвечающих на вопрос, от их суммарного тестового показателя. Для эффективных заданий эти графики представляют собой положительные восходящие кривые, не снижающиеся по мере прироста способности.

Психометрика

psychometrics) Область П. (или психометрии) связана с количественным подходом к анализу тестовых данных. П. включает два раздела: теорет. и прикл. Психометрическая теория обеспечивает исследователей и психологов мат. моделями, используемыми при анализе ответов на отдельные задания или пункты тестов, тесты в целом и наборы тестов. Прикл. П. занимается применением этих моделей и аналитических процедур к конкретным тестовым данным. Четырьмя областями психометрического анализа яв-ся нормирование и приравнивание, оценка надежности, оценка валидности и анализ заданий. Каждая из этих областей содержит набор определенных теорет. положении и конкретные процедуры, используемые при оценке качества работы теста в каждом отдельном случае. Нормирование и уравнивание Нормирование тестов — составная часть их стандартизации, обычно включает проведение обследования репрезентативной выборки лиц, определение различных уровней выполнения тестов и перевод сырых тестовых оценок в общую систему показателей. Тесты иногда приравнивают, когда существуют различные формы того же самого теста. Приравнивание приводит оценки по всем формам к общей шкале. Существуют 4 осн. стратегии приравнивания. Первый метод предполагает проведение каждой формы теста на эквивалентной (напр., случайной отобранной) группе респондентов, а затем оценки по этим различным формам устанавливаются т. о., чтобы равные оценки имели равные процентильные ранги (та же самая пропорция респондентов получает ту же или более низкую оценку). При более точном методе все респонденты заполняют все формы теста, и для определения эквивалентности показателей используются уравнения. Третий часто используемый метод связан с проведением общего теста или части теста со всеми респондентами. Эта общая оценочная процедура служит в качестве «связывающего» теста, к-рый позволяет все последующие измерения привязывать к единой шкале. При проведении обследования с использованием различных форм одного и того же теста в каждую включаются неск. «анкерных заданий», выполняющих функцию такого «связывающего» теста. Сравнительно недавно появившееся семейство статистических моделей тестовых оценок, наз. моделями теории «задание-ответ», оказывается особенно полезным для приравнивания тестов. Нормирование и приравнивание приобрело новое значение в связи с недавними разраб. в тестировании и получившей широкое распространение системы принятия решений на основе проходных баллов при оценке рез-тов выполнения теста. Эти тесты, наз. критериально-ориентированными тестами, используются в ряде штатов в качестве процедур проверки минимальной компетентности выпускников средней школы, подтверждающей полученный аттестат, и в качестве экзаменов на получение сертификатов, дающих право заниматься различными видами деятельности и профессиями. Оценка надежности Надежность и валидность имеют отношение к обобщаемости показателей тестов — определению того, какие выводы по тестовым показателям яв-ся обоснованными (Cronbach et al., 1972). Надежность касается выводов о согласованности измерения. Согласованность определяется по-разному: как временная устойчивость, как сходство между предположительно эквивалентными тестами, как однородность в рамках одного теста или как сравнимость оценок, выносимых экспертами. При использовании метода «тест-ретест» надежность теста устанавливается путем повторного его проведения с той же группой спустя определенный промежуток времени. Затем два полученных набора показателей сравниваются с целью определения степени сходства между ними. При использовании метода взаимозаменяемых форм на выборке обследуемых проводятся два параллельных измерения. Привлечение экспертов («оценщиков») к оценке качества параллельных форм теста дает меру надежности, наз. надежностью оценщиков. Этот метод часто применяют, когда есть необходимость в экспертной оценке. Оценка валидности Валидность характеризует качество выводов, получаемых на основе рез-тов проведения измерительной процедуры. Прогностическая валидность оценивает способность измерительных инструментов давать заключения о будущей успешности, напр., в работе или в обучении. Как правило, в этом случае рассчитывается корреляция между прогнозирующим параметром и некой количественной оценкой эффективности в работе или в обучении, наз. критерием. Напр., тестовые показатели кандидатов при поступлении в колледж или профессиональную школу часто сопоставляют с их оценками в период последующего обучения. Получаемый в рез-те коэффициент корреляции наз. коэффициентом валидности. Эти коэффициенты могут корректироваться, напр., когда критериальные оценки характеризуются узким размахом или когда оказывается ненадежным сам критерий. Когда данные по прогнозирующему параметру собираются практически одновременно с измерениями критерия, это наз. исслед. текущей валидности. Поскольку один-единственный инструмент не всегда оказывается способен прогнозировать критерий в той степени, в какой это необходимо, привлекаются множественные предикторы, часто с использованием статистической процедуры множественной регрессии, позволяющей достичь максимального прогноза критерия путем взвешивания вкладов различных тестов. Содержательная валидность оценивает, насколько полно содержание теста охватывает тестируемую область, и особенно полезна для тестов достижений в обучении. Такие оценки, как правило, выносятся экспертами в тестируемой области. В последнее время стало принято считать, что конструктная валидность яв-ся родовым понятием по отношению к прогностической и содержательной валидности. Критическим вопросом, задаваемым в отношении конструктной валидности, яв-ся вопрос о том, насколько хорошо данный тест измеряет свойство(а), к-рое(ые) он предположительно должен измерять. Анализ заданий Большинство процедур анализа заданий предполагают: а) регистрацию числа испытуемых, давших правильный или неправильный ответ на определенное задание; б) корреляцию отдельных заданий с др. переменными; в) проверку заданий на систематическую ошибку (или «необъективность»). Долю испытуемых, справившихся с заданием теста, наз., возможно не вполне точно, трудностью задания. Способ улучшить задания — подсчитать процент выбора каждого варианта ответа на задание с множественным выбором; полезно тж вычислить средний тестовый показатель испытуемых, выбравших каждый вариант. Эти процедуры позволяют контролировать, чтобы варианты ответов выглядели правдоподобными для неподготовленных испытуемых, но не казались правильными наиболее знающим. Отбор заданий, к-рые сильно коррелируют с показателем полного теста, максимизирует надежность как внутреннюю согласованность теста, тогда как отбор заданий, к-рые сильно коррелируют с внешним критерием, максимизирует его прогностическую валидность. Описательная аналоговая модель этих корреляций наз. характеристической кривой задания; в типичных случаях — это график зависимости доли испытуемых, правильно отвечающих на вопрос, от их суммарного тестового показателя (или к.-н. др. оценки их уровня способности). Для эффективных заданий эти графики представляют собой положительные восходящие кривые, не снижающиеся по мере прироста способности. Процедуры проверки заданий на систематическую ошибку связаны с выявлением тех из них, к-рые неодинаково трудны для различных групп. Др. словами, эти процедуры связаны с установлением общих различий в тестируемой способности и последующим поиском заданий, к-рые имеют отличающиеся коэффициенты трудности для групп меньшинств. Последующее удаление этих заданий из теста приводит к тому, что такой тест будет считаться справедливым. В настоящее время еще только приступили к изучению этих процедур и их реальная ценность пока не определена. См. также Кластерный анализ, Систематическая ошибка тестов, обусловленная культурными факторами, Анализ заданий, Тесты для отбора кандидатов, Статистика в психологии К. Ф. Гейзингер

Источник: https://vocabulary.ru/termin/psihometrika.html

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *