Настройка шрифта В избранное Написать письмо

Книги по педагогике 2

Морев И. А. Образовательные информационные технологии. Часть 2. Педаго / Страница 2

Главная (1 2 3 4 5 6 7 8 9 10)
вность учебного процесса);

          отсутствие элементов сюрпризности и привлекательности (нудность);

          однообразие представления информации (вызывающее эффект «ровной дороги»).

          2. Недостатки интерфейса составителя тестовых заданий

          сложность освоения;

          большие затраты времени на ввод информации и конструирование заданий;

          сложность ввода графической информации;

          необходимость технического сопровождения, т. е. присутствия дополнительного специалиста;

          отсутствие анимационных средств;

          сложность перевода тестовых заданий в электронный вид;

          сложность редактирования тестовых заданий.

          3. Недостатки интерфейса экзаменатора

          сложность освоения;

          отсутствие средств оперативного контроля успехов учащихся;

          отсутствие средств интегрального наблюдения за успехами группы во времени;

          сложность сравнения результатов тестирования групп учащихся по разным дисциплинам.

          4. Недостатки интерфейса руководителя учебного заведения

          сложность освоения;

          отсутствие средств систематизации и хранения результатов тестирований;

          отсутствие средств сопоставления успехов учебных групп по разным дисциплинам и во времени;

          сложность оперативного контроля успеваемости учащихся заведения в целом.

          Полдюжины замечаний пользователюВсе пчелы прилетали с медом,

          а одна – такая маленькая и вредная – с дегтем.

          Андрей Кнышев

          Практика показывает, что наименее всего люди, проводящие тестирования, обращают внимание на выполнение следующих требований:

          привлекательность процедуры тестирования, психологически правильное выстраивание инструктажа и пр.;

          дружественность интерфейса;

          представительность и конвертируемость результатов;

          подбор формы заданий (неправильная форма приводит к неправильному выражению содержания и пониманию смысла задания претендентами);

          соответствие инструкций форме и содержанию заданий;

          конвертируемость результатов.

          Это, более всего, связано с бытующей среди «занятых» людей прагматичностью взглядов на необходимость следования дидактическим целям.

          Если тестирования в образовательных учреждениях проводятся не эпизодически, и люди, которые их проводят, рассчитывают на дидактическую полезность мероприятий, то, кроме приведенных замечаний, абсолютно необходимо учесть следующие. Процедура тестирования станет привлекательнее и полезнее для системы образования, если придать ей элементы

          сюрпризности;

          соревновательности;

          публичности.

          Проводите тестирования как длительную олимпиаду (четвертьфинал, полуфинал, финал и пр.). Маленькие и большие успехи претендентов должны быть сразу доступными всем учащимся, родителям, учителям. Ответственные работники администраций в обязательном порядке должны упоминать фамилии победителей тестирований в своих докладах и отчетах. Портреты лучших учащихся и их родителей должны висеть в актовых залах. Информация о прошедших тестированиях должна отображаться в газетах с обязательной публикацией таблиц рейтингов. Для того чтобы победителей было больше, поступайте, как в спорте – размножайте номинации: длительное, скоростное, тематическое тестирование и пр.

          Помните: образовательная олимпиада важнее для развития территории и государства, чем спортивная.

          В спортивной олимпиаде побеждает сильный и ловкий, а в образовательной – умный и знающий.

          Результаты компьютерной аттестации ЗУН и факторы влиянияВесело входили в пасть змея Агхасуры

          мальчики – пастушки, уверенные, что Кришна защитит их:

          Источник вечного наслаждения, Шри Шримад

          Результатом процедуры компьютерной аттестации знаний (но не практических умений!) являются численные значения следующих четырех параметров обученности учащегося:

          Знание общих сведений по дисциплине и умение среди них ориентироваться;

          Знание определений, фактов, дат, названий, формулировок;

          Знание способов решения и оформления решений типовых учебных задач, навыки рассуждений и доказательств;

          Умение решать сложные учебные проблемы.

          На основании значений этих параметров, для каждого учащегося строится рекомендуемая оценка по пятибалльной шкале и рейтинг. После обработки результатов строится таблица рейтингов учащихся в пределах группы. Рейтинг, обычно, – одно число, не дающее представления о частностях в структуре знаний претендента. Мы называем такой рейтинг скалярным. Более точно отразить ситуацию может векторный рейтинг, состоящий, например, из 4-х чисел, каждое из которых соответствует значению одного из означенных выше параметров обученности. Соответственно, предъявляемые студенту тестовые задания делятся на 4 группы.

          Проведя тестирование тех же испытуемых несколько раз, перемежая его определенными и соответствующим образом обустроенными перерывами на отдых, с использованием того же (такого же) теста, можно получить дополнительную информацию, динамическую:

          Способность испытуемого к самостоятельному обучению;

          Способность испытуемого к адаптации в режиме тестирования;

          Развитость коллективизма среди испытуемых.

          Отправляя испытуемых на перерыв можно разрешать и не разрешать им читать учебники, общаться. Можно варьировать продолжительность перерыва. Можно перерыв устраивать в библиотеке, полной учебной литературы. Можно варьировать стимул. Вариантов перерыва, как видим, много и, соответственно, варьируются результаты повторных измерений. Это – не менее ценные результаты, чем те, которые получены в однократном измерении.

          Иногда способность испытуемого к самостоятельному обучению ценится значительно выше, чем тот багаж ЗУН, который испытуемый принес на сеанс тестирования.

          Полиция в жизни каждого государства есть.

          Козьма Прутков

          После окончания сеанса тестирования проводятся мероприятия аттестационного блока. Среди них:

          Претендент получает оценки своей подготовки по каждому из параметров, рекомендуемую интегральную оценку и рейтинг по 100-балльной (или 1000-балльной) шкале, а также перечень своих ошибок;

          Преподаватель знакомится с характерными ошибками претендентов, сохраняющимися в соответствующей БД, корректирует параметры итоговой интегральной оценки;

          Руководитель учреждения получает статистические данные, характеризующие результат в сравнении с аналогичными (предыдущими и параллельными);

          Руководство территориального управления образованием получают интегральную сводку результатов, позволяющую оценить характеристики качества системы образования и пригодные для построения прогнозов;

          В случае если такое же тестирование параллельно проводилось в ином регионе или за рубежом, например, оформленное в виде межрегионального или международного турнира, соответствующая комиссия сравнивает результаты, подводит итоги и награждает победителей в межрегиональном или международном масштабе.

          Последний пункт здесь пока выглядит фантастично. Наш опыт вызова на турнир, т. е. параллельное тестирование, американскую сторону (образовательные учреждения штата Вашингтон, США) не увенчались успехом. Причин несколько:

          Мероприятие кто-то должен оплатить, а образовательные фонды не ведут деятельности в этом направлении;

          Американцы не любят соревнований ради соревнований, так же, как россияне;

          Отсутствуют прецеденты;

          и др.

          Результаты компьютерной аттестации должны освещаться в СМИ и стенной печати с обязательным указанием победителей и:

          набранных ими баллов;

          полученных ими наград и привилегий (от школы и вузов);

          их учителей;

          директоров их школ.

          Общеизвестным должен быть и адрес центра, где в течение всего учебного года можно попробовать свои силы в порядке живой очереди.

          Это значительно повысит популярность не только тестирований, но и образования в целом, как среди учащихся, так и среди их родителей. Не лишним будет отметить и лучших работников образования.

          Согласитесь, образовательная олимпиада, с точки зрения развития региона и государства, не менее важна, чем спортивная. В спортивной олимпиаде побеждает сильный и ловкий, в образовательной – умный и знающий. В отсталых государствах культ силы всегда выше культа ума. Собственно, потому они и отсталые.

          Три интерпретации результатов тестированийСамым известным и научно обоснованным методом педагогического измерения является тест. К настоящему времени толь ко в отношении тестов утвердилась рефлексивная норма обязательной проверки их качества. Это, пожалуй, самое существенное требование, выгодно отличающее тесты от экзамена и от остальных методов педагогического контроля. В. С. Аванесов

          Выделяют 3 типа интерпретации результатов тестирования на языке тестологии:

          Интерпретация результата тестирования предметно-педагогическая;

          Интерпретация результата тестирования критериально-ориентированная;

          Интерпретация результата тестирования нормативно-ориентированная.

          Охарактеризуем их кратко, следуя В. С. Аванесову.

          Интерпретация результата тестирования предметно-педагогическая – интерпретация с главной задачей: выяснить, какие элементы учебной дисциплины усвоены испытуемым. При этом анализируется выполнение большого количества заданий, сравнивается содержание аттестационных материалов с результатами тестирования, с принятыми правилами и делается вывод: можно ли аттестовать испытуемого на основании полученных данных.

          Интерпретация результата тестирования критериально-ориентированная – возникает при решении задачи аттестации, приема в вуз, профотбора и т. п., где важно определить соответствие испытуемых заранее критерию. Для аттестации выпускников, им дают только задания из области минимально допустимой компетентности. Особое внимание обращается на определение зачетного уровня трудности. Содержание заданий принципиально облегчено. Задания должны выполнять все выпускники, допущенные к аттестации. Такие тесты нередко применяют органы управления образованием, стоящие перед необходимостью: в короткое время проверить состояние образования в большом количестве учебных заведений, и не позволить им опуститься ниже допустимого уровня. От испытуемых требуют выполнить небольшое количество заданий, чтобы определить – что испытуемый знает, и что не знает из заданного стандарта. Интерпретация результатов ведется работниками органов управления образованием и теми педагогами, на мнения которых управленцы опираются при аттестации.

          Интерпретация результата тестирования нормативно-ориентированная – интерпретация с опорой на такие принятые в математике статистические показатели, как среднее арифметическое, процентильная норма и др. Тестирование без интерпретации результатов не имеет научного смысла. Главные вопросы такой интерпретации – не «кто что знает?», а «кто выше нормы и кто на каком месте?» В этом суть нормативно-ориентированной интерпретации тестовых результатов. Для ответа на эти вопросы не требуется тест большим количеством заданий. Нужно с использованием минимума заданий получить максимум дисперсии надежных тестовых баллов, рассчитать процентильные нормы и рейтинг.

          Длительность сеанса тестированияПримечательно, что время, уделяемое самкой воспитанию и обучению сыновей и дочерей, как и степень их социального взаимодействия, примерно одинаковы. То есть дело тут не в том, как учат, а в том, кто и как учится. Самки учатся быстрее, они более ориентированы на конечный результат.

          А самцы – творчески и ... и разгильдяйски, что ли?

          Elizabeth V. Lonsdorf, Linn E. Eberly, Anne E. Pusey. Sex differences in learning in chimpanzees. Nature. Vol. 428. 15 Apr. 2004. p. 715

          Одна из основ тестологии – идея создания инструмента для быстрого и относительно точного оценивания характеристик больших контингентов испытуемых. Требование экономии времени естественно в массовых процессах. Направление современной организации тестового педагогического контроля – адаптация приводит к значительному сокращению времени сеансов. От времени сеанса существенно зависит качество результатов. Каждый тест характерен оптимальным временем сеанса, изменение которого снижает уровень качества измерений. Оптимальное время сеанса определяется эмпирически. Со временем сеанса связано количество заданий теста. Длительность тестирования ограничивается исходя из соображений:

          удобства процедуры тестирования;

          темпа накопления усталости испытуемых;

          достижения оптимального уровня дифференциации претендентов.

          Большинство тестов, применяемых в педагогической практике, являются скоростными. Временной режим задается

          на весь сеанс тестирования;

          на субтесты;

          на отдельные тестовые задания.

          Активно обсуждается проблема методов согласования заданий на скорость, необходимых для повышения надёжности тестов.

          Известнейший тест «на время» – американский TOEFL. Ограничения во времени выполнения там вполне обоснованы. Известны скоростные тесты для водителей. Однако то, что хорошо для отбора пилотов и водителей, не всегда хорошо для аттестации ЗУН ученика. Современные концепции построения педагогического процесса требует индивидуализации всех звеньев обучения, в том числе и контроля.

          Там, где тест напрямую не связан с функциональными ограничениями для видов работ, нет необходимости вводить фактор времени как лимитирующую характеристику оценивания деятельности испытуемого. При контроле трудовых навыков определение лимита времени целесообразно, так как выполнение трудовых операций имеет установленные нормативы. Время выполнения заданий важно при контроле практических умений в электротехнике и т. п. Но в таких дисциплинах, как история или литература, введение временных ограничений во многих случаях проблематично и для подобных тестов следует экспериментально установить такие нормативы, в которые могли бы укладываться и сангвиники, и флегматики – ведь у каждого из них свой индивидуальный стиль деятельности.

          Важен фактор времени при проведении массовых тестирований – это вопрос экономии ресурсов и ограничения рамок исследования. Не менее он важен и при проведении зрелищных мероприятий – викторин, конкурсов – где используются тестовые подходы. Например – телевизионные шоу типа «Кто хочет стать миллионером?» и пр.

          Наши многолетние эксперименты на тысячах школьников, студентов, учителей показали:

          Школьники: результаты 15-ти и 30-ти минутных компьютерных сеансов, где количества заданий относились как 1:2, относятся, в среднем, как 1:2. При увеличении же времени сеанса до 45 минут (с соответствующим увеличением количества заданий) приводит к ощутимому «завалу» зависимости на 15-20%. В экспериментах использовались гомогенные тесты с однотипными заданиями на общие знания и знания определений;

          Школьники: если тесты включают задания на решение численных либо графических задач, время сеанса должно быть увеличено до 2 часов. Однако при этом компьютер используется всего несколько минут – для регистрации и ввода результата. Компьютер только мешает испытуемым – шумит, ограничивает площадь стола, распространяет излучения. Поэтому такие задания лучше использовать в ином режиме – получить вариант, выполнить работу в спокойный обстановке в аудитории, а затем перейти в компьютерный класс и ввести результат;

          Студенты: после 40 минут сеанса тестирования общих знаний, навыков решения простых задач, знаний определений – включается эффект «ровной дороги» и большинство тестируемых начинают работать автоматически, не задумываясь, стремясь к скорейшему завершению сеанса. Стремление к лучшей оценке для них сменяется стремлением к тройке;

          Учителя: не выдерживают длительности сеанса больше 20 минут. Происходит срыв на обсуждение заданий, автоматическое «дотыкивание» теста и пр.;

          Школьники, студенты, учителя: Описанная выше ситуация коренным образом меняется при включении в сеанс тестирования элементов деловой игры, неожиданности, сюрпризности. Например, путем применения необычных для практики тестирований интерфейсных элементов и формулировки заданий в разговорном тоне с использованием «необычных для серьезной работы» словарных оборотов. Это позволяет значительно продлить период активности внимания, как у студентов, так и у школьников, и, следовательно, повысить точность измерений за счет включения большего количества заданий.

          Таким образом:

          При использовании комплексов с «прямоугольными интерфейсами» без элементов психологической разгрузки, при тестировании общих знаний и знаний определений и навыков решений простых задач ограничивать длительность сеанса

          для учащихся 2-8 классов 10-20 минутами,

          для учащихся 9-11 классов 20-30 минутами,

          для студентов – 30-40 минутами;

          При тестировании умений и навыков решения сложных численных и графических задач целесообразно основную работу проводить в учебной аудитории и использовать компьютер лишь для ввода результатов и регистрационных данных. В этом случае время работы можно ограничить несколькими часами, т. е. периодом наступления усталости контролирующего персонала. Можно даже устраивать большие перерывы, но с применением средств информационной безопасности – вариативность теста, контроль шпаргалок, ограничение общения и пр.;

          Возможно, «золотая середина» здесь: тренировочные компьютерные сеансы, с использованием заданий, подобных контрольным, следует проводить без жесткого ограничения времени, а контрольные – ограничивать;

          Следует шире внедрять в практику компьютерных тестирований элементы деловых игр и психологической разгрузки. Это позволяет значительно продлить время сеанса, предложить испытуемым больше заданий без опасения эффектов типа «ровной дороги» и, тем самым, поднять уровень надежности измерений и качества образования в целом.

          Вопрос о связи интеллекта со скоростью выполнения операций при тестировании не прост и в настоящее время обсуждается психологами. Ежемесячно появляются новые научные и методические публикации на эту тему.

          Количество заданий в тестеЕсли ты уж вышел на сцену, постарайся, чтоб в зале кто-то был.

          Михаил Жванецкий

          От количества заданий в тесте прямо зависит качество измерения, поскольку каждое задание позволяет оценить знание отдельного информационного блока учебной дисциплины.

          В тестологии нет четких ограничений на количество заданий дидактических тестов: оно доходит в стандартизированных американских тестах до 200 и более, не ограничиваясь каким-то удобным для обработки числом (особенно с появлением и применением для тестирования компьютерной техники). Заданий нужно столько, чтобы по возможности полно отразить основное содержание диагностируемого объёма знаний. (Е. А. Михайлычев, 2001).

          Наш опыт показывает, что для осознанного выполнения более 40 (даже простых) заданий учащемуся необходимо иметь очень высокую мотивацию. Если сеанс измерения не приводит к возможности получения учащимся уважения, желанного рабочего места либо ощутимого приза – можно ожидать, что через 10-15 минут сеанса учащийся переключится на выполнение тестовых заданий методом «случайного тыка». Сохранить внимание и выполнить 100 заданий многим не под силу даже при очень высокой мотивации.

          То, что сказано выше, относится к распространенным формальным процедурам тестирования, где применяются комплексы с «не отвлекающими» интерфейсами, демонстрирующими на экране однообразные прямоугольники с однообразными текстами. Иное дело – когда сеанс тестирования представлен в виде деловой игры с сюрпризами, действующими персонажами и пр. В этом случае удается достичь значительного продления внимания и увеличить количество заданий в сеансе. Игровые технологии позволяют повысить уровень объективности измерений.

          Спецификация тестаСпецификация теста является обязательной операцией эмпирического анализа теста и необходимым условием создания нового теста. Спецификация заключается в том, что строится таблица, в которой указываются:

          номера заданий и их принадлежность к субтестам;

          направленность заданий;

          сложность, трудоемкость, вес заданий;

          какую из характеристик каждое из заданий конкретно диагностирует.

          В спецификации должны быть сформулированы диагностические цели теста. Спектр диагностических задач отражён в номенклатуре и типологии тестов и тестовых заданий.

          При создании сложных дидактических тестов необходимо составить более подробную таблицу, в которой будут, наряду с указанной выше информацией, перечислены дидактические цели (усвоение формул и алгоритмов, понимание таблиц и графиков и т. п.), а также представленные в БТЗ разделы, параграфы, темы. Это прояснит, на какие диагностические цели тест ориентирован, и что он измеряет.

          АртефактыНорма – это то, что встречается лишь изредка

          Сомерсет Моэм,

          (aforizm.kaminplus.ru)

          Большое влияние на результаты тестового контроля оказывает так называемый эффект «привыкания». Он выражается в начале сеанса тестирования, где применяется тестовый комплекс с непривычным для претендента интерфейсом: замедление реакции, повышение суетливости, повышение вероятности арифметических и орфографических ошибок, неверные манипуляции. Это может быть связано и с тем, что претендент

          не знаком с инструкций и порядком проведения процедуры;

          участвует в тестированиях часто, но с использованием иных комплексов, и ему требуется некоторое время для освоения нового интерфейса;

          уже тестировался с использованием данного комплекса, но база тестовых заданий изменилась – создана другими авторами, оформлена в другом литературном стиле или содержит непривычные жаргонные выражения.

          Исключить влияние «привыкания» на результаты тестирования несложно – нужно провести предварительное тестирование, дать претендентам освоиться. Согласно нашим измерениям, для этого достаточно от 5 до 10 минут.

          Кроме этого, результаты могут быть искажены по приведенным ниже причинам.

          Группа претендентов предварительно ознакомилась с заданиями теста. Это может произойти случайно, когда им просто «попалась» книга с подобной информацией или репетитор провел тренировку, опираясь на сыгравшую нужную роль интуицию, и намеренно, когда произошла утечка информации. В обоих случаях на кривой распределения результатов тестирования может «вырасти» удивительный «горб». Методы дезавуирования этого артефакта известны и приведены ниже в главе посвященной информационной безопасности.

          Тест не вариативен и правила допускают повторные сеансы. В этом случае, претендент, прошедший сеанс два-три раза, да с основательными перерывами на общение с книгой и преподавателем, находится в выигрышной ситуации. Кривая распределения «оживет», с каждым сеансом в конце ее будет увеличиваться «горб». Для устранения перекоса, следует поставить всех претендентов в равные условия: все тестируются вместе, варианты теста меняются, желательно с применением процедур случайного выбора. В росте «горба» должны иметь возможность принять участие все претенденты. Такой многосеансный «марафон» может принести и положительные плоды, естественным образом дифференцировав претендентов на «упорных», «безразличных» и «середнячков».

          Среди претендентов оказалась достаточно большая группа, для которой этот тест не предназначен. Это могут быть ученики специальной школы «с уклоном», или, наоборот, ученики школы, где данная дисциплина не изучалась. В первом случае «горб» на кривой распределения вырастет в ее конце, в области высших рейтингов, во втором – в начале, в области «случайного тыка».

          Среди претендентов есть неспособные выдержать достаточно длительное напряжение в течение сеанса. Увеличение длительности сеанса действует угнетающе на всех претендентов и по-разному на степень объективности их результатов. А для обеспечения требуемого уровня качества измерений необходимо включение в тест достаточно большого количества заданий, для выполнения которых необходимо достаточное время. Для устранения этого противоречия есть два пути: применение технологий адаптивного тестирования, позволяющих оптимально распорядиться временем сеанса и применение игровых технологий, позволяющих за счет видоизменения интерфейса повысить привлекательность процедуры.

          В формулировках заданий допущено использование жаргонных, иноязычных либо специфических для какой-то группы испытуемых выражений, которые повышают вероятность неоднозначного восприятия условий. Скажем, автор этих строк помнит экзаменационный случай, произошедший во Владивостоке в 80-х годах, когда заминка в решении задач случилась потому, что учащийся не знал отличий сосиски от сардельки. Он их никогда не видел.

          В кадре заданий встретились неоднозначно воспринимаемые претендентами активные элементы, неадекватно описанные в инструкции, а претендентам поставлено жесткое условие – ничего ни у кого не спрашивать под угрозой прекращения сеанса. В такой ситуации происходит столкновение безграмотности персонала с безалаберностью составителей теста, реально влияющее на распределение результатов.

          Специалист, проводивший тренировочные занятия, не вполне адекватно воспринимает дисциплину и, в процессе тренировки, допустил презрительные замечания в адрес составителей, свои комментарии о качестве заданий, свои фантазии относительно верных и неверных вариантов. Если этот специалист пользуется достаточным авторитетом среди учащихся, он нанесет такими действиями урон знаниям своих подопечных и объективности результатов тестирования. Бороться с этим трудно, такая ситуация случается, например, когда преподаватели всю ответственность за тренировку перекладывают на инженера компьютерного класса, говоря: «я все равно там ничего не понимаю». Для дезавуирования влияния этого артефакта нужно поступать по правилу: в процессе тренировок в классе обязательно должен находиться опытный преподаватель дисциплины.

          К фактором, ставящим под угрозу чистоту тестовых измерений, относят (Михайлычев Е. А. Дидактическая тестология. М.: Народное образование, 2001. 432 с.):

          реактивный эффект – уменьшение или увеличение восприимчивости испытуемых к экспериментальному воздействию под влиянием предварительного тестирования;

          взаимодействие выборки и экспериментального воздействия;

          условия организации эксперимента, вызывающие реакцию испытуемых, которая не позволяет распространить полученные данные о влиянии на лиц, подвергающихся такому же воздействию в не экспериментальных условиях;

          интерференция экспериментальных воздействий, возникающая, когда одни и те же испытуемые подвергаются нескольким воздействиям, поскольку влияние более ранних, как правило, не исчезает.

          Рассмотрим эти факторы подробнее, следуя Е. А. Михайлычеву:

          Реактивный эффект. Проявляется в двух вариантах.

          Первый вариант. Учащиеся тренировались на прохождение тестов по-разному. На тренировки ходили не все, а для тех, кто тренировки посещал, различные преподаватели акцентировали внимание на тестах разного вида. При валидизации абитуриентских тестов без учета этого фактора эффект гарантирован. Можно контролировать эффект, если:

          предварительно опросить учащихся о тренировочных занятиях;

          параллельно проводить визуальное наблюдение за поведением претендентов и сопоставлять данные, собираемые по программе такого формализованного наблюдения, с данными анкетирования. Не исключено использование видеокамеры при условии, что она будет хорошо замаскирована (иначе получим дополнительный «визит-эффект» с непредсказуемыми последствиями – от жалоб до истерик).

          Это позволит сделать и повысить точность поправки.

          Второй вариант. Имеется хорошее психодиагностическое сопровождение, настраивающее обследуемого на успешную работу с дидактическим тестом. Вариант сделать такое сопровождение для учащихся привычным – заманчив. Но в контрольных группах возможен отказ от применения сопровождения, что влияет на результат. После стандартизации теста – его валидизации, строгой проверки надёжности, когда будут просчитаны все основные поправочные коэффициенты (в том числе на реактивность к психодиагностическому сопровождению по данным контрольных групп или ретеста, параллельной формы теста), психодиагностику можно будет спокойно подключать к дидактическому тесту и использовать как стимулирующие средства обучения. Ведь с позиции гуманистической педагогики главная диагностическая задача – не поймать учащегося на незнании, а помочь ему усвоить материал, развить мышление и способности.

          Взаимодействие выборки и экспериментального воздействия. Здесь опасность искажения результатов заключена в том, что экспериментальная и контрольная группы, на которых валидизируется тест, существенно отличаются от выборочной совокупности, для которой он предназначен.

          Первый вариант. Суть проблемы – в репрезентативности выборки. Особенно если выборка состоит из добровольцев. Их демографические характеристики, успеваемость, психологические особенности можно просчитать и учесть. А как быть с теми, кто отказался быть добровольцем при адаптации теста? Насколько их личностные характеристики адекватны участникам эксперимента?

          Второй вариант. Рассмотрим реальную ситуацию. Тест в вузе проходит адаптацию на контингенте четырёх групп с двух факультетов, в то время как на этих факультетах имеются лишь по 4 группы на том же курсе, а всего факультетов в вузе 5; вузов же аналогичного профиля 10. Вопрос о результативности и обоснованности мотивации отбора групп для участия в эксперименте неоднозначен. Смещения выборки повлияют на результатах валидизации, и исследователь рискует получить только данные о локальной валидности теста именно для тех групп, которые участвовали в эксперименте. При валидизации теста в вузе необходимо либо стремиться не к подбору удобных для экспериментаторов послушных кураторских групп, в которых работает сам разработчик теста, а к возможно более репрезентативной выборке, либо проводить массовый эксперимент на всём контингенте курса, изучающего в это время данную дисциплину по данной программе. Если по этой же программе работают в других вузах, то на репрезентативных выборках желательно организовать выверку теста, строго соблюдая внешние условия процедуры, а затем учесть эти данные при сопоставлении результатов и подсчёте валидности.

          Третий вариант. Возможен отсев обследуемых по ходу эксперимента из экспериментальной и контрольной групп. Если эксперимент тщательно подготовлен и сбор данных проходит быстро, то такая опасность для валидизации практически ничтожна.

          Негативная реакция испытуемых на эксперимент. Реакция испытуемых на эксперимент может быть вызвана любым аспектом процедуры. Например, самим фактом приглашения к участию в эксперименте, которого многие сокурсники не получили. Таинственное появление незнакомых экспериментаторов возбуждает учащихся и повышает вероятность стрессовых ситуаций. Рекомендуется замаскировать эксперимент различными средствами: например, не оповещать о нём, если он внешне похож на привычные мероприятия. Наиболее сложная проблема – обеспечение случайного отбора для получения репрезентативной (по отношению к контингенту, для которого предназначен тест) выборки. Если эксперимент предусматривает индивидуальное обучение (парную работу диагноста с испытуемым), то в разведении класса, учебных групп по аудиториям (экспериментальная – налево, остальные – направо) необходимости нет. При бланковом варианте дидактического тестирования этого избежать можно, но затраты времени возрастут во столько раз, сколько будет участников эксперимента. Возможно, постепенно сократить необходимое количество самих экспериментаторов – они станут быстро инструктировать и оперативнее реагировать на обратную связь. Но это может стать побочным фактором: так, первого испытуемого инструктировали 10 мин, пятидесятого – 2 мин, последнего – скороговоркой. Иногда для смягчения воздействия фактора предоставляют учащимся записываться в вузе на различные факультативы, читаемые в разных помещениях в одни и те же часы. Контроль записи позволяет составлять по этим данным эквивалентные экспериментальные группы и нетрадиционно использовать процесс естественной рандомизации. Наилучшим решением считается использование в качестве единицы рандомизации целых классов – чтобы и экспериментальная, и контрольная группы состояли только из случайным образом отобранных. Следует также обращать внимание, как претенденты принимают саму ситуацию тестирования и задачи разного типа. Игнорирование отношения испытуемых к ситуации эксперимента и степени принятия ими задачи, обычно формулируемой в инструкции, ведет к ошибочной интерпретации результатов и к низкой толерантности разрабатываемых методик. Вполне вероятно, что учащиеся, привыкшие к закрытым тестовым заданиям, будут хуже выполнять их, чем те, кто не имел дела с тестами. Надо знать аудиторию.

          Интерференция экспериментальных воздействий. Под интерференцией в психологии понимается ухудшение сохранения в памяти материала. В контексте экспериментальной терминологии под интерференцией имеются в виду незафиксированные в эксперименте наложения факторов. Интерференция воздействий следует предвидеть и учитывать при анализе результатов выборки (рандомизации) учебных групп, участвующих в эксперименте. Например, проведение эксперимента в одном из выбранных трех вузов может совпасть с внедрением именно в этом вузе новой системы стимулирования успеваемости. Это существенно повысит их интерес к тесту как средству диагностики и корректировки собственных знаний. Или же, среди групп одного из факультетов, отобранных для апробации теста, будет активно распространяться информация, что созданное в городе совместное предприятие с участием крупной иностранной фирмы собирается оплатить учебу за границей победителям химической олимпиады, или же что ректорат решил резко сократить контингент студентов в связи с отсутствием заказов на специалистов, и неудачники в тестировании могут быть отчислены. Естественно, в первых случаях неожиданный позитивный интерес к тесту экспериментаторов вызовет недоумение, а последний будет способствовать росту стрессовых ожиданий, что отразится и на экспериментаторах. В любом случае предварительный опрос кураторов, доброжелательная ориентировочная беседа для выяснения возможности влияния таких факторов абсолютно необходимы, равно как и гарантия того, что никаких негативных селекции для неудачников не будет и т.д. И, конечно же, обязательна фиксация всех «подозрительных» внешних факторов в отчете с выдвижением и последующей проверкой гипотез об этом воздействии, его причинах и возможных последствиях.

          Динамика результатов педагогических измеренийНаука и религия обязаны принимать догматику.

          Этой ценой покупается возможность

          получать ответы на поставленные вопросы.

          Ю. Шрейдер "Заметки о философии"

          Этот параграф посвящен дискуссии о целесообразности некоторых понятий и действий тестологии. В качестве предмета обсуждения мы выбрали понятия «надежность» и «вес задания», а в качестве действий – их измерение.

          Прочитав методическое пособие по тестологии, каких немало, начинаешь верить, что одна из главных характеристик педагогического теста – надежность. Тестологи считают надежным (то есть, в просторечии, хорошим) тестом тот, результаты прохождения которого не меняются (или мало меняются), сколько бы раз претендентов не тестировали. Как в технике: хороша та линейка, которая не меняет толщину кирпича в процессе измерения. Ниже мы покажем, что высокая надежность – это как раз тот идеал, которого нельзя достичь в педагогических измерениях в условиях массовых тестирований.

          Основной метод измерения надежности – ретестинг, дублирующее тестирование, которое проводят в течение одного или двух сеансов.

          В течение одного сеанса повторное тестирование устраивают путем:

          либо дублирования заданий в составе теста, представление их в разной форме и разными формулировками;

          либо деления теста пополам и принятия утверждения, что половинки эквивалентны.

          Если повторное тестирование устраивают в два сеанса, то применяют в обоих случаях один тест либо тесты с подобными, но измененными заданиями (варианты теста). При этом группы претендентов могут быть разными, но должны быть «статистически равными». «Статистическую равность» устанавливают путем предварительного опроса либо предварительного тестирования.

          При повторном тестировании в течение одного сеанса, учащиеся часто проявляют смекалку и, наперекор изобретательным составителям теста, находят дубли – одинаковые задания. Дальше они поступают так: если есть уверенность в точности решения, оба раза выбирают один (верный на их взгляд) вариант. Если нет – выбирают разные варианты. Этот простой алгоритм, применяемый мотивированными претендентами, влияет на чистоту эксперимента однозначно: значение «надежности» завышается.

          Как бы не старались экспериментаторы соблюсти чистоту эксперимента при тестировании в два сеанса:

          учащиеся почему-то вдруг начинают консультироваться с преподавателем, читать учебники и повышать свои знания в перерывах между сеансами;

          учащиеся выходят после сеанса и рассказывают стоящим в очереди «новичкам» смысл заданий и вероятные решения;

          учащиеся почему-то учатся в разных школах и невозможно предсказать заранее, чему их там учили лучше или хуже;

          учащимся может все надоесть, и они начнут тестироваться методом «тыка» (кстати, самый лучший метод получения надежных результатов).

          Технология тестирования, тот антураж, который создается вокруг сеансов, обязательно приводит к усилению и ослаблению мотивации претендентов к успеху. По-другому не бывает, ведь тестирование – образовательный акт. Мотивация играет важнейшую роль в измерениях надежности. Мотивация непосредственно влияет на величину коэффициента надежности.

          Если претенденты не мотивированы – результаты измерения сконцентрируются у точки случайного «тыка» области определения результатов тестирования:

          Рис. 1.

          Сколько бы сеансов не проводил экспериментатор – результаты там и останутся. Это – тривиальный вариант; здесь, после измерения, надежность теста получится очень высокой.

          Если претенденты мотивированы, во втором сеансе средний результат будет выше. Таковы люди. Изменить их трудно. Они – не машины. Одинакового результата не получается. Остановить изменения результатов не удается, каким бы прекрасным не был используемый тест. Проведите третье тестирование, и Вы увидите – результаты «плывут», причем, для разных претендентов – в разные стороны. Чем выше мотивация претендентов – тем ненадежнее тест. Надежных, в смысле прямого следования определению, дидактических тестов не бывает.

          Парадокс: чем выше дидактические качества технологии тестирования, чем более она усиливает мотивацию претендентов к дополнительному обучению, тем она ненадежнее. Тестирование, как часть учебного процесса, должно нести дидактическую нагрузку. Какую технологию тестирования выберет педагог: усиливающую или снижающую мотивацию учащихся?

          Если какая-нибудь неприятность

          может произойти, она случается.

          Артур Блох. Закон Мэрфи

          И что же – не бывает хороших, в смысле традиционного понимания надежности, тестов? И тестология – не наука? Или мы не правильно воспринимаем понятие «чистоты эксперимента'? А может, тестологическое понятие «надежности» просто не адекватно действительности?

          Давайте рассмотрим определение надежности, данное В. С. Аванесовым [Композиция тестовых заданий. Учебная книга. 3 изд., доп. М.. Центр тестирования, 2002г. –240с.]:

          Надежность теста – показатель точности и устойчивости результатов измерения при его многократном применении. Надежность теста тем выше, чем «одинаковее» результаты его применения при тестировании однородных групп претендентов.

          Теперь рассмотрим обсуждение надежности, данное тем же автором (текст приводится в сокращении):

          Надежность характеризует степень адекватности отражения тестом соответствующей генеральной совокупности заданий. Раньше предполагалось, что мера надежности является устойчивой характеристикой теста. На надежность сильно влияет степень гомогенности групп испытуемых, уровень их подготовленности, а также другие факторы, связанные не столько с тестом, сколько с условиями его проведения. Поэтому в последние годы стали чаще писать о надежности измерения, имея в виду тест как результат тестирования в конкретно определенных условиях, а не общую характеристику теста как метода.

          Подробно ситуацию с определением надежности теста в тестологии описал Е. А. Михайлычев [Дидактическая тестология. М.: Народное образование, 2001. – 432 с.].

          Оказывается, недоверие к понятию «надежность» давно существует в среде тестологов. Так нужна ли она – «надежность'? Может, она должна уступить место другой характеристике, боле


--
«Логопед» на основе открытых источников
Напишите нам
Главная (1 2 3 4 5 6 7 8 9 10)