Настройка шрифта В избранное Написать письмо

Книги по педагогике 2

Морев И. А. Образовательные информационные технологии. Часть 2. Педаго / Страница 3

Главная (1 2 3 4 5 6 7 8 9 10)
е адекватно отображающей свойства теста?

          При внимательном рассмотрении тестологических работ можно заметить, что сами значения «коэффициента надежности», тщательному измерению которых посвящается так много сил, после измерения и вычисления нигде реально не применяются. Используется лишь мнение, порожденное в процессе измерения – «этот тест лучше, а тот – хуже». Но разве нельзя для упрочения мнения придумать другие, менее спорные критерии?

          Понятие «надежность», оказывается, не одиноко, в смысле нашего критического рассмотрения. При повторении сеансов, так же, как значения коэффициента «надежности», «плывут» и значения весов заданий. При этом даже не важно – те же претенденты пришли на повторный сеанс, или другие. Важно лишь, чтобы сеансы были последовательными, а претенденты имели возможность общаться.

          Веса заданий занимают одно из центральных мест в парадигме IRT. С помощью значений весов темперируют тест, упорядочивают задания по критерию сложности.

          Рассмотрим реальную ситуацию. Возьмем тест, составленный в полном согласии с канонами учебной дисциплины и тестологии. Возьмем две группы претендентов, которые прекрасно подготовлены по двум разным учебникам этой дисциплины соответственно. Пусть группы будут разной численности. Разные учебники потому и разные, что разные вопросы дисциплины там освещены по-разному, в том числе и по-разному несовершенно. Следовательно, часть заданий гарантированно правильно выполнят претенденты из первой группы, другую часть – из второй. Тогда, вычисленный после сеанса вес каждого задания окажется зависимым от соотношения численности групп. Сколько бы мы не рассуждали о «репрезентативности», от этой определенности никуда не денешься. Чем меньше претендентов выполнивших конкретное задание, тем выше его вес. Следовательно, при условии равновероятности соответствия заданий тому и/или иному учебнику, вероятность победы выше у тех претендентов, которые принадлежат меньшей группе.

          Выбор учебника для учения – дело субъективное. Получается, что значения весов также субъективны. Но тогда зачем тратить столько сил на расчет этих значений?

          Период вычислений весов долог. Пока пройдут тестирования сотни и тысячи учащихся проходят недели и месяцы. Но это не вся трудность. За это время в учебных заведениях многое меняется, появляются новые учебники, меняются учебные программы, сами учебные дисциплины становятся другими. «Плывет» основательность знаний учащимися тех или иных разделов дисциплины. При всем этом, естественно, должны меняться и базы заданий. Вместе с базами, должны измениться и значения весов заданий. И это – еще не все аргументы.

          В тестологии разъясняют такую ситуацию, т. е. «плывущие» результаты измерений, «нерепрезентативностью» выборки претендентов. Это можно было бы так и оставить, если бы не видны были явные закономерности «заплывов» этих чисел. Можно утверждать: если претенденты мотивированы, а временные интервалы между сеансами достаточно велики и претенденты имеют возможность общения, то после нескольких сеансов мы увидим –

          а) веса заданий стремятся стать равными:

          Рис. 2.

          б) результаты претендентов имеют тенденцию к группировке в двух районах области определения кривой распределения – рядом с точкой случайного «тыка» и рядом с пределом 100%:

          Рис. 3.

          в) надежность теста растет и постепенно становится самой высокой:

          Рис. 4.

          Веса заданий, по изначальному замыслу, вычисляются для мифического «усредненного» претендента. Ситуация с этим вычислением напоминает притчу о больнице, где в качестве показателя успешности работы вычисляли среднюю температуру больных, и средний больной был здоров (Тср = 36,6о). Вместо того чтобы сравнить результаты учащихся двух школ между собой и прямо определить реального лидера, тестологи, в рамках действующей парадигмы, сравнивают их результаты с результатом «среднего ученика» (который не только не известен, но еще и «тестировался» в прошлом году). В итоге может случиться, например, ситуация, когда некое, легкое для «среднего ученика» задание, реальные, учившиеся у конкретного учителя, школьники не выполнили, но это мало повлияло на их итоговый результат. И наоборот.

          Некоторые тестологи, видя, как «плавают» значения коэффициентов, придумали выход для «укрепления» теории: взять и запретить повторные тестирования. Так и случилось в первых экспериментальных всероссийских тестированиях «Телетестинг», проводившихся Центром «Гуманитарные технологии» (г. Москва). Но школьники оказались хитрее ученых мужей – они запоминали задания и передавали их, вместе с решениями, своим коллегам, ожидавшим сеанс в очереди в коридоре. «Впереди танков по минному полю шли тральщики». Каждый последующий сеанс проводился с более подготовленными претендентами. И веса поплыли. Если бы их значения вычислялись каждые два часа и по всей стране, мы бы увидели чудесные метаморфозы со школьниками, умнеющими на глазах, и с одними и теми же тестовыми заданиями, которые, в течение дня, становятся все проще и проще. Более того, мы бы увидели, что качество образования в России чудесным образом зависит от часового пояса (отгадайте, почему). Был ли смысл в скрупулезном расчете весов, длившемся несколько недель?

          Давайте рассмотрим динамику результатов многократного прохождения одного и того же теста одной и той же группой претендентов. Для того чтобы картина не стала тривиальной, пусть тест будет вариативным, т. е. его задания каждый раз будут меняться, но спектр их типов будет сохраняться. Пусть веса заданий вычислены заранее так, как это требует теория, и не меняются.

          После первого сеанса, если тест «достаточно» хорош, а группа претендентов «достаточно» представительна и велика, согласно канонам тестологии, должно получиться следующее распределение результатов:

          Рис. 5.

          Каноны тестологии (теории IRT) требуют, чтобы вершина у кривой распределения была одна. Начинаться она должна от нуля, затем переваливать через вершину и плавно снижаться к нулю на границе 100%. Так оно иногда и происходит. Если в группе претендентов 300-400 человек и более, претенденты мотивированы, задания заранее не известны, свойства претендентов более-менее однородно распределены, то график получится более-менее плавным, как на этом рисунке (Рис. 5.).

          Бывает и иначе. Скажем при тестировании по какой-либо коллективно «нелюбимой» дисциплине или при отсутствии у претендентов мотивации:

          Рис. 6.

          Здесь вершина распределения расположена над неким средним значением, которое получится, если проходить тестирование методом случайного «тыка». Ширина кривой в этом случае зависит от свойств самого теста и может быть вычислена по стандартным формулам теории ошибок.

          А бывает и так, что в группу претендентов попали учащиеся с существенно разным уровнем и спектром ЗУН. Скажем, когда школьники гуманитарного и физико-математического класса одновременно тестируются по тригонометрии. Кривая может стать двугорбой:

          Рис. 7.

          Горб, что поближе к нулю, соответствует гуманитариям, а другой, подальше – физикам и математикам. Горбы могут быть разделены резко, а могут и слиться в широкую вершину. Степень различения горбов зависит от свойств теста и учебной программы, которую выполнили претенденты.

          Можно предположить и другие ситуации, когда кривая распределения результатов будет многогорбой. Тестологи, как правило, «отметают» такие случаи, говорят, что выборка непредставительная, претендентов мало и вообще – претенденты попались не те, что надо.

          Причина «любви» тестологов к одногорбым кривым лежит у истоков IRT – одной из распространенных теорий, описывающих результаты тестирований. Именно с IRT они «впитывают» «технарские» идеи о надежности, репрезентативности и пр., именно подружившись с IRT, тестологи начинают жить в фантастическом мире «надежностей» и «репрезентативностей». В этом – истоки сюрпризов, которые преподносит тестологам обычная «серая» повседневность.

          Пользователь не знает, чего он хочет,

          пока не увидит то, что он получил.

          Э. Йодан

          Реальность богаче теоретических представлений. Редко кому придет в голову проследить, как меняется кривая распределения результатов с течением времени, с каждым новым сеансом. Это – интересно.

          Происходящие сдвиги и их скорость зависит от следующих причин:

          степени внешней мотивации (если претенденты – абитуриенты престижного вуза);

          степени внутренней мотивации (если претенденты следят за своими личными успехами, стараются развивать свой интеллект, стремятся к знаниям);

          под влиянием мотивации учащиеся оперативно (или не оперативно) консультируются с учителем, читают учебники в перерывах между сеансами либо вечером дома;

          при отсутствии мотивации учащимся с течением времени может все надоесть.

          В первом и втором случае, через 3-5 сеансов кривая может стать такой:

          Рис. 8.

          А потом, еще после нескольких сеансов, результаты большинства претендентов окажутся сконцентрированными у границы 100%:

          Рис. 9.

          Претенденты – разные. Неоднородность группы претендентов может проявиться в динамике кривой распределения результатов так:

          Претенденты, потерявшие интерес к тестированию, не имеющие достаточной мотивации и просто уставшие покажут результаты вблизи уровня случайного «тыка';

          Результаты сильно мотивированных претендентов, активно выяснявших методы выполнения заданий и правильные решения, окажутся через 2-3 сеанса вблизи отметки 100%;

          Результаты мотивированных, но слабо подготовленных к стрессовому дообучению претендентов будут медленно расти, двигаться к отметке 100%.

          Картину распределения тогда можно представить таким рисунком:

          Рис. 10.

          Конечно, эта кривая совершенно не похожа на те, что изучают поклонники IRT.

          Рассмотрение, которое мы провели, будет таким при условии оговоренного нами выше постоянства весов заданий.

          В тестологии существуют хорошо разработанные методы пересчета весов на основании полученных распределений результатов. Представленные выше кривые (Рис. 6-10.) могут быть трансформированы к каноническому виду (Рис. 5.) путем «перевзвешивания», пересчета значений весов:

          Рис. 11.

          Если после каждого сеанса тестирований приводить кривые распределения результатов к каноническому виду путем «перевзвешивания», то, вместе с «плывущими» кривыми распределения результатов (теперь – медленно плывущих), мы получим «плывущие» веса.

          Из всех неприятностей произойдет

          именно та, ущерб от которой больше.

          Артур Блох. Третье следствие из Закона Мэрфи

          Несложно предположить, куда «плывут» веса заданий:

          «разочаровавшиеся» претенденты нажимают клавиши случайно и, в соответствии с законами случайности, все задания будут выполнять ими, правильно и неправильно, равномерно;

          «стремящиеся к успеху» претенденты, рано или поздно, узнают все верные варианты выполнения заданий и выполнят все верно;

          «середняки» вносят разнобой в описанную равновероятность, однако их количество постепенно уменьшается за счет продолжающегося самообучения.

          Следовательно, веса «плывут» друг к другу, постепенно становясь равными.

          На процесс «плавания» могут влиять артефакты, скажем такой: одна часть участников поверили своему учителю, научившему их ответам на вопросы теста, другая часть – соседу студенту, который решил задания по-своему. В итоге, совершенно случайно, часть заданий частью претендентов будет в течение нескольких сеансов выполняться неверно, то есть окажется очень сложной для совершенно конкретного и неизменного количества претендентов.

          Может быть, мы просто не замечаем «объективной реальности'? Может, человек не машина, и к нему нельзя подходить с «технарскими» мерками и определениями? Может, лучшая тестовая технология как раз та, которая прекрасно выполняет дидактическую функцию, где результаты претендентов растут, и, чем быстрее – тем лучше? Или та, где веса заданий, многократно пересчитываемые при многократных тестированиях, становятся равными быстрее? Ведь главная цель дидактики как раз в этом и состоит – научить учащихся путем тренировок. Чем быстрее растут результаты – тем лучше применяемая технология (тест + программный комплекс + сценарий сеанса) приспособлена для тренировок, тем выше ее дидактическая ценность.

          Свойство, отражающие скорость роста результатов претендентов, вполне можно назвать релевантностью, т. е. степенью соответствия теста дидактическим целям. А соответствующий коэффициент – коэффициентом релевантности.

          Для повышения надежности тестологи рекомендуют провести предварительный опрос претендентов. Можно ли поверить, что большинство «претендентов» правдиво ответят перед сеансом на вопросы:

          Не знает ли он из каких-либо источников верных вариантов выполнения заданий?

          Не проходил ли он это тестирование ранее и сколько раз?

          Будет ли он проходить тест как следует, или просто потыкает в клавиши?

          Нет. Они не заинтересованы в правдивом ответе по разным причинам. Такой опрос имеет лишь умозрительный интерес, его результату нельзя доверять.

          Человек – не машина. Результат измерения свойств человека зависит от применяемого инструмента и самого процесса измерения. А свойства человека меняются в зависимости от количества и последовательности измерений. Следовательно, теряется смысл скрупулезного взвешивании сложности и трудоемкости заданий применительно к группам претендентов с неизвестной предысторией.

          Есть ли смысл в изменении свойств инструмента измерения применительно к разным группам претендентов? Да. Во всяком случае, физики часто так поступают, измеряя свойства разнородных веществ. Но при этом должны быть адекватными процедуры пересчета результатов, чего, как мы видим, добиться довольно сложно в массовых тестированиях.

          Интуитивно ясно, что наличие ошибки в программе

          не скажется на результатах тестирования;

          если содержащая ошибку программная компонента

          при тестировании не выполнялась.

          Дж. Хуанг

          Измерения надежности в тестологии напоминают квантовомеханические эксперименты, где прибор неизбежно взаимодействует с системой в процессе измерения и меняет систему. И чем точнее прибор – тем сильнее он систему меняет. Физики наработали неплохой опыт, и им нужно пользоваться. Например, понятия дуальности характеристик и соотношения неопределенностей, вероятно, могли бы сослужить хорошую службу тестологии.

          Подобно квантовой механике, тестологическая теория должна объединить в рамках изучаемой системы и тест, и технологию тестирования, и проходящих сеанс тестирования претендентов, и тех претендентов, которые ожидают своей очереди, и окружение претендентов (учителей и иных советчиков, продавцов шпаргалок и пр.). Нельзя адекватно описать поведение урезанной системы, рассматривая только совокупность невзаимодействующих претендентов и теста.

          Поскольку сложность и трудоемкость тестовых заданий необходимо учитывать при подведении итогов тестирований, а существующие понятия «надежности» и «веса задания» не выдерживают критики, надо от парадигмы, связанной со странной «надежностью» и частым «перевзвешиванием» заданий, перейти к иной, более объективной и более адекватно соответствующей реальности.

          ОИТ и менеджмент качества. Принцип непрерывного улучшенияПрогресс человечества пришел к необходимости систем менеджмента качества. Таких систем создано много. Описание такой системы представляет собой много томов, содержащих схемы предприятий, схемы руководства, перечни принципов, примерные инструкции и перечни обязанностей и пр. Это такой образец, что если, следуя ему устроить производство продукции, можно с большой вероятностью добиться успеха. Среди общепризнанных систем – ISO-9000. Один из принципов ISO-9000 – принцип непрерывного улучшения, согласно которому система менеджмента качества считается хорошей, если качество продукции растет.

          В большинстве сфер человеческой деятельности с понятием качества и измерением качества проблем нет. Иное дело в образовании. Как показано в предыдущем разделе (Динамика результатов педагогических измерений), в педагогических измерениях нет места «надежности» в традиционном техническом понимании. Результаты тестирования не повторяются так, как это хотелось бы, например, инженеру, работающему с механизмами.

          Результаты тестирования ЗУН, с той или иной степенью определенности, отражают состояние качества образования претендентов. Рост результатов тестирования ЗУН, если процесс тестирования не осложнен негативными артефактами, свидетельствуют о росте уровня качества.

          Изменения результатов тестирований, проведенных с одним и тем же (возможно, вариативным) тестом, можно подразделить как общие и локальные. Под локальными изменениями можно понимать те, которые происходят при многократных тестированиях одной группы претендентов в рамках одной темы учебной дисциплины. Под общими изменениями можно понимать те, которые происходят при тестированиях разных групп претендентов, либо одной группы, но по разным темам. Локальные изменения характеризуют, скорее, личностные характеристики претендентов, а общие – учебный процесс. Положительные общие изменения свидетельствуют о росте качества учебного процесса.

          Как показано в предыдущем разделе, стремление к «надежности» теста, редко приводит к результату, а «надежность», как численная характеристика теста, реально не используется в тестологических расчетах. Логично вместо «надежности» ввести в научный обиход характеристику, отражающую степень локальных изменений результатов тестирования. Поскольку рост образовательных результатов – это дидактическая цель, эту характеристику можно назвать «релевантность», понимая под этим названием степень соответствия дидактической цели.

          В отличие от «надежности», измерить «релевантность» несложно. Например, как разность усредненных результатов последовательных сеансов тестирования одной и той же группы претендентов по двум вариантам одного теста в рамках одной технологии.

          Положительная релевантность означает рост результатов, отсюда – связь с принципом непрерывного улучшения системы ISO-9000: тест, технология тестирования хороши в случае их положительной релевантности. Принцип «положительной релевантности» лучше характеризует тест и технологию тестирования, чем принцип «надежности».

          Целесообразно применить термин «релевантность» не только к тесту, но и к технологии тестирования, и к технологии компьютерного обучения. Подробное рассмотрение возможности применения термина «релевантность» к технологии обучения (и тестирования) приведено в томе I настоящего пособия.

          Каким быть компьютерному комплексу для обучения и контроля ЗУН?Хотелось бы, чтобы не только хотелось...

          Борис Крутиер

          Какими должны быть образовательные компьютерные комплексы, чтобы быть востребованными и удобными в пользовании для учителя, учащегося, управленца? Как сделать так, чтобы прохождение сеанса компьютерного тестирования вызывало у учащихся рост интереса к обучению и повышению качества своих знаний? Как «скрыть» от учащегося саму процедуру тестирования, снять атмосферу напряжения и волнения, сконцентрировав его на раскрытии творческих качеств и реализации знаний? Как устранить или свести до минимума возможности подлога, «списывания'?

          Деловая компьютерная игра многими воспринимается как своеобразная панацея. Вероятно, что именно в этой области нужно искать пути построения сценариев компьютерного обучения и контроля ЗУН – привлекательных и вызывающих желание исследовать, учиться. Удачные попытки построения таких сценариев существуют. Можно привести в качестве примера известный сценарий и игру Сида Мейера «Цивилизация». Однако следует заметить, что такие игры обычно содержат довольно мало по-настоящему учебной информации и могут быть рассматриваемы лишь как основа для дальнейшей методической и сценарной работы.

          К негативным последствиям таких игр можно отнести вероятную неправильную ориентацию игроков в реальных сочетаниях величин в реальной жизни: сколько должно быть тех или иных ресурсов, чтобы производство других развивалось таким-то образом.

          Создание профессиональных компьютерных игр-тренажеров – вполне разработанная и освоенная специалистами область. Существуют прекрасные тренажеры и средства для их создания – конструкторские программные комплексы, банки реализаций. Вызывает сожаление, что это относится исключительно к специальным тренажерам – для летчиков, танкистов, судоводителей, автогонщиков. Рынок же тренажеров для учащихся общеобразовательных учебных заведений – компьютерных лабораторных работ и учебных практикумов – пока заполнен изделиями несравненно низшего качества. Они малоинформативны, однотипны, не вызывают интереса к обучению.

          Если отладка – процесс удаления ошибок,

          то программирование должно быть процессом их внесения.

          Э. Дейкстра (Артур Блох. Законы Мэрфи)

          Разработкой и изготовлением компьютерных тестирующих комплексов в России занимаются, в основном, коллективы, базирующиеся при вузах. Среди таких вузов следует назвать МГУ, СПбГУ, НГУ, МФТИ, МИФИ, МЭСИ, ТГУ, ДВГУ и др. Как правило, коллективы состоят из физиков, математиков, инженеров-компьютерщиков. Педагоги либо психологи к сценарным работам практически не привлекаются.

          Одним из счастливых исключений здесь является МГУ, где в таких разработках принимают активное участие преподаватели и студенты психологического факультета. Созданная ими система «Телетестинг» завоевала в 1997-2002 гг. в России огромную популярность. Скажем, в Приморском крае в 2000-2002 гг. любое компьютерное тестирование (какая бы организация его не проводила) родителями и учащимися однообразно нарекалось «телетестингом».

          В качестве другого примера, приведем опыт разработчиков ДВГУ. Здесь с 1994 года ведутся научные и экспериментальные работы в области разработки компьютерных обучающих и тестирующих средств. В научных семинарах и работах здесь принимают участие сотрудники, студенты и преподаватели – физики, химики, математики, историки, юристы, педагоги, географы, экологи, филологи, экономисты. Создан ряд разновидностей компьютерных тестирующих комплексов, реализующих известные педагогические идеи, восходящие к Платону и Сократу.

          Созданные в ДВГУ игровые тестирующие комплексы популярны в школах Приморского края. На их основе ежегодно проводится около пятидесяти Приморских краевых образовательных олимпиад, выпускные и переводные экзамены в школах, вступительные экзамены для абитуриентов ДВГУ. Созданный в ДВГУ в 1998 году компьютерный комплекс – деловая игра «Дидактор» является удачной попыткой реализации игровой концепции обучения и контроля. Работа с ним не утомительна, интерфейсы учащегося и преподавателя просты и понятны. Идея «Дидактора», заключающаяся в предложении не отвечать на вопросы, а оценивать ответы виртуальных учеников, привлекательна для учащихся. «Дидактор» предлагает учащемуся шпаргалки (развернутые ответы и пояснения) – в этом его обучающая функция. «Дидактор» умеет работать и на компакт-диске, и в Интернет.

          Составлять учебные материалы для наполнения «Дидактора» проще, чем для многих известных комплексов. Для этого не нужно пользоваться дополнительными средствами. Файлы с наборами тестовых заданий полностью изготавливаются в формате RTF. Тестовые задания «Дидактора» – мультимедийные – это позволяет значительно расширить возможности обучения и тестирования. Все компоненты заданий могут содержать изображения, формулы, звуковые и видеофайлы. Комплект «Дидактор» содержит блок конвертации составленных так тестовых заданий в необходимую для использования форму.

          В серии изготовленных в ДВГУ тренажеров – «Кроссворд», «Фракон» (конструктор фраз), «Файндер» (найди ошибку), «Диктант», «Вордик» (узнай слово), «Ковер-самолет», «Толмач» – использованы оригинальные, известные и переработанные сценарии. Тренажер-игра «Диалог» основан на идее вовлечения ученика в разговор между анимированными виртуальными персонажами. Контроль ЗУН и обучение происходят завуалировано, в процессе диалога. Интерес представляет процесс обучения на основе виртуальных диалогов представителей разных культур и времен (диалоги культур).

          Широк круг дисциплин, материал которых послужил наполнением для вышеописанных изготовленных тренажеров – десятки школьных и более двухсот вузовских дисциплин.

          Студенты ДВГУ с 1999 освоили компьютерное обучение и часто предпочитают проходить процесс обучения и контроля на компьютере, контактируя с преподавателем только на консультациях либо по электронной почте – это удобно, ведь многие учащиеся работают, многие одновременно получают два и три образования.

          Некоторые студенты, рассматривающие качество обучения как особую ценность, высказали мнение, что избранная Открытым университетом форма контроля знаний (тренажер Дидактор) – лучшая из виденных ими, поскольку

          игра позволяет продлить период внимательной работы;

          демонстрация только одного варианта выполнения задания на экране делает невозможным пользование простым логическим сравнением для отгадывания;

          необходимость оценивания вариантов выполнения не по двузначной, а по четырехзначной шкале, заставляет глубже задуматься над учебным материалом.

          Такого же мнения придерживаются и многие школьники и учителя.

          Глава 3. Тестовые испытания и управление образовательными результатами'В современных условиях – говорил на XXVI съезде КПСС товарищ Л. И. Брежнев, – многократно возрастает значение дисциплины, значение личной ответственности»

          Материалы XXVI съезда КПСС, М.: 1981, с. 50.

          Одна и та же группа учащихся, проходящая одну и ту же процедуру тестирования, может в разное время показать разные результаты. Это может быть связано и с постепенным привыканием учащихся к технологии, и с экологическими условиями, и с другими факторами, такими, например, как усиление или снижение мотивации под влиянием общения с педагогами или неконтролируемого общения со сверстниками.

          Именно эта разность результатов часто не позволяет считать тот или иной комплекс надежным (согласно определению), не смотря на все его видимые достоинства. Это серьезное противоречие заставляет исследователей искать иные, нежели традиционно понимаемая надежность, критерии качества тестового комплекса.

          Экологические и погодные условия вполне поддаются контролю. Поэтому их влияние на результаты тестирования может быть экспериментально измерено. Без особых усилий можно исключить влияние эффекта привыкания, проведя предварительно тренировки достаточной длительности.

          Совсем другое дело с мотивацией. Мотивированные люди совершают невероятные действия, совершают подвиги, сдвигают горы. Люди, умеющие мотивировать себе подобных и знающие, как это делается, становятся известными и знаменитыми – организаторами производства, педагогами, миллионерами, тренерами команд, преступниками.

          Результаты тестирования учащихся, не имеющих выраженной мотивации к повышению своего рейтинга, не выйдут за пределы области «наиболее вероятного» результата. Результаты тех же учащихся, но стремящихся получить приз, очевидно, улучшатся.

          Мотивация может быть случайной. Мотивация может быть не только позитивной, но и негативной, например, она может быть связана с потребностью «выделиться» любым путем – скажем, получив по итогам тестирования наименьший в группе рейтинг.

          Исключить влияние негативной и случайной мотивации можно только одним путем: дать учащимся новую, мощную, общую для всех мотивацию, которая способна «перебить» своим влиянием все остальные. Это не только исключит досадные случайности, но и приведет к достоверному получению самых «высших» результатов, на которые способны учащиеся.

          Мотивация учащихся к повышению качества ЗУНМожете всегда положиться на убийцу в отношении затейливости прозы

          Владимир Набоков,

          (aforizm.kaminplus.ru)

          Мотивация учащихся разнообразна. Она должна быть известна организаторам тестирования до начала тестирований и начала анализа результатов. Мотивация может быть открытой (известной) и скрытой (неизвестной организатору тестирования). Собственная мотивация может быть скрытой и от самих претендентов, в силу каких-либо психологических обстоятельств – недостаточности навыков самоанализа и пр. Влияние скрытой мотивации может быть принято организаторами тестирований, например, за систематическую ошибку процедуры измерений.

          Неожиданно появившаяся и неожиданно исчезнувшая мотивация может «спутать карты» тестологов, измеряющих надежность и валидность теста. Мотивацию может создать неформальный лидер коллектива испытуемых, впечатление от увиденного кинофильма и пр. Прекрасный тест будет признан негодным по причине, которая никогда не будет известной.

          Особенно заметно на результаты тестирования влияет мотивация, связанная с:

          соревновательным азартом;

          игрой;

          стремлением познания интересных сведений;

          безразличием к результату.

          Причем, игра и соревнование здесь могут происходить не только с коллегами, но и с виртуальными персонажами, с собой.

          Для проявления мотивационных эффектов необходимо, чтобы претенденты имели возможность тестироваться несколько раз, а тест должен обладать вариативностью.

          Начиная с 1994 года, Дальневосточный государственный университет проводит массовые компьютерные тестирования знаний школьников Приморского края. Это делается в рамках договора с департаментом образования и науки администрации Приморского края (ранее – краевым управлением народного образования). Зимой, в январе, компьютерные тестирования проходят на базе Всероссийского детского центра «Океан», находящегося на побережье полуострова Муравьева-Амурского в пригороде Владивостока. В январе там собираются от 400 до 900 школьников – победителей районных олимпиад. Тестирование проводится бесплатно, без вручения внушительных призов – победителям выдаются просто памятные дипломы и сертификаты с указанием набранных результатов. Некоторые учебные заведения выставляют на основании этих сертификатов оценки за вступительные экзамены.

          В 1994-1996 году силами коллектива Центра новых образовательных технологий ДВГУ были проведены эксперименты по выявлению и повышению мотивации школьников к участию и победе в тестированиях по общеобразовательным дисциплинам. На основе этих экспериментов была создана относительно простая технология мотивации, которая впоследствии показала свою высокую эффективность не только среди школьников, но и среди университетских студентов и школьных учителей. Она названа создателями технологией «мягкого тестирования» и описана ниже.

          Технология мягкого тестирования. Десять задач и десять решенийPer ludos ad scientias –

          Через игру к знаниям (лат)

          К недостаткам существующих технологий тестирования ЗУН относят, например:

          двузначность логики оценки тестов, не позволяющую распознать, насколько точно претендент чувствует нюансы определений и описаний явлений;

          отсутствие моментов психологической разгрузки, постоянно и неоправданно поддерживаемое у претендента в течение сеанса состояние крайней ответственности за каждое неправильное действие, приводящее к случайным ошибкам;

          однобокость рейтинговой оценки, отсутствие в результатах тестирования подробной информации о склонностях претендента;

          сложность определения весов заданий, требующая предварительных массовых экспериментов и временных затрат, оказывающихся неоправданными после очередной смены преподавателя или учебника по дисциплине.

          Технология мягкого тестирования (ТМТ) создается в «противовес» традиционным жестким:

          когда претендентам запрещают повторное тестирование;

          когда задание можно выполнить только правильно или неправильно, без дифференциации;

          когда в процессе тестирования нет места обучению;

          когда сеанс тестирования скучен и зануден;

          когда до успехов претендентов нет никому дела;

          когда претендента ведут тестироваться не тогда, когда он готов, а когда назначено время сеанса.

          Перевести термин «мягкое тестирование» на английский язык можно как «Soft testing» или «Soft grading», в соответствии с известной аналогией (В. С. Аванесов).

          Создатели ТМТ решали десять приведенных ниже задач.

          Ввести в ТЗ многозначные логические отношения, создать критериально-ориентированную технику оценки выполнения заданий, включающую не только полюсные («верно» и «не верно») варианты оценки, но и более широкий спектр, в том числе двумерную, матричную шкалу.

          Снизить вероятность логического угадывания претендентом правильных действий.

          Ввести в сценарий тестирования игровые моменты, позволяющие безболезненно увеличить время сеанса и количество предъявляемых заданий, а также осуществить психологическую разгрузку в течение сеанса.

          Найти и ввести в сценарий моменты, побуждающие претендента к самообразованию.

          Создать и внедрить технику подсчета многомерного рейтинга, исключающую необходимость вычисления относительных весов заданий и позволяющую непротиворечиво судить о разных склонностях претендентов.

          Реализовать в едином программном комплексе возможности единообразного создания и применения ТЗ всех известных форм, дав возможность автору реализовать их достоинства без привлечения дополнительных программных средств.

          Максимально упростить труд авторов, переложив труд по конвертации и сортировке ТЗ на плечи компьютера.

          Реализовать наиболее прогрессивные методики обеспечения конфиденциальности и информационной безопасности.

          Реализовать в практике тестирований достоинства мультимедийных технологий.

          Сделать программный комплекс мобильным, позволяющим немедленно приступать к работе в сети и на персональном компьютере, с компакт-диска и в сети Интернет без прохождения процедуры инсталляции.

          Вот основные положения технологии мягкого тестирования (их можно считать решениями поставленных выше задач). Их десять.

          Применяемая в тестированиях БТЗ должна быть достаточно велика для того, чтобы сидящим за соседними компьютерами (или повторяющим сеанс) участникам не попадались одинаковые задания.

          Участникам следует разрешить тестироваться не только официально, но и в свободное время, посещая компьютерный класс «живой» очередью. Господствует принцип: «Тестируйся по любой дисциплине, сколько хочешь раз, не ущемляя этого права своих коллег». Заключительная часть этой фразы оказалась абсолютно необходимой в связи с ограниченностью технических и временных ресурсов. Все результаты, полученные в присутствии ответственного лица, учитываются. Как итоговый, засчитывается лучший результат. Разрешение тестироваться в произвольное время приводит к повышению результатов, поскольку даже на обычном очном экзамене, как известно, большую роль играет настроение учащегося.

          Отказ от сеанса или получение малой суммы очков не приводит к негативным последствиям для учащегося.

          Интерфейс компьютерного комплекса должен быть игровым, не занудным. Задания и интерфейс должны содержать элементы сюрпризности. Сначала это привлекает, а потом – не отвлекает. Это абсолютно необходимое требование, которое, вместе с обеспечением привлекательности процесса контроля, позволяет

          «отодвинуть» период начала влияния действия эффекта «ровной дороги';

          увеличить количество предъявляемых заданий и, соответственно, время сеанса.

          Время активного компьютерного тестирования школьников не должно превышать 15-30 минут. Количество заданий не должно превышать 30-60. Это выявленный нами предел, после которого даже отличники и взрослые учителя начинают тестироваться «методом тыка». Если задания короткие, то удвоение времени тестирования от 20 до 40 минут не дает качественных изменений или методических выгод: чаще всего при этом просто удваивается количество набранных участниками очков. Длительность сеанса может играть решающую роль в привлекательности технологии, например, сидение за компьютером более часа значительно уменьшает аудиторию желающих проверить силы.

          В том случае, если среди тестовых заданий есть вычислительные задачи, т. е. в случае неактивного тестирования, время можно увеличить. Важно, чтобы в процессе решения задач учащийся смотрел не на экран (усталость зрения), а на листок бумаги. Лучше, если задачи учащиеся получат предварительно, решат их в аудитории, а потом ответят на вопросы теста о ходе решения и результатах.

          По истечении времени тестирования, необходимо оперативно проанализировать результаты и громко, так, чтобы это слышали стоящие в коридоре учителя и участники следующей смены, назвать фамилии школьников, которые набрали лучшие результаты в течение сеанса. Если при этом попросить всех присутствующих (входящих и выходящих, сидящих за компьютерами участников) устроить аплодисменты победителю смены, они это с удовольствием сделают. Эти аплодисменты – абсолютно обязательный атрибут. Это действие, как показали наши последующие опросы участников, «подстегивает» и победителей, и побежденных. Это характерно в среде и студентов, и учителей. Такие эксперименты мы проводим регулярно в разных городах и разных аудиториях с одинаково положительным результатом.

          Тестирование следует вести в течение нескольких дней. Утром каждого нового дня на доске объявлений должны появляться списки вчерашних участников, разбитые по классам и дисциплинам, отсортированные по величине результатов. Это – важнейший фактор. Именно эти списки станут наиболее значимым объектом сегодняшних обсуждений в столовой, коридорах. Кстати, созданная таким образом база данных может пригодиться приемным комиссиям вузов.

          На следующий день, после появления списков результатов, у компьютерного класса всегда вырастает живая очередь. Именно эта очередь всегда становится для нас своеобразным камнем преткновения. С одной стороны – это показатель успеха технологии, с другой – присутствие в очереди и ожидание своего «звездного часа» для школьников становится значительно более важным, чем посещение лекций, экскурсий, столовой. Для «уничтожения» очереди приходится привлекать сторонние силы – дежурных учителей и пр.

          ТМТ так проста, что трудно поверить в ее действенность. Но факты упрямая вещь. Эта экспериментально подтверждаемая информация говорит «сама за себя':

          результаты претендентов растут (в среднем) в течение периода испытаний при каждом повторном сеансах;

          ожидающие сеанс претенденты внимательно изучают учебники и дополнительную литературу, заинтересованно обсуждают и задают связанные с учебными дисциплинами вопросы друг другу и учителям;

          появляющиеся рядом с очередью претендентов учителя (сначала случайно, потом – постоянно) спонтанно устраивают тут же консультации по всем дисциплинам, эти консультации востребованы и желанны.

          Такую (п.10) спонтанно создающуюся продуктивную учебную обстановку трудно встретить в учебном заведении в стандартных условиях.

          ТМТ предложена и реализована в ДВГУ, варианты ее многократно представлялись и обсуждались на научных конференциях всероссийского уровня.

          Результаты экспериментов с ТМТ и тестовым комплексом позволили выработать относительно новый для тестологии критерий: технология организована тем лучше, и тестовый комплекс тем лучше, чем выше скорость роста результатов участников при повторных тестированиях. Этот критерий «перекликается» с известным в статистической физике принципом «производства энтропии». Схожесть подчеркивают и ежедневно получаемые кривые распределений результатов тестирований – динамика дифференциации выборки претендентов.

          Кто хвастает перед тем, кто его знает,

          – заслуженно поднимает себя на смех.

          Эзоп,

          (aforizm.kaminplus.ru)

          В 1999 году, когда отмечалось 200-летие со дня рождения А. С. Пушкина, на базе ВДЦ «Океан» проводилось экспериментальное внедрение компьютерного игрового тестера-тренажера «Пушкинистика». В один из дней нам довелось случайно услышать разговор библиотекаря и двух учительниц. Они, не зная, что мы проводим эксперимент, живо восторгались тем, что в библиотеке «нарасхват» книги Пушкина и о Пушкине, что книги даже приходится «придерживать» и разрешать пользоваться ими только в читальном зале! Более того, они заметили, что творчеством и жизнеописанием Пушкина совершенно неожиданно и в массовом порядке интересуются «физики», «математики», «информатики».

          Подчеркнем, что описанное характерно не только для среды победителей районных олимпиад, но и для любой сельской и городской школы, где проводятся длительные компьютерные тестирования знаний по этой технологии.

          Вместе с основным результатом эксперимента, успешной проверкой работоспособности технологии, нами были проведены измерения и


--
«Логопед» на основе открытых источников
Напишите нам
Главная (1 2 3 4 5 6 7 8 9 10)