Настройка шрифта В избранное Написать письмо

Книги по педагогике 2

Морев И. А. Образовательные информационные технологии. Часть 2. Педаго / Страница 5

Главная (1 2 3 4 5 6 7 8 9 10)
рмации, кроме файлов-результатов блокируется специальными методами. Обработка производится автоматически без участия людей. Определена мера личной ответственности создателей сайта и методов защиты сайта за подлог результатов.

          Вся входящая и исходящая информация специализированного сайта тестирований дублируется независимым Центром хранения в утвержденном порядке, исключающем возможность подлога. Дублированная информация может быть использована при работе федеральной апелляционной комиссии.

          Результаты тестирований оперативно публикуются на стенде территориального ЦТ.

          Претенденты имеют право повторить попытку тестирования произвольное количество раз при условии оплаты и наличия возможности. В новом сеансе код, который будет сформирован для претендента компьютером, будет другим, и вариант заданий – тоже.

          Таблицы рейтингов учащихся, прошедших тестирования, без промедления параллельно публикуются на специализированном сайте, защищенном от посягательств. Это мероприятие не только повышает популярность и массовость тренировочных тестирований, но и дополнительно «перекрывает» пути фальсификации результатов.

          После окончания тестирований все учащиеся получают заверенный печатью сертификат, включающий его рейтинги в 100– или 1000-бальной шкале по всем дисциплинам.

          Именной сертификат претендент может представить в вуз при поступлении. Оценки по пятибалльной шкале абитуриенты получают в конкретном вузе на основании

          его рейтинга;

          рекомендаций МОРФ;

          приказа руководителя учреждения или органа управления образованием, устанавливающего шкалу пересчета.

          Десять направлений снижения общей себестоимости и себестоимости мер безопасностиПриведенная схема оптимальна для применения в регионах как обеспеченных техникой, так и не имеющих технику в достаточном количестве. Здесь нет необходимости:

          использования дорогостоящих сканеров;

          привлечения большого персонала для обработки результатов;

          привлечения персонала для вторичного контроля обработки результатов;

          тиражирования и распределения больших количеств стандартных бланков;

          авиационной пересылки бумажных материалов;

          одновременного использования площадей и технических средств;

          одновременной доставки больших количеств претендентов;

          охраны хранящихся тестовых материалов;

          исключены неэффективные потери времени работы компьютеров.

          Расчеты, проведенные для Приморского края в 2003 году, показали, что на тогдашнем уровне развития компьютеризации и ресурсной базы, можно по такой схеме провести тестирование знаний выпускников всех школ в течение трех-четырех недель. Себестоимость мероприятий с учетом оплаты труда и транспортных расходов, расходов на инспекторские проверки и инструктивные мероприятия, составила около 100 руб./сеанс. Эта сумма вполне окупается за счет оплаты тренировок самими претендентами. Однократное же аттестационное тестирование должно быть бесплатным.

          Десять известных в практике тестирования способов подлогаПодмена претендента при регистрации в ЦТ путем подделки документов или сговора.

          Подмена претендента при тестировании в ЦТ путем изменения места или времени выполнения заданий.

          Подмена бланков с результатами работы претендента в процессе транспортировки.

          Подмена бланков с результатами работы претендента в ЦТ путем сговора.

          Подмена файла результатов в территориальном ЦТ путем сговора.

          Взлом и исправление файла результатов в течение времени хранения в ЦТ путем сговора. Для взлома нужно довольно много времени.

          Подмена файла результата на сервере ЦТ или в момент пересылки между серверами путем хакерской атаки.

          Шпаргалка. Покупка, пронос и использование шпаргалки в течение сеанса тестирования. При этом если вариантов теста достаточно много, используется сговор.

          Списывание. Происходит, если претенденты сидят в аудитории так, что видят результаты действий друг друга.

          Обмен файлами. Происходит, когда один претендент регистрируется с паспортными данными и паролем другого претендента.

          Глава 5. Количество и качество ЗУНВ нашем мире, когда человеку есть что сказать, трудность заключается не в том, чтобы заставить его сказать это, а в том, чтобы не дать ему повторять это слишком часто:.

          Бернард Шоу

          Многие термины и понятия, применяющиеся педагогами на практике, не определены как измеримые, т. е. не конструктивны. Знания, умения и навыки – именно такие понятия.

          Оперировать неизмеримыми свойствами, когда речь идет о реализации ИТ, нельзя. Для того чтобы измерить свойство (или даже явление в целом, если его свойства не определены), т. е. приписать ему конкретное число, необходимо уметь делать одно из двух:

          Разлагать свойство (явление) на составляющие части, которые можно перечислить (пересчитать), каждая из которых может быть отдельно описана и сравнена с другими;

          Упорядочивать свойство (явление) в ряду ему подобных; ранжировать свойства (явления) по формальному алгоритму, позволяющему однозначно определить, почему данное конкретное свойство (явление) должно быть помещено между данными двумя подобными (впереди или позади, слева или справа, внизу либо вверху).

          Сложно однозначно сказать – знание какой математической теоремы важнее знания другой, знание биографии какого писателя важнее знания биографии другого. Сегодня специалисты однозначно утверждают, что «так», завтра – что «этак».

          Люди пока не определили другого общепризнанного способа измерения (соотнесения) объема и качества своих ЗУН, как экзамен. Экзамены принято делить на формальные (процедура описана нормативными документами) и неформальные.

          Экзамен называют неформальным, если он происходит в реальной ситуации, например, когда нужно срочно найти лекарство или пищу в лесу, устранить аварию, решить сложную математическую задачу и т. п. Такой экзамен позволяет выделить лучшего, на сей момент, специалиста или знатока в группе. Результат неформального экзамена не гарантирует, что в другое время, в другой подобной ситуации лучшим не окажется другой претендент (может быть, в момент экзамена у него болела голова, или на него влияли действия других членов группы). В этом смысле, неформальный экзамен не объективен.

          К неформальным можно отнести и такой экзамен, когда экзаменатор задает вопрос «на вскидку» и ставит оценку, ориентируясь по нескольким словам, не ожидая полного ответа.

          Публичная защита выпускной работы учащимся также может считаться неформальным экзаменом, поскольку в зачетной книжке оценка выпускной работы отделена от других, и процедура защиты предусматривает проверку знаний только по одной узкой теме.

          Формальный экзамен проводят в форме длительного собеседования или тестирования. Во время собеседования претенденту задают несколько основных вопросов (чаще два или три) из разных областей учебной дисциплины и несколько дополнительных. Выслушивает ответы комиссия либо, чаще, один преподаватель. На основе выслушанных ответов преподаватель, ориентирующийся на свой личный опыт, делает свою оценку количества знаний. Эта формальная оценка – всего лишь одно число, варьирующееся в рамках оценочной шкалы. Опытные преподаватели не останавливаются на одном числе, а заносят в свой блокнотик несколько. Больше некуда заносить. Оценка в блокнотике – объективнее формальной, она имеет несколько компонент, поэтому ее можно назвать векторной, а формальную оценку – скалярной.

          Является ли традиционная оценка мерой качества и количества? Сепарабельность оценкиВ философских спорах выигрывает побежденный,

          ибо приобретает новую мудрость.

          Эпикур,

          (aforizm.kaminplus.ru)

          Шкала оценок чаще бывает 3-х, 4-х. 5-ти и 10-ти балльной. Для более точного оценивания количества знаний преподаватель часто придумывает свой личный алгоритм оценивания, самостоятельно зауживает или расширяет формально установленную шкалу, урезая ее снизу или добавляя знаки – плюсы и минусы. Часто такая расширенная шкала, при ближайшем рассмотрении, просто является двойной (дуальной) – число становится мерой количества знаний, а плюсы и минусы – мерой умений и активности учащегося, т. е. качества.

          Оценка, т. е. одно-единственное число, часто считается мерой гарантируемого преподавателем или экзаменационной комиссией количества и качества ЗУН претендента. По-видимому, это не вполне приемлемо.

          Нельзя оценить количество и качество одной мерой. Скорее, и многие преподаватели с этим согласны, оценка – не мера, а пропуск (мандат) учащегося в одну из неформальных (формальных) групп:

          Учащиеся, усвоившие материал и умеющие учиться. Таким следует открыть путь для дальнейшей учебы, и которых можно привлекать к ответственным мероприятиям (выполнению работ, заказов и пр.);

          Учащиеся, которых можно считать первыми претендентами на продолжение учебы (предоставление рабочего места), если оно не занято представителями первой группы;

          Учащиеся, которые учатся слабо и обладают небольшим объемом знаний. Но есть еще надежда, что положение исправится;

          Учащиеся, не проявляющие рвения к учебе, которых лучше дольше не учить (либо – которым лучше не предоставлять рабочее место).

          Такой подход к оценке хорош в рамках одного учебного заведения. Однако когда речь идет о переходах учащихся между учебными заведениями, выпускных и вступительных экзаменах, он не применим. Просто потому, что в разных учебных заведениях присутствуют разные критерии получения этого «пропуска».

          Оценка, представляемая как мера количества и качества ЗУН, должна быть:

          объективной;

          унифицированной;

          объяснимой;

          сепарабельной.

          Под сепарабельностью в разных науках понимают способность объекта к разделению на составляющие компоненты без потери свойств. Эта способность очень важна, например, для биологии, где часто нельзя разделить клетку без уничтожения свойств.

          Здесь под сепарабельностью мы понимаем способность экзаменационной оценки описывать разные свойства претендента не только в совокупности, но и по отдельности.

          Что измеряют в процессе тестирования?Все силы отдай, чтобы выполнить точно расчет,

          Но знай: небеса не приемлют научный подход.

          Уильям Вордсворт (перевод Л. Владимирова)

          В настоящее время используют три метода обработки и анализа результатов тестирования:

          классический;

          IRT (Item Response Theory);

          наглядный.

          Два первых подхода базируются на статистической обработке так называемого «сырого» балла, то есть балла, набранного испытуемым в результате тестирования. Обработка включает

          определение трудности или «веса» каждого задания, т. е. числа, отражающего количество участников с ним справившихся;

          пересчет результатов – «сушка сырых баллов».

          Наглядные методы, как правило, не включают промежуточной обработки и позволяют участнику увидеть результат сразу после сеанса.

          Люди, применяющие наглядные методы, экономят свое и чужое время, и опираются при этом на свой опыт, говорящий:

          если задания составлены и «взвешены» опытным преподавателем, то никакая статистическая обработка не повлияет существенно на результаты тестирования;

          какие бы системы пересчета баллов не применялись, все равно вверху рейтинговой таблицы фигурируют, слегка меняясь местами, одни и те же учащиеся.

          Нельзя с ними не согласиться. «Сушка сырых баллов» после завершения тестирования с добротно созданным тестом действительно требует больших трудозатрат и редко приводит к существенным изменениям в рейтинговых таблицах. Пример тому – российский опыт проведения тестирований «Телетестинг», ЦКТ, ЕГЭ. Опытные члены жюри традиционных олимпиад, которым приходится иметь дело с разными системами пересчета баллов, придерживаются часто такого же мнения.

          Математический аппарат классической теории проще, чем аппарат IRT, там возможен обсчет даже с помощью калькулятора, хотя удобнее воспользоваться специальными программами.

          Считается, что классическая теория имеет ряд недостатков, главный из которых – большая, чем в IRT, зависимость результатов измерения от инструмента измерения (теста).

          Качественный анализ хорошо представленных результатов наглядно демонстрирует успешность учебного процесса, дает возможность оптимизировать корректировку содержания и методики обучения. Используя результаты каждого испытуемого, можно индивидуализировать обучение.

          Икс с игреком не путай!

          А. И. Пригорнев

          От процедуры тестирования ожидают, что после ее завершения все участники будут достаточно надежно распределены (дифференцированы) по определенным группам. Количество групп определяется разрешающей способностью применяемой шкалы оценивания – 5, 10, 20, 100, 1000.

          Попавшие в одну группу претенденты должны иметь одинаковые характеристики – знания, умения, навыки. Всем, попавшим в одну группу, претендентам присваивается одинаковый рейтинг (число) или выставляются одинаковые оценки в рамках выбранной шкалы.

          Давайте рассмотрим наиболее вероятную реальную ситуацию, возникающую при применении тестового контроля ЗУН к группе учащихся. Поставим эксперимент над группой учащихся, совершенно не знакомых с материалом дисциплины, для которого составлены тестовые задания. Подвергнем их тестированию и рассмотрим результат.

          Количество заданий, включенных в тестовый комплекс, обычно не превышает сотни. Среди них есть простые и сложные, требующие от учащегося смекалки, памяти, знаний определений и умений решать задачи.

          Если создатели тестовых заданий не затруднили себя привлечением современных тестологических технологий и ограничились (как обычно) лишь составлением заданий закрытого типа «с выбором одного правильного ответа из четырех», произойдет следующее.

          Согласно теории вероятностей, методом «случайного тыка» усредненный претендент правильно выполнит около 25% заданий. Претенденты «продвинутые», т. е. могущие логически мыслить и знающие слабые места создателей тестовых заданий, найдут правильные ответы в 50%-80% случаев. Участники, не знающие слабых мест технологии и не знающие дисциплины, но попытавшиеся привлечь свой интеллект к поиску правильных ответов, покажут результат около 30%-40%.

          Таким образом, даже с помощью непрофессионального тестового контроля можно добиться определенного результата, т. е. распределить учащихся на три группы – «интеллектуалов-хитрецов», «старательных – ищущих» и «хвостистов», результаты которых попали в интервал 0%-35%.

          Правда, разбить учащихся по таким группам можно будет только приблизительно, ибо их результаты распределятся по интервалу возможных значений, как правило, непрерывно. Хотя, может быть, вы и обнаружите на кривой распределения три соответствующих серединам групп пика. Тогда задача разграничения групп, конечно же, упростится.

          В действительности все не так, как на самом деле.

          Станислав Ежи Лец

          Теперь рассмотрим случай, когда:

          все учащиеся с учебной дисциплиной знакомы;

          знания, умения и навыки всех учащихся не имеют резких различий;

          все учащиеся учились в одинаковой обстановке;

          все учащиеся имеют стимул к получению высокого результата при тестировании.

          Тогда кривая распределения результатов учащихся будет гладкой, похожей на известные в теории вероятностей распределения типа Гаусса, Пуассона или Максвелла – с одной вершиной, поднимающуюся из нуля в начале координат и монотонно спускающуюся к нулю на границе 100%.

          Если же группа учащихся неоднородна, т. е. сформирована, например, из учащихся обычной и специализированной школ, ситуация может измениться и кривая распределения результатов превратится в двугорбую. Вершины ее будут ориентировочно соответствовать средним знаниям учащихся той и другой подгрупп.

          А может стать и так, что вершин у кривой распределения окажется так много, что они станут незаметными на фоне одной, объединяющей их, суммирующей вершины.

          Гораздо легче узнать человека вообще,

          чем какого – либо человека в частности.

          Франсуа де Ларошфуко,

          (aforizm.kaminplus.ru)

          Воспитанные на незыблемых законах классической теории вероятностей тестологи обычно рассматривают только кривые распределений результатов с одной вершиной. Более того, они считают, что только такие кривые и могут получаться, если тестовые задания и процедура тестирования правильные. Все остальное, следовательно, – ошибка измерений.

          Более того, тестологи говорят, что тестовые задания и процедура тестирования правильные, если в результате тестирований получается именно одногорбая, плавная, узнаваемая математиками кривая.

          На практике такая ситуация, когда кривая получается плавной и одногорбой, достаточно редка, и методики ее исправления нельзя всегда признать однозначно объективными.

          Считается, что хорошим методом исправления ситуации, борьбы с «многогорбостью» является приписывание заданиям весов (относительной сложности и пр.), выражаемых числами. Результат каждого претендента взвешивают, т. е. суммируют не очки (плюс очко за каждое верно выполненное задание), а веса.

          Существуют разные подходы к вычислению весов заданий, нацеленные на «исправление» кривой распределения. Задача такого исправления математически сложна, и не каждый из разработанных способов исправления приводит к желанному результату.

          Так и должно быть, поскольку исходные положения теории основаны на предположении об однородности групп претендентов, т. е. статистически «гладком» распределении среди них ЗУН. А это случается не всегда. Например, возьмите группу, где четверть претендентов умеет в совершенстве решать задачи только по одной теме физики, три четверти – только по двум. Тестирование такой группы с помощью усредненного по темам теста приведет к удивительным результатам, из которых трудно сделать монотонную одногорбую кривую.

          Вычисленные веса могут сильно зависеть от того, как сформирована группа претендентов. Это означает, что каждое новое тестирование, с новой группой претендентов, должно сопровождаться решением задачи вычисления весов вновь. А результаты этих двух тестирований нельзя будет однозначно сопоставить.

          Какой смысл имеют веса, можно ли использовать их значения для решения иных задач, более значимых, чем подгонка кривой распределения под установленную волюнтаристски форму?

          Вернемся к традиционной задаче объективного оценивания подготовки учащихся и распределения их по трем-четырем группам в соответствии с их уровнями. Кривая распределения результатов с одной вершиной, как бы она не была математически и эстетически красива, не дает оснований для объективного ответа на вопрос о том, где же объективно провести границы групп.

          Опытный тестолог поделит учащихся с помощью простого алгоритма, давно придуманного и повсеместно применяемого:

          протестируйте учащихся и получите кривую распределения результатов;

          присвойте всем учащимся рейтинги и составьте список учащихся в соответствии с рейтингами – от высшего к низшему;

          определите, сколько учащихся может учиться в группе лучших (допустим – 20);

          первых 20 учащихся в рейтинговом списке определите в первую группу, вторую двадцатку во вторую, третью – в третью и т.д.;

          если необходимо поставить оценки, поставьте первой группе «пятерки», второй – «четверки», третьей – «тройки», остальным – что осталось.

          Задача распределения, на первый взгляд, успешно решена.

          Там, где светит солнце, всегда есть тени.

          Казахская пословица

          Правда, здесь все же допущена необъективность: число 20 было включено Вами в расчет волюнтаристским путем, без надежного обоснования. Установленная Вами граница «20» стала барьером просто потому, что столько стульев стоит у Вас в учебном классе. Может быть, этим Вы поломаете чью-то судьбу. А может, наоборот, включите в группу нежеланных учащихся, которые разрушат дисциплину и учебный процесс.

          Неощутимая, с точки зрения теории вероятностей, разница в 1-2% может привести к тому, что кто-то получит «четверку» и навсегда потеряет возможность поступить в престижный вуз, а кто-то получит «пятерку» не вполне обоснованно, и в группу «лучших» попадут люди, на обучение которых будет впустую затрачено много времени и средств.

          Можно каким-то образом вычислить доверительный интервал, окружить им граничную точку и провести собеседование со всеми учащимися, результаты которых туда попали. И потом уже провести окончательное распределение, которое наверняка станет более точным за счет использования человеческого фактора, опыта преподавателя. Но это уже – не автоматическая процедура.

          Основная цель познания –

          открытие первопричин и тайн движения материи.

          Френсис Бэкон

          Как добиться объективности автоматической дифференциации учащихся, т. е. объективности оценивания их ЗУН? Очевидно, одного знания величин их рейтингов для этого недостаточно и необходимо привлекать методы математического моделирования и статистики. Например, методы факторного анализа.

          Как измерить количество ЗУН?И ракет, как говорится, Есть у нас не пять, не шесть:

          Да к чему считать-трудиться, Сколько надо – столько есть!

          Из песни «Сколько надо – столько есть!»

          Стихи П. Градова, Музыка В. Букина

          Хороший тест состоит из систематизированного множества заданий, наполнение которых равномерно «покрывает» материал дисциплины, для выполнения которых требуется привлечь примерно одинаковые массивы информации и примерно одинаковые умения. В тех случаях, когда «примерной одинаковости» авторам достичь не удалось, задания «взвешены», т. е. им сопоставлены числовые коэффициенты, характеризующие относительную наполненность работы претендента информацией и умениями.

          Мы приносим свои извинения читателю за использование здесь не вполне определенной педагогической терминологии.

          Таким образом, правильное выполнение каждого задания теста свидетельствует о наличии у претендента конкретного знания и умения. Если разные задания позволяют выявить наличие разных ЗУН, то результат тестирования – оценка – будет арифметической суммой полученных баллов или просто количеством выполненных заданий.

          Если сеанс достаточно длителен, чтобы усредненный претендент смог справиться со всеми заданиями, а задания теста полностью покрывают материал, то вычисленная, как указано выше, оценка вполне может служить мерилом количества знаний.

          А как же измерить качество?

          Как измерить качество ЗУН?Мой жизненный опыт убедил меня, что люди,

          не имеющие недостатков, имеют очень мало достоинств.

          Авраам Линкольн

          (aforizm.kaminplus.ru)

          Количественная оценка ЗУН, несомненно, должна быть отражена в оценке качества. Однако оценка качества затрагивает значительно больший пласт характеристик претендента.

          Качество ЗУН проявляется в конкретной производственной обстановке. Это проявления выражаются в:

          быстроте реакции на ситуацию;

          точности отдаваемых распоряжений;

          объективности создаваемых отчетов;

          качестве создаваемой продукции;

          скорости производства работ;

          способности быстро переучиваться;

          способности и желании повышать свою квалификацию;

          широте кругозора среди производственной и научной информации;

          и др. Нельзя объективно оценить качество образования путем прямого тестового опроса. Однако такую оценку можно произвести путем косвенного опроса. В косвенном опросе вместо самого претендента участвуют его руководители, ученики, потребители продукции.

          Проведением таких опросов занимаются (должны заниматься) территориальные Центры мониторинга качества образования.

          Качество в образовании важнее количества. Специалист, умеющий учиться, в стратегическом плане более ценен для фирмы, чем тот, который просто обладает узким комплексом ЗУН и прекрасно справился с тестированием. Энциклопедисты достигают в науке и изобретательстве больших успехов, чем узкие специалисты.

          Оценка качества не может быть выражена одним числом. Сколько параметров – столько и показателей. Оценка качества – вектор. Одной из его компонент является оценка количества знаний. Количество ЗУН (т. е. параметры личности, которые можно измерить тестированием) являются неотъемлемой компонентой оценки качества.

          Оценка качества образования с помощью компьютерного тестирования – сложная задача, которую нельзя сегодня считать решенной. Возможные пути решения этой задачи могут быть связаны со следующим:

          тестирование умения объяснить принятое решение;

          тестирование умения объяснить ход решения предложенной задачи и выбор пути ее решения;

          тестирование навыков ассоциативного мышления, умения найти связи между явлениями и объяснить их;


          тестирование умения отделить стандартное от нестандартного, нужного от ненужного (в решении данной проблемы), известное от неизвестного;

          тестирование умения объяснить ход развития конкретной учебной дисциплины в историческом, логическом, философском аспекте;

          ситуационное тестирование, когда выявляется умение найти нестандартное решение за достаточно малое время, а затем объяснить его и провести сравнение с другими решениями, выявить достоинства и недостатки.

          Это вполне можно сделать на сегодняшнем уровне развития тестологии. В частности, с применением технологии тестирования «Диалог» (см. выше, а также Приложения).

          Мало обладать выдающимися качествами,

          надо еще уметь ими пользоваться.

          Франсуа де Ларошфуко,

          (fraza.net.ua)

          Как оценить качество оценивания качества?Качество – нравственность изделия.

          Геннадий Малкин,

          (fraza.net.ua)

          Оценка качества обучения, выставленная опытным и признанным преподавателем, считается объективной. Хотя, сами учащиеся часто с этим не согласны, поскольку знают слабости преподавателя и умеют ими пользоваться. Преподаватель может «не любить» некоторые разделы дисциплины и не задавать вопросы оттуда. Или, наоборот, преподаватель может питать пристрастие к какой-то теме, и студент, обмолвившийся о любви к ней, гарантированно повышает свою оценку.

          Есть три лучших способа «оценки объективности оценки» преподавателя:

          Опрос выпускников. Студенты не питают уважения к не объективным экзаменаторам, даже если получали от них букеты пятерок;

          Опрос работодателей, у которых работают выпускники;

          Опрос преподавателей учебных заведений более высокого звена или опрос преподавателей, работающих на более высоких курсах, куда переходят выпускники для продолжения обучения.

          Иными словами, качество и количество ЗУН оценивается преподавателем верно, если:

          он пользуется уважением своих выпускников;

          его рекомендательное письмо является гарантией получения выпускником престижного рабочего места;

          результаты его работы пользуются заслуженным уважением среди коллег.

          Ясно, что такая «оценка объективности оценки» часто неприемлема по причинам долговременности, трудозатратности и пр. Особенно в России, где отсутствует культура рекомендательных писем, преемственности обучения и приема на работу.



          В России отсутствует и культура опросов о качестве обучения: психологи придумывают анкеты, службы трудоустройства их распространяют, но анкеты исчезают, оставаясь не заполненными, а заполненные анкеты складываются в мешки и также исчезают. Публикуемые службами трудоустройств результаты опросов часто оказываются основанными на «умозрительных представлениях» как бы они могли выглядеть.

          Хотя, кое-где в России давно, более тридцати лет, предпринимаются попытки построения систем непрерывного обучения, где решение о приеме абитуриентов на очередную ступень обучения или о приеме специалиста на работу основываются на авторитетной рекомендации преподавателя и договорах о совместной образовательной деятельности. В масштабе страны это – пока диковинка. Трудно, на основании всего лишь газетных публикаций, гарантированно указать адрес таких событий.

          В доверии, конечно, необходима осторожность,

          но далеко необходимее еще более быть осторожным в недоверии.

          Этвеш Йожеф, чешский писатель,

          (aforizm.kaminplus.ru)


          Тестирование – средство объективизации оценки качества и количества. Пять предпосылокЕсть люди, которые полагают, что все,

          что делается с серьезным видом, разумно.

          Георг Кристоф Лихтенберг,

          (aforizm.kaminplus.ru)

          Если экзамен, как предположено выше, – это лишь мероприятие по выдаче мандатов, и мы к этому привыкли, надо ли менять ситуацию? Надо ли вводить новые шкалы оценивания, придумывать тонкие и сложные методы различения качества ЗУН? Нужны ли специальные компьютерные информационные технологии?

          Можно предположить, что ответ большинства педагогов, имеющих дело с большими аудиториями и для которых проблема оценивания является насущной, будет утвердительным. Приведем предпосылки такого ответа.

          Оценка выставляется преподавателями всегда на основе собственного опыта. Предыстория, внешний вид и поведение претендента, сведения, полученные ранее от коллег и других людей, играют при этом определенную роль.

          Даже имея алгоритм оценки, трудно с его помощью «развести» претендентов, результаты которых попали в область близости оценок. Нельзя убедительно объяснить человеку, почему 72 балла – это «пятерка», а 71 балл – это «четверка». Здесь помогут только более сложные оценочные средства подвластные компьютеру.

          Невозможно за краткий промежуток времени гарантированно оценить знания претендента в пределах всего материала дисциплины. Тем более, если речь идет о группе. Вопросы преподаватель часто задает в неком случайном порядке (опытный студент может даже «дирижировать» этой «случайностью»), и оценивает ответы, ориентируясь лишь на наличие ключевых слов и выражений в ответе студента.

          Претендентов иногда бывает очень много, а количество вакансий, на которые они претендуют – мало. Такая ситуация постоянна при поступлении абитуриентов на престижные специальности вуза. Тогда «драка» за каждое «очко» весьма драматична, доказательства правоты и неправоты членов экзаменационных комиссий могут быть самыми разными. Опорой в экзаменационных разбирательствах здесь могут стать многоуровневые и многомерные шкалы оценивания, а лучшим судьей – компьютер.

          Традиционный экзамен – всегда лотерея, прочные знания необязательны. Таково отношение к традиционной технологии педагогических измерений подавляющего количества претендентов. Только ОИТ смогут помочь изменить такое отношение.

          Впрочем, среди педагогов немало сторонников сохранения и традиционных способов оценивания ЗУН. Традиционный способ действительно часто является оптимальным в смысле малозатратности и объективности. Например, в случаях, когда:

          высшая оценка ЗУН не всегда является для учащихся желанной путевкой в жизнь; например – в российских ПТУ, где большинство выпускников, вне зависимости от оценок, попадают после выпуска в равные производственные условия;

          оценка выставляется формально по двузначной шкале «зачет – незачет», скажем, при сдаче абитуриентами математического факультета университета вступительного экзамена по русскому языку;

          отношение к данной дисциплине в учебном заведении не внимательное, дисциплина считается второстепенной, занятия отменялись, не проводились и пр.

          Далее мы оставим такие случаи за пределами своего рассмотрения.

          В тестологии созданы методы, позволяющие значительно повысить объективность измерения качества и количества ЗУН. Это так непривычно для традиционной педагогики, что многие преподаватели и руководители этому не верят. И правильно делают. Именно такое отношение к новшествам отличает российскую систему образования от зарубежных систем.

          Мужчина, который умно говорит о любви, не очень любит.

          Жорж Санд,

          (aforizm.kaminplus.ru)

          Как правило, руководителей учреждений «мучают» следующие вопросы:

          А вдруг после тестирования окажется, что явные двоечники получили положительные оценки?

          А вдруг пятерок будет слишком мало?

          А вдруг пятерок будет слишком много?

          А вдруг пятерку получит нежеланный «абитуриент», т. е. не обладающий нужными качествами, обладание которыми можно выявить только на устном экзамене?

          А вдруг двойку получит «желанный» абитуриент, посещавший все подготовительные курсы и кружки?

          А вдруг больше половины учеников получат двойки, а преподаватели им ставили в процессе обучения положительные оценки?

          Судя по нашему десятилетнему опыту, российский преподаватель признает технологию тестирования только

          когда он сам протестирует свои знания и получит тройку;

          а российский руководитель учебного заведения признает технологию тестирования только при выполнении трех условий:

          когда он узнает, что преподаватели заведения уже тестировались и получили «разные» оценки;

          когда он получит право управления количеством итоговых пятерок и двоек;

          когда ему «на цифрах» докажут, что тестировать дешевле, чем устраивать экзамены по полной схеме.

          Тестирование является одной из наиболее технологичных форм проведения автоматизированного контроля с управляемыми параметрами качества.

          Российская система образования обретает новое качество. Современные компьютерные средства, корпоративные сети, телекоммуникационные системы позволяют создать объединенный (на уровне организации, региона, страны) ресурс для диагностики качества образования и собирать статистические данные результатов тестирования дистанционными методами. Это – мощный инструмент управления качеством, возможности которого пока не изведаны.

          Разрешающая способность и объективность измерительных процедурЧертеж должен работать!

          В. Ф. Ефименко

          Под «разрешающей способностью» технологии оценки понимают степень возможности адекватного распределения (дифференцирования, разбиения) с ее помощью всех претендентов на критериально-однородные группы в соответствии с их уровнями знаний, личностными качествами, практической подготовкой и пр.

          Обычно подразумевается, что границы между группами учащихся, проведенные процедурой оценки с высокой «разрешающей способностью», легко объяснимы и не вызывают споров. Однако многие из нас сталкивались со случаями логически необъяснимого проведения границ между «пятеркой» и «четверкой» или «четверкой» и «тройкой» не только на устных экзаменах, но и при компьютерных тестированиях.

          Чаще всего, когда технологии тестирования разрабатываются неспециалистами, границы определяются волюнтаристски, «с потолка» (здесь очень просится слово «всегда»).

          Иногда работодатели предъявляют специфические претензии к вузовской оценке качества, полагая, что принимаемый на работу специалист должен, в первую очередь, грамотно проектировать изделия, а не знать назубок определения и математические теоремы. Требования вузовских приемных комиссий также нередко расходятся с тем, что требуется от выпускников в школах. Эта разница в точках зрения на качество исходящей и входящей «продукции» вполне объяснима и должна учитываться при проведении тестирований.

          Разрешающую способность технологии можно и повысить и понизить. Она может быть повышена:

          во-первых, путем перехода к многобалльным шкалам (например, 100-балльные или 1000-балльные);

          во-вторых, путем использования многомерных оценок (например, когда оценивание каждой составляющей образованности специалиста ведется по-отдельности и вычисление интегральной оценки осуществляется с применением методик факторного анализа).

          Разрешающая способность зависит от свойств не только каждого из применяемых тестовых заданий, но и всей совокупности ТЗ в целом.

          Лучшим следует признавать тот массив ТЗ, который:

          во-первых, «равномерно покрывает» весь учебный материал (т. е. в заданиях нашла равное отражение учебная информация из подобных по информационному весу и важности разделов дисциплины);

          во-вторых, вопросы и ответы самих заданий не вызывают нареканий с точки зрения грамотности, взаимного соответствия и т. п.;

          в-третьих, веса оценок, которые учащиеся получают в свою «копилку» в процессе тестирования, объективно соответствуют соотношениям сложности и важности ТЗ;

          в-четвертых, задания нельзя выполнить путем простого логического заключения либо простого узнавания исходя из каких-либо примет.

          Тестовые задания описывают многими характеристиками, например;

          величиной приписываемых им эмпирических параметров:

          весом;

          сложностью;

          трудностью;

          трудоемкостью;

          содержанием:

          информационно-отражающие;

          проблемно-эвристические;

          развивающие.

          шкалой (логикой) оценивания:

          ТЗ с двузначной шкалой оценивания (верно – не верно);

          ТЗ с трехзначной шкалой оценивания (верно – не совсем верно – не верно);

          ТЗ с четырехзначной шкалой оценивания (верно – не полно – не точно – не верно).

          Большей различающей способностью обладают тесты с большим разбросом весов заданий, с многозначной шкалой оценивания, построенные на основе развивающего метода.

          Принципиального повышения уровня объективности оценки знаний (именно – знаний, а не умений) можно достичь лишь при полном устранении человеческого фактора из процедуры оценки и переходе к автоматизированному контролю. Все чаще и чаще педагоги выражают положительное отношение к автоматизации рутинных опросов, ибо понятно, что только компьютеру под силу задать несколько десятков вопросов типа «Назовите дату сражения при Ватерлоо» каждому из сотни учащихся и оценить их ответы за 15 минут. Такие «зачетные» тестирования для нас уже стали привычны.

          Саша, никогда не оправдывайтесь!

          Это вызывает подозрения

          Эммануил Виторган (в одном из сериалов)

          Считается, что процедуры измерения и оценивания умений учащихся, за исключением простых и поддающихся формализации случаев, пока автоматизировать не представляется возможным. Эта область деятельности пока подвластна только человеку, и педагоги здесь правы, отстаивая здесь свой человеческий приоритет перед машиной.

          Систематические ошибки в тестированииНе верю!

          К. С. Станиславский

          Систематическая ошибка называется систематической потому, что она присутствует в результате всегда, систематически, при наступлении определенных условий. Она не является случайной, вызванной неконтролируемыми изменениями внешних параметров. Это – характеристика теста, которую можно контролировать и учитывать.

          Иногда бывает так, что проще определить и учесть величину систематической ошибки, возникающей в конкретных ситуациях, чем исправить тест. Ведь исправленный тест тоже может характеризоваться систематическими ошибками, которые еще не определены.

          Систематическая ошибка теста – это важная его характеристика, связанная, например, с:

          различием валидности теста, измеренной для разных групп претендентов (ошибка наклона) и

          соотношением между групповыми значениями измеренных характеристик по тесту и по критерию (ошибка интерцепта).

          Эти понятия используются для акцентирования того, что заложено в тесте, – в противоположность возможной случайной ошибке. Это в значительной степени связано со спецификой выборки, на ко торой адаптируется тест. Рассмотрим эти понятия более подробно.

          Систематическая ошибка наклона. Различие коэффициента валидности теста для двух групп обследуемых может быть связано с использованием в роли критерия субъективных оценок. Систематическая ошибка на клона теста может возникать и при сравнении выводов об эффективности его применения на представителях разных этнокультурных, социальных и профессиональных групп. Зависит она и от величины их выборки. Необходимо устанавливать различия между коэффициентами валидности для разных выборок. Если такие различия существенны (например, в тесте по химии в русскоязычных и национальных группах), то лучше всего проверить тест еще раз на двух независимых выборках, для того чтобы выяснить, действительно ли эти различия столь существенны. Если отклонения вызваны спецификой данного контингента обследуемых, то следует, просчитав эту систематическую ошибку наклона, учитывать ее при анализе полученных тестовых данных и при принятии педагогами решений об отсеве, распределении учащихся.

          Систематическая ошибка интерцепта означает, что тест систематически завышает или занижает значения критерия для части претендентов. Обнаружить ее можно, когда результаты анализируются по подгруппам обследованного контингента, что особенно необходимо на стадии выверки нового теста. Возможно, что она будет обнаружена даже при одинаковой валидности теста для двух групп. Следствием бывают разные прогностические значения теста для этих групп (например, этнического большинства и меньшинства). Если к этим группам мы начнем применять единый нормальный показатель, одна из них может оказаться в боле


--
«Логопед» на основе открытых источников
Напишите нам
Главная (1 2 3 4 5 6 7 8 9 10)