Настройка шрифта В избранное Написать письмо

Книги по педагогике 2

Морев И. А. Образовательные информационные технологии. Часть 2. Педаго / Страница 7

Главная (1 2 3 4 5 6 7 8 9 10)
х заданий, результат выполнения которых позволяет с заданной степенью точности измерить знания, навыки и умения испытуемого.

          Иногда под понятием «тест» понимают средство педагогического измерения; или стандартизированный метод исследования, предназначенный для количественных и качественных оценок характеристик человека. Путаница понятий (метод – средство – совокупность – система) здесь происходит от разночтений переводной литературы, а также от существования множества сокращений, разночтений и жаргонных выражений в специальной литературе по психологии, компьютерной технике, педагогике.

          Форма приведенного определения педагогического теста предполагает некоторую неопределенность, невозможность точного выражения, поиск пути (Дао) построения идеала. Тестологи говорят, что идеального педагогического теста еще не создано. В этом смысле, в смысле поиска Дао, и следует понимать многие из определений тестологии.

          Почему тестологи не довели определения до чисел? Почему определения тестологов, в то же время, так похожи на определения из новейших математических направлений – теории нечетких множеств и пр.? Наверное, потому, что место тестологии в общей картине наук «лежит» как раз на стыке педагогики и математики. Тестология еще только становится на ноги, и излишне математизированный педагогический язык здесь отпугивает педагогов и смешит математиков.

          Педагогическим тестам, а также результатам их применения (результатам тестирования) приписывают характеристики и свойства. Важнейшие свойства теста – валидность и надежность.

          Надежность теста – степень устойчивости (неизменности) результатов при повторном тестировании той же (такой же) группы претендентов (испытуемых).

          Валидность теста – степень пригодности теста для измерения именно тех качеств претендентов (испытуемых), которые он по замыслу должен измерять.

          Валидности и надежности обычно не придают точных количественных значений, используя при сравнении их, для различных тестов, лишь отношения порядка:

          валидность педагогического теста тем выше, чем более результаты его применения соответствуют решению проблемы ранжирования претендентов по качеству обученности;

          надежность педагогического теста тем выше, чем более устойчивы (одинаковы) результаты его применения при тестировании однородных групп претендентов.

          Специалистами наиболее часто обсуждаются следующие характеристики тестов:

          время измерения, т. е. сколько времени необходимо тестировать группу претендентов для того, чтобы результаты тестирования стали достаточно валидными и надежными;

          привлекательность, т. е. насколько охотно претенденты избирают для своего тестирования тот или иной тест;

          простота создания (очень важная характеристика для условий поточного производства и для обеспечения экономичности производства);

          простота применения (иными словами, насколько велики требования к квалификации специалистов его применяющих или обслуживающих, а также к технике и оборудованию).

          Этим характеристикам так же, как и приведенным выше свойствам, трудно сопоставить точные количественные критерии. Однако их можно сравнить, основываясь на мнениях экспертов, и, соответственно, ранжировать.

          Дифференцирующая способность тестаоценивается с точки зрения соответствия уровня его трудности уровню подготовленности претендентов. Бесполезно давать слабым учащимся трудные задания и знающим студентам легкие задания. В обоих случаях претенденты не будут различаться результатами. Измерение не состоится по причине несоответствия уровня трудности теста уровню подготовленности. Эффективный тест соответствует по трудности заданий уровню подготовленности испытуемых. Если включить в тест задания для измерения на всем диапазоне изменения трудности, то снижается точность измерения на отдельном участке. И наоборот, для точного измерения знаний претендентов одинакового уровня подготовленности, требуется иметь больше заданий соответствующего уровня трудности. Эффективный тест (с минимизированным количеством заданий) не может быть эффективным на всем диапазоне подготовленности претендентов.

          Релевантность тестового комплекса. Редко обсуждается очень важная, на наш взгляд, характеристика тестовых комплексов (а также технологий тестирования и учебных пособий) – степень оптимальности соответствия учебным целям. Такую характеристику можно назвать релевантностью. Понятие «релевантность» по своему смыслу близко понятию «валидность», но охватывает больший смысловой круг, поскольку ранжирование претендентов является лишь малой (безусловно, важной) частью учебного процесса.

          Педагогический тестовый комплекс создается с учетом единства семи систем:

          системы знаний проверяемой учебной дисциплины;

          системы заданий;

          системы предъявления заданий испытуемым (алгоритм, интерфейс);

          сценария тестирования;

          системы методического обеспечения;

          системы технического обеспечения;

          системы статистической обработки результатов испытуемых.

          Информация, которую содержит педагогический тестовый комплекс, меняется со временем: включаются новые задания, меняются статистические веса заданий, меняются сценарии и пр.

          Семь оснований для классификации и двадцать видов компьютерных педагогических тестовТьма дорог туда низводит,

          Ни одной оттуда нет,

          И отшедший не приходит

          Никогда опять на свет.

          Шиллер Иоганн Фридрих,

          (aforizm.kaminplus.ru)

          Педагогический тест можно определить не только относительно группы испытуемых, как это сделано выше. Но и относительно одного испытуемого, взятого в отдельности.

          Педагогические тесты классифицируются в соответствии с выделенными группами.

          Сперва любовь, потом брак.

          Сперва пламя, потом дым.

          Никола Шамфор

          Основание классификации тестов ?1 (по тематике заданий)

          Тест гомогенный – совокупность стандартизованных заданий по одной учебной дисциплине (разделу дисциплины). Система заданий возрастающей трудности для объективной и эффективной оценки уровня подготовленности учащихся по одной из учебных дисциплин. Гомогенные тесты распространены больше других. Они создаются для контроля знаний по одной учебной дисциплине или по одному разделу объемной учебной дисциплины.

          Тест гетерогенный – совокупность стандартизованных заданий, созданная с целью измерения знаний по нескольким учебным дисциплинам (разделам дисциплин), но не требующая единовременного привлечения знаний из различных дисциплин (разделов дисциплин). Гетерогенные тесты используются для комплексной оценки выпускника школ, для отбора абитуриентов при приеме в вузы. Гетерогенный тест состоит из гомогенных. Вычисление результата ведется для каждого гомогенного теста в отдельности с последующей интеграцией в единый рейтинг.

          Тест интегративный – система заданий для общей диагностики подготовленности Выпускника образовательного учреждения. Задания таковы, что для их выполнения требуются синтетические знания по нескольким учебным дисциплинам.

          Тест адаптивный – система заданий с известными свойствами и параметрами. Задания предъявляются, посредством компьютера, в порядке, зависящем от ответа испытуемого на предыдущее задание. С помощью разных стратегий предъявления заданий удается значительно сократить время компьютерных тестирований без потери точности измерений.

          Основание классификации тестов ?2 (по процедуре формирования очереди представления)

          Тест смешанный – совокупность стандартизованных заданий разной сложности, предъявляемых в случайном порядке.

          Тест возрастающей сложности – совокупность стандартизованных заданий, предъявляемых в порядке возрастающей сложности.

          Тест адаптивный – система стандартизованных заданий с известными (заданными) параметрами трудности и дифференцирующей способности. Очередность предъявления каждого задания зависит от успешности выполнения испытуемым предыдущего задания. При верном выполнении предыдущего задания – степень трудности последующего возрастает, и наоборот.

          Основание классификации тестов ?3 (по количеству претендентов)

          Тест индивидуальный – тест, созданный для отдельного испытуемого или отдельного типа испытуемых.

          Тест групповой – тест, который группа испытуемых выполняет совместно (коллективно, сообща).

          Основание классификации тестов ?4 (по форме представления заданий)

          Тест стандартный – тест для применения в наиболее распространенной методике диагностики испытуемых, согласно которой они выполняют одну или схожие совокупности заданий (варианты гомогенного теста) за одинаковый ограниченный период времени и в одинаковых условиях. При этом содержание заданий испытуемым заранее не объявляется, а условия проведения тестирования исключают возможность общения с целью подсказки. Проверка результатов производится вручную или с привлечением средств автоматизации. Результатом диагностики (измерения) для каждого испытуемого является число – рейтинг, позволяющее упорядочить испытуемых в рамках группы в соответствии с выявленным уровнем знаний (умений, свойств, характеристик).

          Тест скрытый – тест созданный для выявления не актуализированных способностей и оценивания, насколько успешно испытуемый мог бы осваивать знания, умения и пр. При скрытом динамическом тестировании преподаватель активно взаимодействует с испытуемым, консультирует его, выдаёт конкретные рекомендации по оптимизации действий.

          Тест игровой – тест предназначенный для выявления ЗУН испытуемых в процессе компьютерной игры. Форма деловой игры применяется на стандартных учебных занятиях в разных видах

          Тест мультимедийный – тест, в котором информация разной природы присутствует равноправно и взаимосвязано – тексты, изображения, звуки, анимация, фрагменты фильмов. В качестве примера тестирующих и обучающих компьютерных игр можно назвать тренажеры для лиц военных профессий – летчиков, танкистов.

          Основание классификации тестов ?5 (по процедуре анализа результатов выполнения)

          Тест бланковый – тест, проводящийся с использованием бланков – стандартизированных бумажных, картонных, пластмассовых листов, на которых нанесена тестовая информация и присутствуют места для занесения информации испытуемого. Информация испытуемого, символизирующая результаты выполнения им тестовых заданий, может наноситься на бланк путем перфорации отверстий, нанесения знаков пишущей ручкой, вырезания фрагментов ножницами. Информация анализируется путем механического сравнивания изменений материала бланка с образцом. Механическое сравнение может производиться путем продевания спиц в технологические отверстия бланка и пр.

          Тест машинный – тест, результаты которого обрабатываются автоматически при помощи компьютерных программ и специальных технических устройств

          Основание классификации тестов ?6 (по процедуре информационной защиты)

          Тест безвариантный – тест, состоящий из фиксированного количества тестовых заданий. Все претенденты получают для выполнения единственный тест.

          Тест многовариантный – совокупность безвариантных тестов (вариантов). Задания с одинаковыми номерами близки между собой во всех вариантах. Вариантов составляется так много, чтобы все соседи каждого участника тестирований имели разные варианты.

          Тест со случайной выборкой – тест, формирующийся из базы тестовых заданий непосредственно перед началом тестирования. Это делается с помощью какой-либо процедуры, генерирующей случайный список номеров заданий.

          Основание классификации тестов ?7 (по цели)

          Тест достижений – тест контроля успешности учебной деятельности испытуемого. Тесты достижений подразделяются по целям и задачам измерения:

          общей результативности;

          степени усвоения знаний;

          общего развития;

          интеллектуальных способностей;

          функциональных возможностей;

          профессиональной пригодности.

          Тест усвоения знаний – тест для определения уровня усвоения учебного материала учащимися по конкретной учебной дисциплине, теме. Тестирование проводится сразу после изучения или спустя некоторый большой промежуток времени (тест остаточных знаний).

          Тест остаточных знаний – тест для определения уровня усвоения учебного материала учащимися по конкретной учебной дисциплине, теме. Тестирование проводится сразу после изучения или спустя некоторый большой промежуток времени (тест остаточных знаний).

          Десять недостатков педагогических тестовЕсли женщина сердится,

          значит она не только не права, но и понимает это.

          (источник – Интернет)

          Тест – это совокупность или система нескольких ТЗ. Характерные встречающиеся недостатки тестовых заданий мы рассмотрим ниже, а здесь сосредоточимся на недостатках именно тестов. Перечислим основные недостатки:

          Неравномерность «покрытия» учебного материала, отсутствие равенства отражения подобных по информационному весу и важности разделов дисциплины;

          Необъективность весов ТЗ, т. е. количеств баллов, которые претенденты получают в свою «копилку» за выполнение каждого задания; вес не отражает среднестатистическую сложность и важность задания;

          Малое количество ТЗ в тесте или одновариантность теста, предполагающие простоту пользования шпаргалкой и тестирование не знаний, а способности запоминать последовательности букв и цифр. Задания для составления варианта теста должны выбираться из БТЗ случайным образом, а БТЗ должна быть столь велика, чтобы меры по обеспечению ее секретности были не нужны (более 300 заданий для этого достаточно);

          Отсутствие ориентации заданий на учет присущих человеку свойств и качеств (настроение, усталость, темперамент, возраст, пол, национальность), т. е. отсутствие в тесте элементов гуманистичности или толерантности;

          Если в тестирующую программу не заложены методики случайного выбора порядка предъявления ТЗ, и тест создавался одним человеком, номера правильных вариантов иногда можно достаточно надежно определить с помощью калькулятора и простых алгоритмов, созданных кибернетиками еще в середине прошлого века. Человеку только кажется, что он распределил варианты в случайном порядке;

          Присутствие связи между последовательными заданиями, когда для верного выполнения одного задания учащийся пользуется или вынужден пользоваться информацией из других заданий. Такая, заложенная автором, связь легко прослеживается в бланковом варианте теста, но исчезает в компьютерном;

          Вопросы и ответы однообразны, нудны. Это отрицательно воздействует на учащихся, вызывают так называемый эффект «ровной дороги» – известный в практике водителей-дальнобойщиков эффект засыпания за рулем, отвлечение и рассеяние внимания;

          Инструкция для участников дана только в одном ТЗ в предположении, что участник выполняет их последовательно. Это приводит к неразберихе и ошибкам при отклонениях;

          Отсутствие элементов адаптивности;

          Отсутствие элементов психофизической разгрузки.

          Часто эти недостатки взаимосвязаны, это легко увидеть при некотором опыте составления заданий. Есть и другие недостатки тестов, выявляемые уже в процессе математической обработки результатов тестирования. Недостатки, связанные с валидностью и надежностью теста, обсуждены в специальном разделе настоящего пособия.

          Валидность и надежность тестаДумать – самая трудная из работ.

          Видимо, поэтому так мало людей ею занимаются

          Генри Форд,

          (aforizm.kaminplus.ru)

          Основными свойствами и параметрами качества тестов считаются валидность и надёжность. Эти свойства, в отличие от многих других, обсуждаемых в педагогике, выражаются числами.

          Валидность отражает пригодность теста для измерения того, что он по замыслу должен измерять. Измерение валидности теста может включать ряд процедур, главной из которых является валидация.

          Валидация производится путем математического сравнения результатов тестирования с успешностью выполнения соответствующей практической деятельности испытуемыми. При этом учитывается шкалированное мнение руководителей группы прошедших тестирование испытуемых об их конкретных исполнительских качествах.

          Валидность считается достаточно высокой, если коэффициент корреляции будет более 0,6. При значении коэффициента корреляции 0,45 – 0,65 валидность считается вполне удовлетворительной.

          Считается, что стопроцентно валидных тестов нет. Различают следующие виды валидности:

          содержательную – степень соответствия теста программам обучения и образовательным стандартам;

          критериальную – степень соответствия результатов тестирования внешнему, не относящемуся к тесту критерию;

          квалиметрическую – степень связи результатов математической обработки результатов тестирования и их интерпретации;

          прогностическую – степень полноты достижения цели тестирования;

          и др. Наибольший «вес» здесь приходится на содержательную валидность. В Приложениях содержится обзор и более полное изложение разных видов валидности и методов ее обеспечения.

          Надёжность теста. Контролируемые и неконтролируемые факторы влиянияЧтобы произвести впечатление на окружающих,

          дети стремятся выглядеть старше,

          мужчины – умнее,

          женщины – моложе и глупее.

          (неизвестный автор)

          Надежность теста определяется как устойчивость результатов при повторном тестировании на той же (такой же) выборке испытуемых. Считается, что при коэффициенте корреляции результатов повторного тестирования более 0,75 уровень надежности теста приемлем.

          Надёжность теста проверяется относительно

          временных изменений;

          выбора конкретных заданий;

          конкретных индикаторов;

          роли индивидуальности персонала при накоплении и обработке данных;

          аспектов процедуры тестирования.

          Вычисление ошибки измерений – вероятных пределов колебаний измеряемой величины – основано на понятии надёжности.

          Ни один тест не является абсолютно надёжным. Дисперсия ошибки (мера отклонения результатов сеансов тестирования) отражает случайные колебания, вызываемые неконтролируемыми факторами:

          тренинг и дообучение претендентов в течение периода измерения надежности;

          изменениями погоды;

          случайными отвлекающими моментами;

          обучаемостью претендентов в течение сеанса и в перерывах между сеансами;

          мотивированностью претендентов и ее изменениями;

          адаптацией, привыканием претендентов к форме проведения тестирования;

          изменениями состояния претендентов.

          Первый из этих факторов, наиболее влияющий на результаты и «путающий все карты», – обычное явление, создаваемое родителями, руководством учебных заведений, добросовестными педагогами, не желающими, чтобы их воспитанники предстали перед экспериментаторами в худшем виде.

          Стандартизация и компьютеризация тестов уравнивают условия тестирования и способствуют повышению надежности.

          Стандартный набор данных о тесте, предназначенном для широкого употребления, обязательно должен включать сведения о мере его надёжности.

          Надёжность обычно вычисляется с помощью коэффициента корреляции произведения моментов К. Пирсона (его можно найти в статистических справочниках).

          При измерении надежности следует обращать внимание на критерий целесообразности, помнить об от ношении «затраты – польза». Следует контролировать, в каком интервале времени измерялась надежность, произошли ли за этот период какие-либо события, способные повлиять на результаты.

          Существуют различные типы надёжности и подходы к их вычислению. Педагогу, апробирующему тест на своих классах, важнее всего владеть техникой измерения:

          ретестовой надёжности;

          надёжности эквивалентных форм.

          Надежность не обязательно предполагает высокую валидность. Среди тестологов распространено поверье, что на практике всегда выполняется следующее выражение: валидность < надежность. Иными словами, значение валидности теста не может превышать значение его надежности, какие бы процедуры их определения не использовались. Трудно этому поверить, пока не проведено математическое сравнение процедур вычисления этих значений.

          Три типа надежности теста и три способа ее определенияТестовые методы

          – это стандартизированные инструментальные технологии оценки знаний,

          которые обязательно базируются на массовых статистических исследованиях

          и оказываются тем более объективными,

          чем шире охват этих статистических исследований

          А. Г. Шмелев

          Надежность и валидность тестов могут быть значительно повышены, если их качественные и содержательные характеристики будут связаны со статистическими данными, полученными при обработке больших массивов результатов тестирования испытуемых.

          Разработано несколько способов определения и повышения надежности теста.

          Метод повторного тестирования (метод ретеста). Двукратное или многократное использование одного и того же теста в одной группе испытуемых. Достоинство метода заключается в простоте его использования, ясности основных посылок, простоте сравнений и расчетов. К недостаткам относят неопределенность выбора временного интервала между опросами. Этот интервал может колебаться от нескольких минут до нескольких дней, месяцев и даже лет. Естественно, что при этом по-разному проявляются факторы: запоминание или, наоборот, забывание, влияние опыта, полученного в первом опросе на второй, влияние общения испытуемых между собой после первого опроса.

          Метод параллельного тестирования (метод эквивалентных форм). Одной и той же группе испытуемых дается вначале одна форма теста, и после перерыва – другая. Затем вычисляется величина коэффициента корреляции верности выполнения заданий, которая и принимается за значение коэффициента надежности. Если между предъявлением обоих форм имеется значительный временной интервал, то коэффициент надежности называют по-другому: коэффициентом эквивалентности или коэффициентом стабильности.

          Метод раздельного коррелирования. В основе лежит допущение о параллельности не только отдельных форм, но и частей внутри одной формы теста. Для получения величины коэффициента надежности сравниваются результаты выполнения частей теста. В зависимости от способа деления теста могут меняться значения коэффициента. Часто применяемая процедура разделения теста – это сведение в одну часть результатов респондентов в нечетных номерах высказываний и в другую – четных. Суммирование баллов в этих половинах теста дает два вектора, коэффициент корреляции между которыми и служит коэффициентом надежности теста. Его называют еще коэффициентом внутренней состоятельности теста. Этот метод имеет преимущество перед другими, поскольку позволяет оценить надежность при однократном тестировании.

          Чаще всего рассматривают три типа надежности:

          Ретестовая надежность. Измеряется при повторном проведении того же самого теста на том же контингенте и в тех же условиях. Ее аналогом является проверочная контрольная работа, проводимая, когда результаты первой контрольной кажутся сомнительными. Ретестовая надёжность обычно под считывается с использованием коэффициента корреляции моментов Пирсона. Чтобы повысить ретестовую надёжность, надо отбирать из первоначального, апробируемого варианта теста те задания, на которые испытуемые дают устойчивые ответы. Чем выше ретестовая надёжность, тем менее чувствительны результаты к влиянию неконтролируемых факторов.

          Надежность эквивалентных форм. Измерение надёжности эквивалентных форм проще измерения ретестовой надёжности. Это вычисление корреляции результатов выполнения двух форм одного и того же теста, считающимися равноценными. Их называют такжепараллельными, взаимозаменяемыми, сопоставимыми, подобными. Здесь коэффициент надёжности одновременно отражает временную стабильность теста и согласованность результатов сеансов по двум формам. Только если варианты сеансов следуют один за другим, можно точно измерить надёжность эквивалентных форм теста. Для снижения влияния эффекта самообучения претендентов, меняют способ предъявления эквивалентных форм сходных заданий. На эквивалентность также проверяют:

          инструкции;

          персонал;

          временные рамки работы;

          формат бланков.

          Надежность теста на скорость. Для проверки надёжности тестов на скорость считаются наиболее эффективными метод ретеста и метод эквивалентных форм. Есть приёмы разделения полного времени выполнения теста на четыре части с регистрацией результатов отдельно для каждой четверти.

          При составлении текста параграфа использованы материалы:

          1. Кречетников К. Г. Задания в тестовой форме и методика их разработки: Учебно-методическое пособие – Владивосток: Изд-во Дальневост. ун-та, 2002. – 36 с.

          2. Михайлычев Е. А. Дидактическая тестология. - М.: Народное образование, 2001. – 432 с.

          Развитие понятия валидности и надежности тестаЯ полагаю, что мы пришли после других для того,

          чтобы делать лучше их, чтобы не впадать в их ошибки,

          в их заблуждения и суеверия.

          П. Я. Чаадаев

          Свойства валидности и надежности обычно приписывают тесту, набору тестовых заданий. Это правильно, пока используется одна-единственная процедура тестирования. Но таких процедур уже много: есть адаптивные процедуры, есть тестирующие деловые игры. Они отличаются от стандартов пятилетней давности и непрерывно развиваются. Это направление деятельности развивается и нельзя забывать об этом, строя понятийный аппарат тестологии.

          Сама процедура тестирования, то есть способ представления и организации теста, сильно и по-разному влияет на степень решения образовательных задач, на измеряемые величины валидности и надежности теста. Поэтому целесообразно приписывать свойства валидности и надежности не тесту как таковому, а всей применяемой тестовой технологии, включающей и тест, и интерфейс программного комплекса, и процедуру публикации результатов и др. В этом случае результаты измерения валидности и надежности станут более объективными.

          Кроме этого, в связи с развитием технологий, следует ввести в рассмотрение новые свойства, характеризующие степень соответствия образовательным задачам не теста, как такового, а всей технологии тестирования.

          Часто считают, что тестирование предназначено для выполнения единственно значимой функции: измерения уровня (количества, качества) ЗУН учащегося (группы учащихся). В связи с этим, самой важной характеристикой процедуры тестирования считают надежность. Иными словами, считается, что тестирующий комплекс хорош тогда, когда результат тестирования при повторении не меняется.

          Требование воспроизводимости (понимается как синоним надежности) обусловлено отнюдь не образовательными потребностями или нормами, а спецификой мышления (образования) создателей тестирующих комплексов – технарей, часто подсознательно отождествляющих человека с каким-либо устройством.

          На самом же деле, образовательные потребности и дидактические принципы направлены как раз на то, чтобы результаты тестирований не воспроизводились, а повышались. С этой точки зрения, процедура тестирования и тестирующий комплекс хороши лишь тогда, когда они выполняют главную образовательную задачу: побуждают учащегося к самостоятельному повышению уровня качества ЗУН и соответствующей самопроверке. Рецепт известен: процедура тестирования должна включать не только механизм измерения, но и элементы состязательности и привлекательности (деловой игры, сюрпризности и пр.). А каждое прохождение этой процедуры должно побуждать у учащегося стремление к самосовершенствованию, т. е. к самообразованию, и приводить к повышению результата измерения. И мера этого роста – коэффициент релевантности (соответствия образовательным целям и принципам) – одна из важнейших характеристик процедуры.

          Эта точка зрения вызывает немало споров, в том числе и в среде профессиональных педагогов, иногда считающих, что в таком серьезном деле, как образовательный процесс, нет места игре. Есть авторы, серьезно утверждающие, что в образовании нет места соревнованию, человек должен самосовершенствоваться сам, без оглядки на коллег (мы не называем авторов). Якобы, это – высшая степень развития учащегося. Существование таких споров удивительно – ведь классики педагогики и психологии в один голос высказываются за важность и необходимость применения именно игровых элементов в учении (см. напр.: Хуторской В. А. Современная дидактика, Спб: Питер, 2001.), а значит, и сюрпризности и соревновательности.

          Проводимые нами с 1994 года эксперименты среди школьников (2-11 классы), абитуриентов, студентов (1-5 курс), учителей, преподавателей вузов, показали следующее:

          Использование в процедуре тестирования элементов игры, таких как полуинтерактивный диалог учащегося с компьютерными персонажами, вместо сухой демонстрации табличек с вопросами и списками ответов, побуждает желание учащихся к неоднократному тестированию;

          Включение в процедуру тестирования элементов состязательности (напр., публикация результатов, символический приз) с параллельным позволением неоднократного повтора попыток приводит к росту популярности тестирования и росту уровня результатов участников;

          Учителя и преподаватели относятся к тестированию своих ЗУН, как правило, настороженно. Они опасаются процедуры регистрации, они опасаются прикасаться к клавиатуре и мыши. Раскрепощение (чудесное преображение) наступает, когда оказывается, что «тестируются знания не самого участника, а руководимого им компьютерного персонажа». При такой постановке педагоги часами готовы сидеть за компьютером, обсуждая с коллегами нюансы возникающих на экране эпизодов, стремясь «заработать» как можно больше баллов;

          Допущение сценарием игры компьютерной «шпаргалки» приводит к интенсификации запоминания учебной информации. Информация получаемая «обходным» путем, оказывается, лучше запоминается. Учащиеся (и педагоги) с удовольствием делятся друг с другом почерпнутыми знаниями, помогают друг другу их найти, раскрепощаются при коллективном общении на учебные темы.

          Повторим: описанные явления происходят как среди детей, так и среди взрослых. Более того, в игровом тестировании с интересом участвуют даже присутствующие родители и школьные «двоечники': они с интересом обсуждают с одноклассниками и учителем перипетии своих компьютерных диалогов в рамках учебной дисциплины, обращаются к учебнику.

          Последнее из перечисленных выше наблюдений, вероятно, может привести в будущем к необычной технологии образовательного процесса, когда учащиеся самостоятельно, группой и в одиночку, «добывают» учебную и дополнительную информацию, становящуюся коллективным достоянием.

          Проведенные нами исследования попыток тестирований школьников показали, что, в случае снятия количественных ограничений на набор тестовых заданий, «кривая роста» результатов участников в среднем близка экспоненте. При этом вычисляемый экспоненциальный параметр (коэффициент) устойчив и, по-видимому, может использоваться в качестве характеристик как участника, так и коллектива участников тестирований. На форму кривой «роста» должны оказывать влияние такие характеристики учащегося как скорость адаптации к ситуации, способность быстро усваивать учебный материал (обучаемость), психическое состояние во время сеанса тестирования, осведомленность. Важным показателем, который можно извлечь из результатов повторных тестирований, вместе с суммарным количеством набираемых участником баллов, является разность количеств баллов, набранных при повторных тестированиях. В зависимости от времени, прошедшего между попытками, эту разность можно интерпретировать и как показатель привыкания, и как показатель обучаемости (в перерыве участник мог по своей инициативе общаться с коллегами, читать учебник и пр.). Отклонения этого показателя в положительную (отрицательную) сторону вполне могут характеризовать учащегося с положительной (отрицательной) стороны.

          На основании сказанного, целесообразно обсудить введение в научный обиход такой численной характеристики процедуры тестирования (мы ее здесь называем «релевантность»), которая прямо связана с валидностью, но характеризует не степень устойчивости результата измерения, а степень его роста при повторных измерениях.

          Уточним специально для физиков: описанная характеристика имеет интересный аналог в статистической физике – производство энтропии.

          Информационный графУ меня сложная и красивая фигура:

          Технология создания электронного учебного пособия и педагогического теста – это основанный на достижениях тестологии сложный и трудоемкий процесс. Дополнительные сложности здесь создают своеобразные педагогические традиции. Цитируем:

          Методологической основой разработки и использования тестовых средств В. С. Идиатулин считает «представления когнитивной психологии о пропозициональной репрезенции усвоенной информации в человеческой памяти, о существовании ее наименьших значимых единиц, которые могут быть выражены отдельным утверждением, имеющим самостоятельное смысловое содержание, описывающее объекты и отношения. При этом выделение достаточно однородных элементов знания становится предпосылкой измерения его совокупности». (Кречетников К. Г. Задания в тестовой форме и методика их разработки: Учебно-методическое пособие – Владивосток: Изд-во Дальневост. ун-та, 2002.– 36с).

          К сожалению, многие педагоги любит излагать свои мысли именно так.

          Опытные составители сначала всегда «конвертируют» материал дисциплины, т. е. переводят его в последовательность кратких утверждений – текстовых блоков. При этом «выливается вода» и, в качестве блоков, остаются:

          положения и понятия;

          определения и формулировки;

          факты;

          классификации;

          законы и закономерности;

          выводы и следствия;

          тезаурус;

          важные иллюстративные материалы.

          Информация блоков должна быть достаточной для контроля ЗУН. «Рядом на полях» отмечаются внутренние и внешние связи блоков между собой и со смежными дисциплинами. Блоки связаны между собой в общей структуре материала дисциплины, включены один в другой, иерархически соподчинены. Отношения блоков могут быть представлены в виде ориентированного графа. В вершинах графа располагаются блоки, а их взаимосвязи обозначаются направленными ребрами. Такой граф, оснащенный некоторыми дополнительными атрибутами, иногда называют моделью знаний. В таком виде проще:

          искать и устанавливать новые связи;

          производить внедрение нового материала;

          находить и устранять дублирование материала;

          производить деление информации на крупные модули – подграфы;

          проектировать интеллектуальные электронные системы.

          Граф знаний удобно использовать при составлении тестовых заданий и гипертекста.

          Два типа ошибок измерений в тестологии и их источникиАрхитекторы прячут свои ошибки под плющом,

          врачи под землей, а хозяйки под майонезом.

          Бернард Шоу

          Так же, как и в любой технической области, тестологические измерения сопровождаются ошибками. Эти ошибки могут быть

          систематическими, возникающими, например, по вине создателей тестовых заданий, тестирующей программы, учебного пособия, и

          случайными, возникающими из-за того, что участники пытаются «схитрить», выполнить часть заданий методом «случайного тыка».

          Систематические ошибки возникают из-за:

          разницы толкования определений в ТЗ и в учебнике;

          неясностей в интерфейсе;

          логических неувязок в текстах ТЗ;

          неправильных объяснений, данных сопровождающим тестирования оператором, и др.

          На величину ошибок влияет человеческий фактор. Наиболее вероятные величины случайных ошибок определения рейтинга, если их отложить на графике, образуют небольшой интервал значений или, говоря языком статистики, – доверительный интервал. Величина этого интервала зависит от того, в какую область рейтингов попал исследуемый рейтинг. Проще говоря, – если участник правильно выполнил много заданий, вероятность того, что он нажимал клавиши «на авось», мала. И наоборот, эта вероятность велика для участников, результаты которых попали в область «наиболее вероятного» результата.

          В общем случае, величину доверительного интервала можно представить функцией двух переменных:

          расстояния от исследуемого результата до «идеального» и

          расстояния от исследуемого результата до центра области «наиболее вероятного» результата.

          Очевидно, с изменением этих переменных, величина области «доверительного интервала» будет изменяться в определенных пределах. Эти пределы заключены между величиной области «наиболее вероятного» результата и нулем.

          Знание величин доверительных интервалов поможет на практике при разборе экзаменационных апелляций, а также очень важно для правильного применения методов факторного анализа.

          Детей нужно учить врать.

          Г. Остер

          Педагогическое тестовое заданиеВоображение рисует, разум сравнивает, вкус отбирает, талант исполняет.

          Гастон де Левис,

          (aforizm.kaminplus.ru)

          Не каждое задание, созданное для дальнейшего включения в тест, можно назвать тестовым или педагогическим. ТЗ, составляющие педагогический тест, называют педагогическими.

          Ключевое задание – нацелено на проверку знания конкретных блоков учебной дисциплины. В случае адаптивного тестирования, тест должен содержать не менее 3-х ключевых заданий разных уровней сложности для каждого блока.

          Педагогическое задание – средство интеллектуального развития, образования и обучения, способствующее активизации учения, повышению качества знаний, а также повышению эффективности педагогического труда (В. С. Аванесов).

          Конкретное педагогическое задание является результатом труда по отбору (редактированию, изменению) совокупности тестовых заданий для педагогического теста. До того, как задания будут апробированы и включены в педагогический тест, во избежание путаницы, их называют заданиями в тестовой форме.

          Задание в тестовой форме – это единица учебно-контрольного материала. Будучи включенным в педагогический тест, задание в тестовой форме становится педагогическим тестовым заданием.

          Тестовое задание – самостоятельный элемент теста (т. е. совокупности тестовых заданий), состоящий из восьми компонент:

          инструкции;

          постановки задачи (собственно, задания);

          демонстрационного материала;

          эталонов результата выполнения задания, среди которых есть, как минимум, один абсолютно верный;

          специально организованного места или области для ввода результата выполнения;

          эмпирических параметров – веса, трудности задания;

          номер и указания принадлежности задания к конкретной теме учебной дисциплины;

          шкалы оценивания результата выполнения.

          Приказом МОРФ ? 1122 от 17 апреля 2000 г. рекомендовано использовать для оценки знаний методом тестирования сертифицированные педагогические тестовые материалы. Целью сертификации материалов является повышение качества образования за счет совершенствования педагогических тестовых материалов. Предметом и содержанием сертификации является установление степени соответствия характеристик педагогических тестовых материалов требованиям к их качеству, утверждённым Координационным советом МОРФ. Экспертиза педагогических тестовых материалов предусматривает оценку качества их содержания, правильности форм заданий и статистических характеристик.

          В инструкции ТЗ пишут, что испытуемый должен сделать, каким образом, где и как делать пометки и записи. Иногда, для экономии времени и ресурсов, дается только одна инструкция для группы однотипных заданий, которая помещается в начале группы. Инструкцию принято снабжать примерами.

          Текст постановки задачи обычно состоит из вопроса, на который следует ответить, или утверждения, которое следует подтвердить, исправить или опровергнуть.

          Демонстрационный материал задания должен быть таким, чтобы для знакомства с ним претендент затратил не более 3-5 минут.

          Эталоны выполнения ТЗ определяются явно (перечнем) либо неявно (указанием возможностей). Эталоны соответствуют выбранной автором качественной либо количественной шкале оценивания – верные, неверные, неполные, неточные и пр. Чаще, для простоты, авторы выбирают двузначную шкалу: верно – неверно. Эталонов выполнения должно быть не меньше двух. Оптимальным считается количество – 4-6. Эталоны не демонстрируются в случае ТЗ открытой формы, где претендент самостоятельно вводит знаки в специально выделенных местах. Обычно считается, что ТЗ закрытой формы должно содержать хотя бы один правильный эталон выполнения. Их может быть и несколько.

          Наличие определенного места для ответов обязательно как при бланковом, так и при компьютерном тестировании:

          В ТЗ закрытой формы – это код (цифры или буквы) ответа из числа демонстрируемых. В ТЗ открытой формы ответ пишется вместо прочерка;

          В ТЗ на установлении соответствия ответы или пишутся в специально отведенной для этого строке ниже текста задания, или фиксируется с помощью


--
«Логопед» на основе открытых источников
Напишите нам
Главная (1 2 3 4 5 6 7 8 9 10)