Причиной систематической ошибки интерцепта может быть не только содержание знаний и умений, заложенных в заданиях теста, но и семантика теста – степень привычности или сложности формулировки его заданий. Для различий в национальных группах могут быть существенны этнопсихологические факторы, особенно в тестах, связанных с гуманитарными ценностями и знаниями.
Могут сказаться и демографические, биографические различия учащихся. Так, для выпускников городских школ, в которых тестирование применялось в старших классах, сама форма предъявления теста при вступительных экзаменах в вуз привычна. Это делает тестирование для них операцией знакомой, рутинной. В то же время для абитуриентов из отдаленного села, которые тесты ранее не видели никогда, уже сама ситуация тестирования связана со стрессовыми дополнительными факторами.
Возможна и другая, семантическая ситуация: нечёт ко сформулированное задание во вступительном тесте. Не исключено, что в худшем положении окажутся как раз лучшие выпускники престижных школ, привыкшие к более строгим и точным формулировкам задания. Подумав, что за «простотой» в задании скрываются ловушки, они могут начать искать в нём его «второй смысл», особенно в ситуации отбора при высоком конкурсе. Потратив на выполнение задания много времени и сил, не найдя явного подвоха, эти хорошо подготовленные выпускники в ситуации, когда задания построены с выборочным вари антом ответа (а так строится большинство стандартизированных тестов), могут остановиться не на более очевидном и правильном варианте, а на том, что «похитрее», – и ошибиться. А троечники думать не будут – выберут более очевидный вариант и получат свой балл.
При составлении текста параграфа использованы материалы: Михайлычев Е. А. Дидактическая тестология. - М.: Народное образование, 2001. – 432 с.
Рейтинг и оценка. Их определение и назначениеНикогда не выходи в море с двумя хронометрами:
всегда бери один или три.
(пословица)
Вычисляемый по итогам проведения тестирования рейтинг учащегося является числом, по величине которого пытаются судить о целом спектре достоинств и недостатков учащегося.
Рейтинг, выраженный всего одним числом (будем называть его, вслед за математиками, скалярным рейтингом) можно назвать объективным, но не всеобъемлющим показателем. Подобно тому, как победный результат многоборца не говорит о том, что он умеет лучше других – плавать или бегать.
Кардинально изменить ситуацию можно лишь перейдя к рейтинговой модели, где рейтинг состоит из нескольких показателей, является векторным.
Давайте попытаемся это сделать. Все задания теста разобьем на группы однотипных, с точки зрения преподавателя, заданий. Например, это могут быть задачи на применение стандартной формулы или вопросы, касающиеся ограниченной литературной темы. Такие группы назовем субтестами.
Весь тест, таким образом, будет состоять из нескольких равноправных субтестов. Количество заданий субтеста Zs, предъявляемых учащемуся, должно быть настолько большим, чтобы законы случайности накладывали малое влияние на результат.
Проецируя глобус, мы пропускаем одну его полусферу
сквозь другую и соединяем их проекции...
Карл Левитин
Пусть результат выполнения заданий субтеста будет однозначно характеризовать только одно из качеств учащегося, например, умение решать арифметические задачи на проценты. Или, например, умение быстро ориентироваться в массивах исторических или химических данных.
Значение результата выполнения субтеста S можно выразить, например, в виде отношения количества верно выполненных заданий к количеству предъявленных:
. (1)
Выполнение заданий часто оценивают по-разному. Например, выполнение одного задания или группы заданий можно оценивать по такой шкале:
Задание (задания) выполнено верно (+1 балл);
Задание (задания) выполнено неверно (-1 балл);
Решение (задания) содержит погрешность (от –1 до +1 баллов).
Не обсуждая достоинства разных шкал, примем за интервал возможных значений rs отрезок от –1 до +1.
Полный результат прохождения теста выразится строкой чисел или вектором рейтинга
(2)
где n – количество субтестов в тесте,. Поскольку абсолютные значения rs, согласно (1), могут принимать значения от нуля до единицы, вектор указывает только точки внутри куба или части куба в n-мерном пространстве результатов субтестов. Назовем это пространство пространством результатов. Точку, которую указал вектор рейтинга, будем называть результатом, а куб – область нахождения всех возможных результатов – кубом результатов.
Можно попытаться представить, как плотно заполнен куб результатов. Пусть субтестов будет всего два. Тогда куб результатов будет двумерным и превратится во внутреннюю часть единичного квадрата.
В зависимости от выбранного теста, выбранной группы участников и их мотивации, разные области квадрата будут заполнены с разной плотностью. Например, совсем мало результатов окажется вблизи «идеального» результата; очень много результатов может сконцентрироваться в области «наиболее вероятного» результата, который можно получить методом «случайного тыка», и т.д.
Теперь, после рассмотрения этого наглядного примера, можно по-другому взглянуть и на задачу процедуры тестирования. Она состоит в том, чтобы, после проведения тестирования, точки-результаты учащихся оказались сгруппированными, распределенными внутри нескольких (немногих) малых областей внутри куба результатов. Учащихся, чьи результаты попали в одну такую область, будут считаться близкими по уровню (качеству) знаний и получат одинаковые оценки.
Оси координат в рассматриваемом пространстве результатов лучше представить перпендикулярными друг другу, а соответствующие им единицы измерений – неравными. Хотя, некоторые авторы считают, что более наглядно будет, если представить оси координат наклонными, а неравенство единиц измерений выразить через величины синусов и косинусов углов взаимного наклона осей координат. Принятие одного из этих представлений – дело вкуса.
Когда математик слышит о четырехмерных вещах,
его охватывает священный трепет.
Альберт Эйнштейн
Короче говоря, результаты прохождения разных субтестов rs могут (и должны) иметь разные относительные веса ps , отражающие как относительную важность данного субтеста среди остальных, так и сложность представленных там заданий. Веса субтестов применяют, например, когда вычисляют скалярный рейтинг путем простого суммирования результатов прохождения субтестов по формуле:
. (3)
Если автор теста не считает нужным различать важность и сложность заданий, он принимает все веса равными единице. Чаще всего, авторы приписывают заданиям веса необъективно, волюнтаристски, опираясь только на свой опыт и здравый смысл.
В пространстве результатов можно определить т.н. метрику, или формализованное расстояние между результатами разных участников тестирования:
. (4)
В отличие от случая работы со скалярным рейтингом (3), где расстояние между результатами участников является простой разностью рейтингов, в n-мерном случае расстояния можно определять по-разному, в соответствии с целями тестирования.
Нетрудно понять, что при подстановке в (4) вместо одного из векторов нулевого вектора, мы получим величину (длину) другого вектора. Смысл этой длины может быть разным.
Длина вектора рейтинга не имеет такой же роли, как величина скалярного рейтинга. В векторном случае значительно важнее знать не длину вектора рейтинга учащегося, а расстояние от него до вектора «идеального» рейтинга Идеальный рейтинг – это рейтинг «идеального» учащегося, который выполнил абсолютно верно все задания теста.
Чем меньше расстояние от вектора рейтинга учащегося до вектора «идеального» рейтинга, и чем больше расстояние от вектора рейтинга учащегося до области «наиболее вероятного» результата, тем более высоко следует оценить знания учащегося.
Поэтому для того, чтобы распределить учащихся на группы в соответствии с их выявленными качествами, необходимо, в первую очередь, вычислить расстояния между всеми вычисленными векторными рейтингами.
Спорим, что тринадцать одинаковых шаров,
как их не расположи – не могут касаться еще одного шара!
Исаак Ньютон
После вычисления расстояний между рейтингами всех участников, можно попытаться сгруппировать результаты участников так, чтобы расстояния между результатами каждой группы были меньше, чем расстояния до результатов других групп. Это делается с помощью методов факторного анализа. С помощью факторного анализа можно подобрать метрику (4) и величины весов ps так, чтобы группы результатов были более отчетливы, более разделены между собой. Поскольку такое разделение можно сделать строго математически, без привлечения дополнительной эмпирической информации, результаты его можно признать объективными.
Методам факторного анализа посвящено немало книг. Долгое время они не получали практического развития в связи с низким уровнем применявшейся вычислительной техники. Сейчас, в начале XXI века, ситуация изменилась, и применение методов факторного анализа в тестологии превращается в обыденность.
Системы кумулятивного индексированияВсе мои работы это игры, серьезные игры.
Мауриц Корнелис Эсхер
Системы кумулятивного индексирования качества и количества приобретенных ЗУН (системы ИКИ – Индивидуального Кумулятивного Индексирования) тесным образом связаны с рейтинговыми системами тестирования. Они являются действенным инструментом:
повышения уровня качества ЗУН;
активизации учебного процесса;
контроля качества.
Как правило, разнообразные системы оценки ЗУН носят констатирующий характер, не влияют прямо на качество и редко доставляют удовольствие ученикам и педагогам.
Кумулятивные системы способны положительно влиять как на количество, так и на уровень качества образования. Идея кумулятивных систем проста:
каждое действие (учебное) учащегося имеет назначенную цену в очках;
получаемые каждым учащимся за свои действия очки суммируются (аккумулируются) в течение определенного учебного периода;
неуспехи учащихся никак не отмечаются (при неверных ответах, пропусках занятий и пр. суммы очков не снижаются, остаются теми же);
суммы очков зависят от даты сдачи контрольных работ (опоздал со сдачей контрольной работы – получи понижение прибавляемого количества очков);
итоговые семестровые оценки выставляются педагогом на основании сравнения сумм очков (кумулянтов) в учебной группе. Скажем, первые 10% учащихся, имеющих наивысшие кумулянты, получают «пятерки», затем те, кто набрал от 70% до 90%, получают «четверки» и т.д.;
учебные «долги», а также самостоятельно изученный дополнительный учебный материал также можно «сдавать», увеличивая свои кумулянты.
В 70-80-х годах прошлого века на ряде образовательных конференций обсуждалась информация об использовании в вузах СССР систем ИКИ. Такие системы интенсивно развивались в 50-60-х годах за рубежом. В СССР среди первопроходцев были преподаватели ФЕН НГУ – факультета Естественных наук Новосибирского государственного университета.
В 1982-1992 гг., при поддержке коллег из Ленинграда и Новосибирска, аналогичные эксперименты проводились преподавателями ДВГУ на химическом, математическом, физическом, историческом факультетах, а также в специализированных классах нескольких государственных и негосударственных средних школ Владивостока. При этом система ИКИ в ДВГУ отличалась от своих предшественниц.
Компьютерные технологии тогда только появились в СССР, были труднодоступны, и о том, чтобы применить компьютер на занятиях, приходилось только мечтать.
Системы ИКИ обладают рядом положительных и отрицательных черт. Соотношение их количества подвержено динамике во времени в пользу положительных.
Перечислим отрицательные черты системы ИКИ, проявляющиеся на этапе внедрения:
В группах, где введена система ИКИ в учебных занятиях по какой-либо дисциплине, учащиеся начинают посвящать данной дисциплине значительное количество сил и времени, в ущерб другим дисциплинам. Это порождает отрицательные эмоции среди коллег-преподавателей;
Система ИКИ противоречат традиционной пятибалльной системе (нарушается график отчетности и пр.), что вызывает негативное отношение к введению кумулятивной системы со стороны руководителей учебного процесса;
Система ИКИ резко дифференцирует успехи учащихся, их суммы очков часто различаются в десятки раз. Это порождает нервозность родителей учащихся, т. к. они привыкли к традиционной пятибалльной шкале, «нивелирующей» различия в активности учащихся;
После внедрения системы ИКИ возникает необходимость дополнительной работы с учащимися, не воспринявшими систему на начальном этапе и значительно отставшими (можно с ними работать и традиционно, однако через некоторое время они все равно захотят быть «как все» и воспринимают систему как должное);
Система ИКИ может вызвать «неспортивные» явления среди учащихся (исчезновение у «передовиков» тетрадей, обуви), т.к. не всем желающим иметь пятерку в четверти выгодно присутствие на занятиях лидеров.
Перечислим положительные качества кумулятивных систем:
у учащихся значительно возрастает интерес к дополнительной литературе и обучению опережающим образом;
велика активность учащихся на консультациях и коллоквиумах;
публикация кумулянтов приводит к возникновению духа состязательности, появляется стремления учащихся к овладению дополнительными знаниями;
исчезают текущие «долги», а если появляются, то сдаются оперативно;
на занятиях исчезает «негатив», связанный с боязнью учащихся неправильно решить задачу, не выполнить задание, получить двойку – учащиеся всегда имеют право и возможность улучшить свои результаты.
В целом, положительные качества систем ИКИ с лихвой перекрывает отрицательные. Последние же исчезают по прошествии периода адаптации.
По-видимому, наилучшим «ареалом» для внедрения кумулятивных систем является среда дистанционного обучения. Именно здесь знание оценивается компьютером и, следовательно, есть все предпосылки для отработки количественных критериев.
Текущие значения кумулянтов учащихся разных учебных заведений, будучи вычисленными по единообразной системе и собранными в компьютерной БД, вполне могут служить основой для проведения работ по сравнительному мониторингу качества образования.
Определение скалярного рейтингаУчение Ньютона-Лейбница всесильно,
потому что оно верно.
Белоконь В. И.
Результаты тестирований используются для вычисления рейтинга учащихся. В основном используют два вида рейтинга: текущий и итоговый.
Текущий рейтинг – метод учета достижений студентов в процессе выполнения заранее определенной совокупности заданий, по каждой учебной дисциплине. Текущий рейтинг призван обеспечить ритмичную учебную работу. Задания различной трудности заранее оценены зачетными баллами. Выполнение каждого задания увеличивает суммы баллов учащихся. Всегда известно – сколько баллов набрано каждым учащимся. Используется два варианта текущего рейтинга:
определяется минимально необходимая сумма зачетных баллов для получения зачета без сдачи экзамена или какого-либо дополнительного собеседования;
определяется количество баллов, необходимое для оценки по пятибалльной шкале.
Итоговый рейтинг – метод определения ранга (места) учащегося в группе по результатам обучения по одной или нескольким учебным дисциплинам.
Если бы все учащиеся имели разные тестовые баллы, то ранжирование не представляло бы труда: чем выше балл, тем выше и занимаемое место. Но обычно один и тот же тестовый балл получают несколько человек, и тогда возникает вопрос – как распределить всех испытуемых на все имеющиеся места?
Если рейтинг вычисляется в малой учебной группе, то количество мест равно количеству учащихся группы. После тестирования всем присуждают соответствующие места. Имеющим одинаковые баллы, даются и одинаковые или, связанные ранги, с последующим про пуском стольких мест, сколько имеется человек с одинаковым баллом. Этот позволяет равномерно и справедливо распределить испытуемых на все места рейтинга. Например, в группе 13 человек, то результаты ранжируются так:
Ранжирование
Баллы
Частоты
Cum. F
Ранг
1
1
13
13
2
1
12
12
3
1
11
11
4
2
10
9-10
5
3
8
6-8
6
2
5
4-5
7
1
3
3
8
1
2
2
9
1
1
1
Иногда проводится рейтинг в группе с очень большим количеством учащихся. Тогда нет особого смысла расставлять их на все имеющиеся места. Если количество учащихся больше ста, то лучше применять так называемый процентный рейтинг, где в качестве нормы берётся 100 процентных мест. Суть процентного рейтинга состоит в распределении всех учащихся именно на эти сто процентных мест. Это удобно при сравнении массивов данных, полученных, напри мер, по различным регионам в процессе аттестации выпускников.
Технология определения процентного рейтинга отражена в приведенной ниже таблице. Там использованы обозначения:
1 столбец – баллы испытуемых;
2 столбец – частоты;
3 столбец – кумулированные частоты (cum.f);
4 столбец – усредненные частоты, получают сложением значения cum.f в строке со значением cum.f ниже этой строки и делением на 2. Например; 1+0=1, ?=0,5; 1+1=2, 2/2=1; 3+1=4, 4/2=2;
5 столбец – процентные доли, получают делением усредненных f (4 столбец) на N. В данном примере N = 120
6 столбец – процент успешности испытуемых, в зависимо сти от полученного тестового балла (процентный рейтинг);
7 столбец – процентный ранг, который получают вычитанием 100 – R, с последующим округлением до целого ранга; данный ранг присваивается испытуемым, имеющим соответствующий тестовый балл
Определение процентного рейтинга
Балл Х
Hacr.f
Cum. F
Уср. F
Доли
% рейт.
Место
20
1
120
119,5
0,996
99,6
1
19
2
119
118
0,983
98.3
2
18
3
117
115,5
0,962
96.2
4
17
6
114
111
0,925
92.5
8
16
7
108
104.5
0,871
87.1
13
15
6
101
98
0.817
81.7
18
14
8
95
91
0.758
75.8
24
13
10
87
82
0.683
68.3
32
12
12
77
71
0.592
59,2
41
11
13
65
58,5
0.487
48.7
51
10
10
52
47
0.392
39.2
61
9
9
42
37,5
0.312
31.2
69
8
9
33
28,5
0.237
23.7
76
7
8
24
20
0.167
16.7
83
6
4
16
14
0.117
11.7
88
5
3
12
10,5
0.087
8.7
91
4
6
9
6
0.050
5.0
95
3
2
3
2
0.017
1.7
98
2
0
1
1
0.008
0.8
99
1
1
1
0,5
0,004
0,4
100
Наполнение таблиц и описание технологии в данном параграфе соответствуют (в сокр. и адапт. виде) тексту четвертого раздела книги: Аванесов В.С «Композиция тестовых заданий». Учебная книга. 3 изд., доп. М.. Центр тестирования, 2002 г. –240 с.
Глава 6. Основные сведения из области тестологииЧем мельче становятся мысли и чувства,
тем вычурнее и красивее подбираются для них названия:.
Писарев Дмитрий Иванович
(aforizm.kaminplus.ru)
Тестология – (от англ. – test – проба, испытание) – наука об измерении психофизиологических и личностных характеристик, а также объема и качества ЗУН.
Тестологи изучают и создают способы, методы, технологии измерений психофизиологических и личностных характеристик, а также объема и качества ЗУН. Тестологи создают тестовые комплексы, где реализованы достижения тестологии в виде совокупности технологий, рекомендаций, тестов, автоматизированных систем, устройств.
Тестовые комплексы применяют для аттестации ЗУН учащихся и абитуриентов, для измерения объема и качества навыков и умений при приеме людей на работу и пр.
Теорию тестовых педагогических измерений называют кратко IRT – Item Response Theory.
В IRT не ставятся и не решаются фундаментальные проблемы валидности и надёжности теста: тест там заранее считается надежным и валидным. Вычисления IRT сводятся к получению оценок параметров трудности задания и к измерению уровня ЗУН испытуемых. К достижениям IRT относят использование одной шкалы в измерениях значений параметров испытуемых и заданий теста. Это позволяет соотносить уровни ЗУН испытуемых с мерой трудности тестовых заданий. На этой возможности совместных оценок параметров испытуемых и заданий основан применяемый большинством тестологов математический аппарат.
В России пока не сложилось представление о педагогической тестологии как выделенной науке или научной области:
Нет должности тестолога в реестрах отделов кадров;
Нет вакансий для академиков – тестологов в Академии Наук и пр.;
Педагоги не воспринимают тестологию, так как в ней слишком много математики;
Математики, физики, инженеры не воспринимают тестологию из-за присущих ей традиционных для педагогики «туманных сентенций';
Программисты считают, что тестология – пройденный этап, и там уже нечего делать творчески мыслящей личности.
В настоящем пособии предпринята одна из попыток исправления этого положения путем популяризации: здесь основные положения и достижения тестологии изложены на языке понятном педагогу без ужасающих математических выкладок и терминологии. Иногда Вы встретите здесь иностранное слово, но лишь там, где тестологи не применяют русскоязычного аналога.
Тридцать три принципа конструирования теста, создания тестовых заданий и выбора технологии тестированияНикто не несет наказания за мысли.
(положение Римского права)
Педагогическое тестирование имеет довольно хорошо разработанную принципиальную базу. Она очень хорошо описана в научной и научно-методической литературе. Но, к сожалению, нам не удалось встретить ни одного учебного пособия, где бы была систематически изложена вся совокупность принципов, поэтому здесь мы ее публикуем впервые.
Валидность теста. Результаты тестирования группы претендентов должны соответствовать объективным характеристикам, данным претендентам их руководителями, коллегами, преподавателями. Это важнейший принцип, которому должны быть подчинены усилия составителя теста. В соответствии с множеством указанных характеристик, принято различать виды валидности.
Надежность теста и технологии тестирования. Результаты тестирований подобных групп претендентов с помощью одного теста должны быть одинаковыми (подобными) и не зависеть от времени. Это второй по важности принцип, которому должны быть подчинены усилия составителя теста. Чаще всего, надежность можно охарактеризовать лишь умозрительно, поскольку:
повторное тестирование одной группы претендентов по одному тесту приводит к росту результатов за счет эффектов памяти, самообучаемости и пр.;
очень трудно найти подобные группы претендентов и доказать, что это так;
на результаты оказывает влияние предыстория групп претендентов, технические сложности исключения предварительного общения между ними и пр.
Надежность – принцип, пришедший в педагогику из техники. Это принцип, предъявляемый к инструменту технического измерения. Но педагогика – иная область с иными закономерностями, и поэтому принцип надежности часто обоснованно подвергается критике (см. релевантность теста).
Релевантность теста и технологии тестирования. Выберем два одинаковых по валидности теста (или, точнее, две технологии тестирования). С точки зрения дидактики, науки подчиняющей всё цели росту качества обучения, если повторное тестирование с использованием первого теста (первой технологии) приводит к более выраженному улучшению результатов, чем с использованием второго теста (второй технологии), то первый тест (первая технология) – лучше. Пусть результаты в обоих случаях улучшаются по-разному за счет разной выраженности эффекта самообучаемости претендентов, привлекательности процедуры и др. С точки зрения принципа надежности, оба теста (обе технологии) – не надежны. Чем лучше тест (технология тестирования) с точки зрения дидактики, тем он (она) хуже, исходя из принципа надежности. Поэтому, в педагогике, в отличие от техники, лучше говорить не о надежности теста (технологии), а о релевантности теста (технологии), т. е. степени соответствия принципам дидактики. Релевантность теста (технологии тестирования) – мера его способности к инициации процессов самообразования. Релевантность можно выразить численно, взяв отношения прироста усредненных результатов при повторном тестировании с использованием разных тестов (технологий).
Научная достоверность. В тест включаются только те элементы знания и связи между ними, которые являются объективно истинными. Соответственно, спорные точки зрения, вполне нормальные в науке, не включают в тест.
Обобщенность. Тема тестирования не должны быть излишне обобщенной.
Значимость. Значимое ТЗ отражает структурный информационный элемент дисциплины либо связь между структурными элементами, без которых знания становятся неполными, с пробелами.
Соответствие современному знанию. В ТЗ включаются только современные элементы знания. Исключением могут быть ТЗ, составленные специально для ведения учебных занятий процесса в рамках концепции «диалога культур».
Соответствие источникам знания. Все ТЗ должны включать адрес источника, который может быть включен и в демонстрируемую часть текста ТЗ в случаях, когда имеются разночтения в рекомендованной литературе.
Репрезентативность. Репрезентативный тест содержит совокупность ТЗ, отражающую все структурные элементы содержания дисциплины и их связи. Репрезентативная (представительная) БТЗ содержит совокупность ТЗ, достаточную для ведения вариативного контроля по любой из имеющихся в структуре дисциплины учебных тем. Репрезентативная БТЗ может включать ТЗ по дополнительным учебным материалам для проведения олимпиад и пр.
Вариативность. Содержание теста может и должно варьироваться по мере:
изменения содержания дисциплины;
изменения и появления новых научных знаний;
изменения цели тестирования;
изменения направленности на особенные выборки испытуемых.
Для достижения достаточной вариативности теста в рамках учебной дисциплины необходимо, чтобы БТЗ содержала тестовые задания соответствующие разным учебным пособиям и разным способам изложения учебного материала.
Сложность. Для каждого ТЗ в процессе контроля определяют усредненную, выраженную числом, сложность. Сложность задания ? j определяют двумя способами. Например, так: qj = 1-pj, где pj – относительное количество претендентов, выполнивших данное задание. Либо, как «логит», равный ln(qj/pj). Претендент, правильно выполняющий сложные задания, с боль шой вероятностью правильно выполнит и легкие. Сложность теста соответствует содержанию обучения и поддерживает высокий уровень мотивации претендентов. Не следует пренебрегать заданиями, которые выполняются большим количеством претендентов (от 90 до 100%). Иногда может показаться, что задание лишнее, поскольку слишком лёгкое. Надо проконтролировать выборку – вошли ли в нее слабо подготовленные претенденты. Они могут сознательно не допускаться к тестированиям руководством учреждения под благовидным предлогом. Аналогичная, но обратная ситуация может случиться и с наиболее сложными заданиями. Прежде, чем отвергать задания, которые никто не выполнил, необходимо проверять, проходили ли тестирование наиболее подготовленные учащиеся. Они могли в это время отсутствовать по причине участия в олимпиаде или в работе физико-математического кружка.
Трудоемкость. Для каждого ТЗ в процессе контроля определяют усредненную, выраженную числом, трудоемкость. Она характеризует количество элементарных операций (и мыслительных, и физических, и расчетных), которые необходимо выполнить в процессе работы над заданием. Отношение трудоемкостей заданий можно определить через усредненное отношение времен их выполнения. Относительное количество труда, который тестируемые затратят (в среднем) на выполнение каждого тестового задания, должно быть пропорционально относительной значимости отраженного в задании элемента курса.
Взвешенность. Для придания результату тестирования большей объективности, все ТЗ после сеанса «взвешивают». Затем общий результат претендента вычисляют как сумму весов выполненных заданий. Иногда за вес ТЗ принимают его относительную сложность, т. е. долю претендентов, не сумевших его выполнить. Иногда вес приписывают заданиям волюнтаристски, опираюсь на преподавательский опыт. Оба подхода к вычислению весов не лишены недостатков. Например, при первом подходе возможен вариант, когда наивысший вес приобретет задание, которое показалось всем претендентам слишком легким, недостойным сиюминутного внимания, которое они, в погоне за рейтинговыми очками, оставили «на потом» и не успели к нему вернуться.
Системность. Задания в БТЗ связываются между собой общей структурой знаний. Такая связь может быть определена умозрительно либо методами факторного анализа.
Комплексность и сбалансированность. Следует гармонично сочетать в тесте задания на проверку знаний теоретического материала (понятия, законы, закономерности, гипотезы, факты, структурные компоненты теории), методов научной и практической деятельности, умений решать типовые задания. Отношение количеств ТЗ перечисленных типов должно соответствовать отношениям значимостей и объемов рекомендованной учебной информации.
Соответствие содержания и формы. Педагогический тест характеризуют как результат единения содержания заданий с наиболее подходящей формой.
Разрешающая способность теста. Сложность ТЗ не может быть только легкой (все выполнили), средней (половина группы выполнила) или трудной (никто не выполнил):
Выраженные численно сложности совокупности ТЗ в тесте должны равномерно заполнять тот интервал, который соответствует обученности претендентов;
Трудоемкость ТЗ должна быть такой, чтобы во временные рамки теста могли уложиться все претенденты, способные их выполнить.
От сбалансированности ТЗ по сложности и трудоемкости зависит способность теста дифференцировать претендентов в соответствии с их свойствами. Эта способность теста, выраженная числом, называется разрешающей способностью.
Дидактическая направленность теста и технологии тестирования. Одних претендентов трудные ТЗ могут подтолкнуть к учебе, других – оттолкнуть от нее. Скучные, однообразные, излишне формальные совокупности ТЗ вредоносны в учении. ТЗ, в своей совокупности, должны включать элементы:
Привлекательности (юмористическая окраска условий и пр.);
Сюрпризности (разные и неожиданные словарные обороты, редко встречаемые в учебнике, обращение в условии заданий непосредственно к исполнителю с использованием данных регистрации и пр.);
Практической направленности (примеры из жизни, возможность применить результаты выполненного задания непосредственно в деятельности и пр.).
Сюрпризные задания включаются в тест для противодействия возникновению в процессе работы претендентов эффекта «ровной дороги». Трудоемкость и сложность ТЗ, в совокупности, должна быть такой, что хотя бы пару-тройку заданий должны правильно выполнить абсолютно все претенденты. Это заставит слабых претендентов поверить в свои силы, увлечет, инициирует соревнование, даст основания для похвалы. Тест (технология тестирования), в соответствии с принципами дидактики, должен (должна) не только дифференцировать и измерять свойства претендентов, но и обладать свойством инициирования их самообучения и проявлять их стремление к повышению качества знаний, умений, навыков.
Оптимальность теста. В тест, как правило, включаются только те ТЗ, содержание которых не дублируется и равномерно покрывает, в своей совокупности, учебный материал. Часть ТЗ исключают из теста, когда известно, что:
претенденты не знают соответствующей части материала или, наоборот, знают ее гарантированно хорошо;
претенденты не имеют навыков работы и поэтому не справятся с трудоемкими заданиями.
Тест считают более оптимальным, если с его помощью можно измерить такие же характеристики и провести дифференцирование претендентов за меньшее время.
Темперированность сложности. Последовательность заданий теста такова, что каждое последующее ТЗ, по мнению составителя, труднее предыдущего. Этот принцип, применяющийся в бланковом тестировании, нередко подвергается критике, поскольку действует лишь «в среднем». Если претенденты учились у разных преподавателей и по разным учебникам, предсказать ряд возрастающей трудности для большинства из них – большая проблема. А «усредненный» ряд не приносит желаемого эффекта повышения разрешающей способности. Поэтому в компьютерном тестировании чаще применяют иной принцип: претендентам позволяют самостоятельно выбирать порядок выполнения заданий. (см. «Свобода выбора ТЗ»)
Темперированность трудоемкости. Последовательность заданий теста такова, что каждое последующее ТЗ, по мнению составителя, более трудоемко, чем предыдущее. Применяется, когда оптимизируют тесты для измерения работоспособности, внимательности и подобных характеристик претендентов.
Свобода выбора. Принцип составления теста, пришедший на смену принципу «возрастающей сложности». Принцип свободы выбора в технологиях компьютерного тестирования проявляется в том, что претендентов не ограничивают в выборе последовательности выполнения заданий. Практика показывает, что при этом претенденты сами ищут и интуитивно находят для себя индивидуальный ряд ТЗ возрастающей сложности и трудоемкости.
Вариативность теста. Каждое обращение к БТЗ приводит к генерации нового варианта теста в соответствии с алгоритмом, ключ которого может формироваться в соответствии с регистрационными данными, датой и временем сеанса. Алгоритм, ориентирующийся при составлении варианта теста на личность претендента, может исключать возможность повторения ТЗ при повторном тестировании.
Адаптивность теста. Содержание теста адаптируют для придания тесту большей разрешающей способности в известной группе претендентов. Для адаптации теста к свойствам группы претендентов и каждого претендента в отдельности, необходимо наличие в БТЗ такого набора классифицированных заданий, что возможно построение вариантов теста нацеленных на измерение конкретных свойств:
Тест дробят на субтесты, а сеанс – на ступени;
Перед построением субтеста очередной ступени проводится анализ результатов выполнения предыдущих субтестов;
При анализе конкретизируются результаты произведенных измерений свойств претендентов, затем, если объективная дифференциация группы претендентов еще не возможна, составляется очередной субтест;
Действия повторяются на очередной ступени сеанса до тех пор, пока не будет достигнута требуемая степень дифференциации.
Полнота. В банке ТЗ должны быть отражены абсолютно все структурные элементы содержания дисциплины и связи между ними.
Целесообразность. Содержание теста зависит от цели тестирования. Например, возможны ситуации:
Если нужно отобрать самых подготовлен ных учащихся на олимпиаду, то задания должны быть сложные, ибо только с помощью таких заданий можно отобрать лучших;
Если претенденты учились по разным учебникам, то формулировки отобранных для теста ТЗ должны соответствовать каждому.
Верифицируемость результата. Тест может содержать равномерно распределенные среди всех заданий такие ТЗ, которые характерны разной формой и равным содержанием. Установив корреляцию результатов их выполнения можно установить, как претендент выполнял задания – вдумчиво либо методом «случайного тыка».
Сбалансированность. Количество разделов БТЗ и включенных в них заданий должны коррелировать с содержанием, относительными объемами информации разделов и формой дисциплины.
Стилистическая непротиворечивость. ТЗ формулируются в привычной для претендентов форме, с использованием словарных оборотов из рекомендованных им учебных пособий. Исключения – сюрпризные задания, включаемые в тест для противодействия возникновению в поведении претендентов эффекта «ровной дороги».
Логическая и семантическая непротиворечивость. Среди логических требований – определенность предмета измерения. Близость дисциплин затрудняет определение предметной принадлежности ТЗ. Чем меньше пересечений дисциплин и их разделов, тем чище, определеннее выражается в тесте их содержание. Логически ТЗ можно ассоциировать с утверждением. В случае правильной подстановки (Форма ТЗ ?2) утверждение превращается в истинное, в случае неправильной – в ложное. Привычные для педагога вопросы не являются утверждениями, а потому содержание вопроса не может определяться как истинное или ложное. Вопросы применяются в ТЗ закрытой формы. Следует избегать несоответствий рода, числа, склонения в формулировках заданий и вариантов их выполнения. В ТЗ нет места двусмысленностям, например:
на вопрос «Где находится Москва?» можно ответить «на берегу Москвы-реки», «в Европе» и пр.;
на вопрос «Кто первым полетел в космос?» можно ответить «советский человек», «Юрий Гагарин», «Лайка» и пр.;
подлежащее в именительном падеже легко путается с прямым дополнением в винительном падеже, например: «мать любит дочь» (пример В. С. Аванесова);
на вопрос «Когда началась Великая отечественная война?» можно ответить; «в июне», «в XX веке» и пр.;
в заданиях открытой формы следует указывать род, падеж и пр. ожидаемых слов. Например, на вопрос «Как называется судно, колющее лед?» можно ответить и «ледокол», и «ледоколом';
среди заданий на установление соответствия или на установление последовательности встречаются варианты, трактуемые в разных источниках по-разному (причины и последовательности исторических событий).
Дистрактивность. Варианты выполнения заданий (Форма ТЗ ?1) формулируются так, чтобы правильные варианты были похожи на неправильные, и наоборот. Формулировки правильных вариантов должны точно соответствовать материалу учебного курса. Следует избегать характерной ошибки начинающих авторов, когда формулировки верных вариантов, в большинстве, длиннее формулировок неверных вариантов. Следование принципу дистрактивности значительно повышает валидность теста.
Избыточность. Часто случается так, что в группу претендентов попадают учащиеся, учившихся по разным программам и учебникам. Тест составляется один для всех и поэтому, чтобы «сравнять шансы», предпринимаются следующие шаги:
в тест включаются ТЗ, составленные в формулировках разных учебников, примерно в равных пропорциях;
эквивалентные по информации задания группируются, и участники информируются, что необходимо и достаточно правильно выполнить только одно задание группы;
количество ТЗ в тесте превышает норму, которую мог бы выполнить усредненный участник сеанса.
Иногда завышают количество заданий теста выше нормы и из других соображений:
чтобы увеличить шанс слабо успевающим учащимся хоть в чем-то проявить себя и получить похвалу;
чтобы исключить при проведении образовательной олимпиады накладки связанной с тем, что несколько участников выполнят правильно все предложенные ТЗ.
Деловая игра. Технологии тестирования конструируются исходя из рекомендаций дидактики, утверждающей, что наилучших успехов можно достичь при игровом обучении. Игровая технология позволяет сделать процесс тестирования привлекательным и достичь высоких успехов за счет:
естественной индивидуализации;
возникновения соревнования;
коллективности;
публичности.
Ниже мы подробнее опишем смысл и практику применения перечисленных принципов.
Педагогический тестЭволюция теста от создания до применения на практике проходит через три этапа.
На первом этапе создается задание в тестовой форме.
На втором – создаются тестовые задания.
На третьем этапе моделируются тесты.
В. С. Аванесов
Ключевым понятием тестологии является понятие «педагогический тест».
Педагогический тест –
система заданий такая, что результат их выполнения группой претендентов позволяет достаточно надежно ранжировать их (присвоить им порядковые номера) по качеству обученности, количеству имеющихся знаний;
система стандартизированны