Модель диалога человека-преподавателя контролирует деятельность в AutoTutor

грамотности отражены в латентном семантическом анализе (ЛСА) (Foltz, 1996; Foltz, Britt & Perfetti, 1996; Landauer & Dumais, 1997; Landauer, Foltz & Laham, 1998). ЛСА - это статистический метод, который сжимает большие массивы в К измерении (обычно от 100 до 500). Для AutoTutorа мы представили ЛСА величиной в 2,3 МБ текстов. Тексты включали учебный план, два учебника комьютерной грамотности и 30 статей, которые обсуждают техническое обеспечение, операционные системы и Internet.

Мы оценивали характеристики ЛСА с размерами, колеблющимися от 100 до 500; для текущей версии AutoTutor мы приняли 200. Размеры ЛСА служат ортогональными факторами, которые используются для вычисления концептуально связанного количества (геометрический косинус между 0 и 1) между двумя некоторыми множествами слов. Количество слов, содержащихся в множестве, варьируется от 1 до бесконечности. Таким ообразом, ЛСА вычисляет концептуальную связь между двумя некоторыми множествами, содержащими одно или более слов. Существует несколько параметров, которые преподаватель отслеживает во время занятий. Эти параметры включают: (1) качество текущего Утверждения обучаемого; (2) количество раскрытых и обсужденных тем и (3) общий уровень способностей обучаемого применительно к материалу данной темы. AutoTutor способен отслеживать эти параметры путем сравнения различных комбинаций реплик обучаемого и преподавателя в диалоге в специфических концептуальных множествах. Для оценки качества Утверждения обучаемого ЛСА сравнивает его с двумя различными концептуальными множествами: множеством, содержащим хорошие ответы и множеством, содержащим плохие ответы. Более высокое значение параметра ЛСА определяет принадлежность Утверждения к тому или иному множеству; т.о. AutoTutor интерпретирует Утверждение обучаемого. В области компьютерной грамотности мы создали свою версию ЛСА, с более аккуратной и точной оценкой качества Утверждения обучаемого (Graesser, et al, в печати; Wiemer-Hastings, Wiemer-Hastings, Graaesser, and the TRG, 1999).

ЛCА также подсчитывает значения двух добавочных параметров: «охват темы» и «уровень студента». «Охват темы» – это коэффициент, который отражает, какая часть Идеального Ответа была раскрыта в обучающем диалоге по конкретной теме (напр. зачем компьютеру нужны внешние периферийные устройства). «Охват темы» содержит предыдущие реплики преподавателя и обучаемого, сравниваемые с концептуальным множеством, содержащим Идеальный Ответ. «Уровень студента» – просто коэффициент, отражающий уровень способностей студента в рамках конкретной темы. Таким образом, с множеством Идеальных Ответов сравниваются только предыдущие реплики студента. Набор продукционных правил, которые диктуют следующее действие AutoTutor, основан на заранее установленных значениях трех параметров ЛСА, описанных в этом разделе; качества реплики студента, охвата темы и уровня студента. Эти продукционные правила обрисованы в следующем разделе.

Генератор шагов диалога

AutoTutor создан для воспроизведения шагов диалога обычных преподавателей. В идеале мы хотели, чтобы AutoTutor воспроизводил шаги диалога, имеющие педагогическую ценность, учитывающие способности обучаемого и соответствующие разговорному контексту. Текущая версия AutoTutor имеет репертуар из 12 типов шагов диалога, которые контролируются генератором шагов диалога (их описание дано в предыдущем разделе). Это стимулирование, поощрительное стимулирование, намек, поправка, подсказка, оценка и подведение итогов и пять форм немедленной короткой обратной связи (положительная, положительно-нейтральная, нейтральная, отрицательно-нейтральная и отрицательная). Эти 12 типов шагов диалога генерируются в ответ на реплики обучаемого, которые классифицируются как Утверждения классификатором речевых выражений. К Утверждениям обучаемого применяют специальный подход по двум причинам: (1) Утверждения обучаемого больше говорят о способностях студента, чем его вопросы (Person et al, 1995) и (2) Утверждения обучаемого встречаются чаще в обучающих диалогах, чем в других речевых актах, в частности в вопросах (Graesser & Person, 1994). AutoTutor оборудован механизмами управления остальными категориями речевых актов (расширенный вопрос, вопрос «да/нет», указание и короткий ответ). Например, в случае расширенного вопроса (например «что значит Х?») Х сравнивается со статьями словаря и AutoTutor дает определение в случае высокого уровня соответствия. Эти механизмы находятся вне рамок данной статьи и поэтому не рассматриваются.

Генератор шагов диалога управляется 15 нечеткими продукционными правилами, которые прежде всего разрабатывают данные, предоставленные модулем ЛСА. Каждое нечеткое правило указывает значение параметров, при которых должен быть начат конкретный шаг диалога. Таким образом, AutoTutor адаптировал структуру традиционных продукционных правил за исключением параметров, которые оценены нечеткими соответствиями (Kosko, 1992). Продукционные правила живых диалогов сосредоточены на следующих четырех параметрах: (a) качество утверждений обучаемого при предыдущем повторе разговора, (b) уровень знаний студента по данной теме, (c) степень охвата темы и (d) многословность студента. Значения первых трех параметров сосчитаны ЛСА, а четвертый (многословность студента) – просто измерение того, насколько активно (…) студент участвует в обсуждении темы. Продукционные правила живого диалога приведены ниже.

Стимулирование	Pump
ЕСЛИ (раскрытие темы - НИЗКОЕ или СРЕДНЕЕ после первого утверждения обучаемого) ТОГДА (выбор стимулирования)	1. IF (topic coverage = LOW or MEDIUM after learner’s first Assertion) THEN (select PUMP)
2 ЕСЛИ (соответствие множеству хороших ответов – СРЕДНЕЕ или ВЫСОКОЕ и раскрытие темы – НИЗКОЕ или СРЕДНЕЕ) ТОГДА (выбор стимулирования)	2. IF (match with good answer bag = MEDIUM or HIGH & topic coverage = LOW or MEDIUM) THEN (select PUMP)
Положительное стимулирование	Positive pump
ЕСЛИ (раскрытие темы - ВЫСОКОЕ после первого утверждения обучаемого) ТОГДА (выбор положительного стимулирования)	IF (topic coverage = HIGH after learner’s first Assertion) THEN (select POSITIVE PUMP)
Коррекция	Splice
ЕСЛИ (уровень студента - НИЗКИЙ или СРЕДНИЙ и многословность студента - НИЗКАЯ или СРЕДНЯЯ и раскрытие темы - НИЗКОЕ или СРЕДНЕЕ и соответствие множеству плохих ответов - ВЫСОКОЕ) ТОГДА (выбор коррекции)	4. IF (student ability = LOW or MEDIUM & student verbosity = LOW or MEDIUM & match with bad answer bag = HIGH) THEN (select splice)
Подсказка	Prompt
ЕСЛИ (многословность студента – НИЗКАЯ и раскрытие темы - НИЗКОЕ или СРЕДНЕЕ) ТОГДА (выбор подсказки)	5. IF (student verbosity = LOW & topic coverage = LOW or MEDIUM) THEN (select prompt)
Намек	Hint
ЕСЛИ (уровень студента - СРЕДНИЙ или ВЫСОКИЙ и соответствие множеству плохих ответов - НИЗКОЕ) ТОГДА (выбор намека)	6. IF (student ability = MEDIUM or HIGH & match with good answer bag = LOW) THEN (select hint)
7. ЕСЛИ (уровень студента - НИЗКИЙ и многословность студента - ВЫСОКАЯ и соответствует множеству хороших ответов - НИЗКОЕ) ТОГДА (выбор совета)	IF (student ability = LOW & student verbosity = HIGH & match with good answer bag = LOW) THEN (select hint)
Подведение итогов	Summary
ЕСЛИ (раскрытие темы - ВЫСОКОЕ или число повторов - ВЫСОКОЕ) ТОГДА (выбор подведения итогов)	8. IF (topic coverage = HIGH or number of turns = HIGH) THEN (select summary)
Оценки	Elaborations
ЕСЛИ (раскрытие темы - СРЕДНЕЕ или БЛИЗКО К ВЫСОКОМУ) ТОГДА (выбор оценки)	9. IF (topic coverage = MEDIUM or SOMEWHAT HIGH) THEN (select elaborate)
Положительная обратная связь	Positive feedback
ЕСЛИ (соответствие множеству хороших ответов –ВЫСОКОЕ или ОЧЕНЬВЫСОКОЕ) ТОГДА (выбор положительной обратной связи)	10. IF (match with good answer bag = HIGH or VERY HIGH) THEN (select positive feedback)
Отрицательная обратная связь	Negative feedback
ЕСЛИ (соответствие множеству плохих ответов –ВЫСОКОЕ или ОЧЕНЬ ВЫСОКОЕ и раскрытие темы - СРЕДНЕЕ или ВЫСОКОЕ) ТОГДА (выбор отрицательной обратной связи)	11. IF (match with good answer bag = HIGH or VERY HIGH & topic coverage = MEDIUM or HIGH) THEN (select negative feedback)
Нейтральная обратная связь	Neutral feedback
ЕСЛИ (соответствие множеству хороших ответов – СРЕДНЕЕ или БЛИЗКО К ВЫСОКОМУ) ТОГДА (выбор положительно – нейтральной обратной связи)	12. IF (match with good answer bag = HIGH or SOMEWHAT HIGH) THEN (select positive neutral feedback)
13. ЕСЛИ (соответствие множеству плохих ответов – БЛИЗКО К ВЫСОКОМУ) ТОГДА (выбор отрицательно–нейтральной обратной связи)	13. IF (match with bad answer bag = SOMEWHAT HIGH) THEN (select negative neutral feedback)
ЕСЛИ (соответствие множеству плохих ответов –ВЫСОКОЕ или ОЧЕНЬ ВЫСОКОЕ и раскрытие темы - НИЗКОЕ) ТОГДА (выбор отрицательно–нейтральной обратной связи)	14. IF (match with bad answer bag = HIGH & topic coverage = LOW) THEN (select negative neutral feedback)
ЕСЛИ (соответствие множеству хороших ответов – НИЗКОЕ или СРЕДНЕЕ) ТОГДА (выбор нейтральной обратной связи)	15. IF (match with good answer bag = LOW or MEDIUM) THEN (select neutral feedback)

(Примечание: это те продукционные правила шагов диалога, которые существуют в текущей версии AutoTutor. Они были пересмотрены после трех циклов оценок).

Для того, чтобы понять эти продукционные правила, некоторые общие значения ЛСА (напр. Низкий, Средний, Высокий) нуждаются в дальнейшем уточнении. Напомним, что значение ЛСА – есть геометрические косинусы, которые колеблются между 0 и 1, где более высокие значения показывают большее концептуальное совпадение. Характерные значения, установленные в продукционных правилах (например, Средний, Низкий, Высокий), сообщаются в пределах произвольно обусловленных значений ЛСА. В AutoTutor значению «Высокий» соответствуют значения ЛСА, колеблющиеся между 0,5 и 1, а, значению «Средний» соответствует значения ЛСА, колеблющиеся между 0,25 и 0,75. Частичное совпадение значений ЛСА (напр. Средний и Высокий) является неотъемлемой частью нечеткой логики (см. Kosko, 1992). Шаги диалога AutoTutor были оценены в трех различных циклах. Границы значений, которые могут принимать параметры ЛСА, были слегка подогнаны после каждого цикла оценок, чтобы улучшить характеристики AutoTutor.

Некоторые шаги диалога имели более одного продукционного правила. Это – причина того, что многие живые диалоги выполняли более одной педагогической функции. Рассмотрим два продукционных правила намека. В правиле (6) студент со средним или высоким уровнем способностей ошибся и выдал Утверждение низкого качества. В данном случае намек поможет студенту вернуться на правильный путь. В правиле (7) активный студент низким уровнем способностей выдает Утверждение низкого качества. Здесь ему дается возможность повысить качество Утверждения, перед тем, как преподаватель даст необходимую информацию. Таким образом, это правило побуждает студента выдавать Утверждения высокого качества раньше преподавателя (что будет педагогически худшей стратегией).

Оценка характеристик AutoTutor

Для того, чтобы оценить характеристики AutoTutorа как эффективного преподавателя и собеседника, мы провели три цикла оценок. Целью этих циклов было идентифицировать и исправить недочеты шагов диалога прежде, чем AutoTutor предстанет перед обучаемыми. Для подражания людям-студентам различного уровня способностей и многословности было создано несколько виртуальных студентов. Использование виртуальных (или синтетических) студентов для тестирования обучающих систем встречается довольно часто и поддерживается другими исследователями(Ur & Vanleh, 1995; VanLehn, Ohlsson & Nason, 1994). Эксперты по языку и педагогике оценивали педагогическую эффективность и разговорное соответствие шагов диалога AutoTutor во время занятий с виртуальными студентами. После каждого цикла оценок учебный план, нечеткие продукционные правила и пороговые параметры ЛСА пересматривались, чтобы улучшить характеристики AutoTutor.

Виртуальные студенты

Для оценки эффективности AutoTutor во время фазы разработки мы создали различные типы виртуальных студентов. Каждый из виртуальных студентов отличался по уровню способностей и/или стилю речи. Для создания виртуальных студентов 100 обычным студентам, записавшимся на курс компьютерной грамотности, было задано 36 вопросов по темам учебного плана. Затем эксперты оценили качество ответов студентов на каждый из 36 вопросов. Для каждой из 36 тем учебного плана были созданы следующие студенты:

Хороший многословный студент. Первые 5 реплик этого виртуального студента содержали 2 или 3 Утверждения, которые эксперты оценили как хорошие Утверждения из человеческих примеров. Студент рассматривался как многословный, поскольку студент имел 2 или 3 утверждения в течение одной реплики, что больше, чем среднее количество Утверждений на 1 реплику в человеческом преподавании.

Хороший краткий студент. Первые 5 реплик этого виртуального студента содержали 1 Утверждение, которое эксперты оценили как хорошее Утверждение.

Средний студент. Первые 5 реплик этого виртуального студента содержали Утверждение, которое эксперты оценили как среднее (ни хорошее, ни плохое).

Ошибающийся студент. Первые 5 реплик этого виртуального студент содержали утверждения, содержащее недопонимание или ошибки, согласно заключениям людей-экспертов.

Молчаливый студент. Первые 5 реплик этого виртуального студента имели семантические бедное содержание, такое, как «хорошо», «понятно» и «о».

Хороший разборчивый студент. Первые 5 реплик этого виртуального студента содержали одно утверждение, которое оценивалось как хорошее. Тем не менее, в отличие от двух других хороших виртуальных студентов, все Утверждения в первых 5 репликах по данной теме были представлены одним человеком-студентом.

Студент Монте-Карло. Первые 5 реплик этого виртуального студента были генерированы в стиле Монте-Карло для имитирования изменчивости качества студенческих Утверждений, которая обычно возникает во время занятия с обычными преподавателями. Т.е. были представлены все виды Утверждений (например, хорошее и среднее).

Для того, чтобы AutoTutor был эффективным преподавателем, он должен быть способен: (1) различать уровень способностей обучаемого и качество утверждения и (2) отвечать одним или комбинацией подходящих шагов диалога. Graesseratal. (в печати) сообщали, что параметры ЛСА чувствительны к уровню способностей обучаемого и качеству Утверждения. Целью трех циклов оценок было увидеть, сможет ли AutoTutor генерировать педагогически эффективные шаги диалога, учитывающие эти различия.

Эксперты и измерения качества

Для оценки качества диалогов AutoTutor по двум целостным параметрам: педагогическая эффективность (ПЭ) и разговорное соответствие (РС) было выбрано четыре эксперта, по двое на каждый параметр. Эксперты, оценивавшие ПЭ, были хорошо осведомлены о педагогических стратегиях, которые часто употреблялись обычными преподавателями. Для каждого шага диалога эксперты, оценивавшие ПЭ, рассматривали: (1) был ли диалог педагогически эффективным и (2) был ли диалог приемлемым для обычных преподавателей. Эксперты, оценивавшие РС, хорошо разбирались в разговорной речи. Они рассматривали различные факторы уместности разговора в их целостных оценках каждого диалога AutoTutor. Эти факторы включали нормы вежливости и Gricean maxims качества, количества, уместности и стиля (Brown & Levinson, 1987; Grice,1975,1978). Оба фактора оценивались по 6-бальной системе, где 1 балл соответствовал очень низкой, а 6-очень высокой оценке. Для каждой пары экспертов была сосчитана достоверность измерений, которая оказалась высокой в обоих случаях (Gronbach’альфа = 0,94 для ПЭ и 0,89 для РС)

Три цикла оценок

Цикл 1

Для пяти виртуальных студентов, описанных выше, хорошего многословного, хорошего краткого, среднего, молчаливого и ошибающегося было создано пять копий преподавателя. Студенты хороший разборчивый и Монте-Карло были созданы во втором цикле оценок. Учитывая, что это было первое взаимодействие AutoTutor с обучаемыми, мы не рассматривали Цикл 1 как полностью самостоятельную оценку преподавательского и разговорного мастерства AutoTutor. Каждая копия была довольно длинной (почти 25 стр.) и мы не были уверены, что наши знания обычных преподавателей были точно отражены в нечетких продукционных правилах. Таким образом, эксперты, оценивавшие ПЭ и РС, не были обязаны оценивать каждый диалог AutoTutor.

Две пары экспертов оценивали ПЭ и РС для третьей фразы AutoTutor в каждой из 36 тем учебного плана. Средние оценки педагогической эффективности для каждого виртуального студента приведены в таблице 1, а разговорного соответствия - в таблице 2. Результаты Цикла 1 указывают на 2 вещи. Во-первых, оценки характеристик AutoTutor были обратно пропорциональны независимости Утверждений виртуальных студентов. Т.е. AutoTutor лучше работал со студентами, которые мало говорили, а именно со Средним и Молчаливым. Во-вторых, общие характеристики AutoTutor могут сопротивляться значительным улучшениям.

После просмотра данных Цикла 1 в продукционных правилах шагов диалога и пороговых значениях параметров ЛСА было сделано несколько незначительных изменений. Тем не менее, мы не решились вводить существенные изменения в правила и параметры ЛСА, т.к. оценивался только один диалог в каждой теме. Кроме того, некоторые шаги диалога повторялись очень редко, а некоторые не встречались совсем (напр. отрицательная обратная связь). Мы решили не вводить серьезные изменения в AutoTutor, пока не соберем более показательные данные

Цикл 2

Для второго цикла оценок были созданы два новых виртуальных студента, Хороший Разборчивый и Монте-Карло. Эти студенты были созданы так, чтобы давать более типичные студенческие реплики, которые чаще встречались на занятиях обычных преподавателей. Хороший Разборчивый студент был создан для подражания хорошему студенту, который обеспечивает достаточно высокое качество реплик, которое сохраняется при смене темы разговора.

Разборчивый студент отличается от остальных хороших студентов (напр. хороший многословный и хороший краткий) тем, что его первые 5 Утверждений по данной теме обеспечиваются репликами нескольких студентов. Студент Монте-Карло был создан для отражения изменчивости качества студенческих Утверждений, которая часто имеет место на занятиях с обычными преподавателями. Для Студента Монте-Карло были генерированы все классы утверждений (напр. Хороший, плохой и нейтральный).

Второй цикл оценок отличался от Цикла 1 тем, что эксперты оценивали ПЭ и РС для каждого шага диалога AutoTutor (всего 605) с копиями студентов Хороший Разборчивый и Монте-Карло. Результаты цикла представлены в таблицах 1 и 2. Средние значения ПЭ (4,25) и РС (4,97) показывают, что характеристики AutoTutor значительно улучшилось, по сравнению с Циклом 1. Тем не менее, неясно, произошло ли это благодаря небольшим изменениям в продукционных правилах и параметрах ЛСА или это можно отнести за счет более показательных моделей шагов диалога.

После второго цикла оценок AutoTutor подвергся нескольким существенным изменениям. Во-первых, было исправлено содержание учебного плана. Вводные разделы для 36 тем были переписаны так, что реплики AutoTutor стали более короткими и разговорными. Кроме того, все шаги диалога AutoTutor были обозначены маркерами речи и переписаны так, чтобы звучать более разговорно. Во-вторых, были сделаны изменения в продукционных правилах. Было добавлено продукционное правило положительного стимулирования и отрегулированы значения ЛСА в других правилах. Например, при проверке средних оценок и частоты появления каждой категории шагов диалога, мы обратили внимание, что AutoTutor генерирует слишком много стимулирования и

10-09-2015, 03:06

Страницы: 1 2 3 4

Модель диалога человека-преподавателя контролирует деятельность в AutoTutor

Разделы сайта