Эксперты представили методику оценки участников конкурса Up Great ПРО//ЧТЕНИЕ

22 июня 2020

В рамках круглого стола Up Great на конференции Dialogue 2020 эксперты обсудили методику оценки качества работы автоматизированных решений по поиску ошибок в сочинениях и эссе школьников. Один из вызовов для разработчиков заключается в том, чтобы система не только находила ошибки, но и могла поставить оценку, то есть умела анализировать результаты. Создание платформы на базе искусственного интеллекта, которая сможет находить и комментировать смысловые ошибки в реальных текстах, станет главной задачей участников технологического конкурса Up Great ПРО//ЧТЕНИЕ.

Участникам конкурса предстоит научить искусственный интеллект анализировать тексты сочинений и эссе на предмет смысловых ошибок так же хорошо, как это делают преподаватели. Кроме глобального тренда на автоматизацию, сегодня крайне актуальна проблема, связанная с избыточной нагрузкой на учителей, проверяющих письменные работы. С одной стороны, алгоритм проведет проверку текста, определит ошибки и покажет их преподавателю, а тот уже примет решение об оценке. Это позволит сэкономить время, которое уходит на проверку работ. С другой стороны, каждый школьник с доступом в интернет получит онлайн-тренажер, который сможет в любое время суток оценить написанный текст. Таким образом, предмет взаимодействия педагога и ученика сместится от отработки таких формальных критериев, заложенных в проверку письменных работ, как знание фактов и умение корректно строить рассуждение в тексте, к более важным и сложным вещам: развитию критического мышления и логики. В рамках подготовки конкурса уже опубликован датасет, который содержит примеры сочинений с разметкой, то есть промаркированными ошибками.

«Мы много общались с преподавателями, чтобы сформулировать точное определение ошибки, затем подобрали набор метрик, заложенных в проверку работ, которые школьники сдают в ходе подготовки и сдачи ЕГЭ, а также в проверку эссе по предметам школьной программы. Они оказались очень четкими и помогли провести декомпозицию задач по отдельным критериям. Тем не менее, для создания датасета каждое сочинение сейчас размечают два-три преподавателя, в зависимости от того, насколько сильны расхождения в их оценках — несмотря на достаточно объективные критерии, не может быть единственно правильной разметки. Первая часть датасета из 150 размеченных работ уже выложена. Он будет пополняться, мы рассчитываем на общий объем в 20 тысяч работ. В сентябре мы планируем открыть платформу для тестовых решений», — рассказал Юрий Молодых, директор по развитию технологических конкурсов Up Great в РВК.

Эксперт добавил, что в условиях самоизоляции достаточно типична ситуация, когда ученики пишут работу на бумаге, фотографируют и отправляют учителю через WhatsApp, учитель печатает сочинение и проверяет красной ручкой, фотографирует и отправляет проверенную работу обратно школьнику. «Такая работа создает огромную бессмысленную нагрузку на учителя. Конечно, самоизоляция закончится, но эта ситуация наглядно показывает, что в современном мире назрел вопрос оцифровки образовательного процесса. Наша задача — простимулировать создание технологий, которые позволят не просто оцифровать «бумажный» процесс, но также и дать новые удобные инструменты, которые позволят лучше учить и учиться и готовить молодежь к цифровому миру, в котором стирается граница между обычной и цифровой грамотностью», — отметил Юрий Молодых.

«Мы остановились на том, что исходные тексты будут по пяти гуманитарным предметам: русский язык, литература, обществознание, история и английский язык. Разметка должна быть составлена таким образом, чтобы система научилась распознавать не только ошибки, но и смысловые блоки, за которые начисляются баллы. То есть разметка должна быть достаточной для выставления оценки за сочинение. Язык разметки устроен следующим образом: начало и конец фрагмента, в котором учитель видит ошибку, выделяется скобками. Вначале указывается тип ошибки по коду. Можно добавить текстовый комментарий, если тип ошибки не предусмотрен кодами. Затем дать пояснение. Разница между ними в том, что пояснение годится для всех работ с ошибкой такого типа, а комментарий привязан к контексту конкретной работы. Это то, как учитель мог бы объяснить ошибку ученику», — пояснил Константин Воронцов, заведующий лабораторией машинного анализа МФТИ, технический партнер конкурса.

По его словам, разметка проводится при помощи краудсорсинга. Ее проводят специалисты с многолетним опытом проверки результатов ЕГЭ. Согласно правилам конкурса, будут сформированы три выборки данных. Обучающая размеченная выборка будет сразу выложена в открытом доступе, чтобы участники тренировали на ней свои алгоритмы. Тестовая выборка будет отдаваться участникам без разметки, чтобы проверять предсказательную способность алгоритмов на этапе квалификационных испытаний. Финальная выборка будет использоваться для проведения финальных испытаний, когда алгоритмы участников будут проверять работы синхронно и с жёстким лимитом времени; только после этого финальная выборка будет размечена экспертами-преподавателями. Технологический барьер конкурса будет считаться пройденным, если расхождение алгоритмической разметки с экспертной окажется меньше, чем максимальное расхождение между экспертами, в среднем по финальной выборке. Финальные испытания планируется проводить два раза в год, тогда как режим квалификационных испытаний будет открыт для участников на постоянной основе, с автоматически обновляемым лидербордом.

Технологический конкурс Up Great ПРО//ЧТЕНИЕ будет идти до 2022 года, если победитель не будет выявлен ранее. Эксперты отметили, что конкурс сильно отличается от обычных соревнований, и главным мотиватором для участников служит не столько призовой фонд, сколько возможность научиться решать подобные задачи в области понимания естественного языка и получить уникальный опыт. По мнению специалистов, кропотливая работа на этом отрезке времени если не приведет к научному прорыву, то точно обновит технологии, существующие сегодня в данной области.

«Ещё два года назад задача многопланового понимания текста была сложной и почти невыполнимой. Однако за это время исследования в области обработки текстов на естественном языке совершили скачок благодаря применению методов глубокого обучения. Сегодня нейросеть, обученная моделировать язык на огромных массивах текста, представляет собой мощный «движок», на основе которого можно строить алгоритмы понимания отдельных аспектов содержания. Задача проверки эссе — это много задач на понимание текста, как раз тестирующих такие аспекты. Поэтому современные системы на основе языковых моделей подходят вплотную к её решению», — считает Михаил Бурцев, заведующий лабораторией нейронных систем и глубокого обучения МФТИ и основатель компании iPavlov.

«Надо с чего-то начинать, например, сделать все, чтобы собрать что-то жизнеспособное, а потом с этим экспериментировать. Мировой опыт говорит о том, что долгие соревнования, в которые активно вовлекаются участники, приводят если не к научному прорыву, то к продвижению. К примеру, Netflix Prize заметно продвинул несколько семейств алгоритмов рекомендательных систем. Поэтому шансы развития в области есть», — уверен Алексей Натекин, лидер сообщества Open Data Science.

Алгоритм не призван полностью заменить учителей, он должен снять с них нагрузку, чтобы освободить время для анализа содержания и глубины ответа экзаменующегося, так как школьная программа не сводится к критериям проверки письменных работ.

Конкурс ПРО//ЧТЕНИЕ пройдет в несколько этапов и продлится до конца 2022 года. Испытания будут проходить регулярно до тех пор, пока одна из команд не покажет результат, превосходящий способности человека. Первые испытания запланированы на ноябрь 2020 года. Испытания будут организованы отдельно для текстов на русском и английском языках. Призовой фонд каждого конкурса составит по 100 млн руб.

Оператор технологического конкурса ПРО//ЧТЕНИЕ — РВК. Соорганизаторы — Фонд «Сколково», АСИ. Технический партнер конкурса — Центр компетенций НТИ по направлению «Искусственный интеллект» на базе МФТИ.

Подробная информация о конкурсе: ai.upgreat.one

Категория: ПРО//ЧТЕНИЕ

К списку