«Комбайн» из моделей: заменит ли нейросеть школьных учителей

7 Апреля 2022 РБК Тренды
«Комбайн» из моделей: заменит ли нейросеть школьных учителей
Алгоритмы ИИ пришли в новую область — они учатся понимать смысл человеческих текстов, находить там ошибки и объяснять их. Такие решения могут освободить педагогов от проверки сочинений и даже предсказать баллы на ЕГЭ

Конкурсы Up Great проводятся в рамках Национальной технологической инициативы с 2018 года. Перед командами инженеров и ученых ставят задачи в различных отраслях для создания технологий будущего. Каждый конкурс продолжается от года до трех лет в зависимости от сложности задания.

Задачи

  • Создать ИИ-ассистента учителя, который сможет выявлять ошибки в сочинениях школьников на английском и русском языках.
  • Простимулировать развитие технологий в области сильного искусственного интеллекта.
  • Поддержать разработчиков в области обработки текстов на естественном языке.

Мотивация и предпосылки

Алгоритмы искусственного интеллекта решают множество задач — от прогнозирования поломок на производствах до чат-ботов. Как правило, они опираются на анализ корреляций и статистических связей в больших данных. Машина просматривает всю имеющуюся базу данных, отыскивает в них связи и дает ответ.

Подобные решения используются в том числе в голосовых помощниках вроде Siri, «Алисы» или Alexa от Amazon. Но эти алгоритмы позволяют отвечать только на более или менее узкие вопросы. Когда же речь идет об интерпретации текста и причинно-следственных связях, возможностей ИИ оказывается недостаточно.

Чтобы определить степень понимания текстов машиной, в 2019 году компании DeepMind и Facebook создали метрику SuperGLUE. Тест состоит из нескольких вопросов на понимание смысла: нужно изучить описание ситуации и правильно интерпретировать ее.

Например, SuperGLUE предлагает машине ситуацию: «Девочка получила приз». Алгоритм должен ответить на вопрос, какова причина — победа в конкурсе правописания или появление нового друга. По сложности тест соответствует начальным классам общеобразовательной школы. Но при решении подобных, относительно простых задач машины показывают точность на уровне 91%.

Такой уровень развития технологии не позволял полноценно использовать ИИ для понимания человеческих текстов и поиска в них ошибок. И хотя алгоритмы прекрасно справлялись, например, с производственными или финансовыми задачами, они не могли помочь в работе с текстами даже на уровне среднестатистического эксперта.

Решение

В рамках технологических конкурсов Up Great решили запустить конкурс ПРО//ЧТЕНИЕ. Он нацелен на создание новых подходов в ИИ, которые позволят машине разобраться в причинно-следственных связях и понять смысл текстов.

Оператором конкурса стал Фонд Национальной технологической инициативы.

Реализация

  • Область разработки

    Для создания технологий понимания смысла текста выбрали область образования. Как объясняют организаторы, для образовательных текстов уже есть наработанные методики объективной оценки качества. Этим методикам потенциально может следовать и машина.

    Участники конкурса должны были разработать интеллектуальную систему, способную найти смысловые и фактические ошибки в академическом эссе. Причем задачу требовалось решить на уровне специалиста и в условиях ограниченного времени.

    Объем каждого эссе составлял 200–300 слов, время его обработки — не более 60 секунд.

    «Мы берем школьное сочинение, и некоторый алгоритм его размечает на наличие ошибок, как учитель. То есть мы стремимся сделать так, чтобы учителю было проще работать, чтобы вся техническая работа была переложена на машину, а учитель мог больше посвятить времени общению с ребенком», — объясняет эксперт конкурса, старший научный сотрудник Huawei Noah's Ark lab Валентин Малых.

  • Призовой фонд

    Для участников предусмотрели два приза — по ₽100 млн за решения на русском и английском языках. Чтобы их получить, нужно преодолеть технологический барьер. Это означает, что ИИ-система должна проанализировать текст и выявить ошибки на уровне среднестатистического педагога.

    Еще более ₽50 млн призового фонда предусмотрели для семи малых конкурсов-сателлитов, которые решали более узкие задачи. Например, на конкурсе ПРО//ОЦЕНКИ предлагали алгоритмы, предсказывающие баллы за эссе. А в рамках ПРО//ФАКТЫ — выявляли фактические ошибки в текстах. Все это помогло участникам подготовиться к решению более общей и сложной задачи.

  • Оборудование и датасеты

    Технических ограничений командам не ставили. Они могли использовать то оборудование, которое сочтут нужным.

    На сайте конкурса в открытом доступе выложили датасеты для заданий на русском и английском языках. Это несколько тысяч эссе, каждое из которых было проверено минимум двумя экспертами.

    Для сверки использовали автоматизированную платформу конкурса. Она сопоставляла тексты, проверенные ИИ-ассистентами и реальными педагогами. Так выявлялись самые качественные решения.

  • Циклы и этапы

    Конкурс стартовал в конце 2019 года. К началу 2022-го проведено два цикла испытаний. Каждый из них включал в себя несколько этапов.

    Сначала участники подключались к серверу через API, скачивали датасеты, искали ошибки и загружали обратно. Затем, на основном этапе, они получали новые сочинения, которые еще не проверяли преподаватели. Команды размечали тексты и снова загружали их на сервер.

    После этого проводилась проверка. Экспертные оценки автоматически сравнивали с результатами ИИ-решений. Техническая комиссия и судейская коллегия конкурса анализировали результаты команд, сами эссе и сочинения, определяли ошибки и уровень преодоления технологического барьера.

    Испытания проводятся до тех пор, пока команды не смогут решить задачу. То есть преодолеть технологический барьер и обеспечить проверку текста не хуже педагога.

  • Права на разработки

    Хотя участники получают крупные денежные призы, организаторы не претендуют на разработки, созданные в рамках конкурса.

    «Все команды сохраняют за собой интеллектуальную собственность и могут ее использовать для коммерциализации. Идея соревнования в том, чтобы создать и поддержать команды, способные создать интеллектуальную собственность, которую потом можно продавать на рынке», — подчеркивает эксперт конкурса Валентин Малых.

Результаты

По итогам двух циклов алгоритмы участников проверили две тысячи эссе. По русскому языку барьер еще не преодолен. Но преодолеть технологический барьер по английскому языку командам удалось на втором цикле испытаний.

Первое место заняла академическая команда МФТИ DeepPavlov. Ее приз — ₽80 млн.

«Мы взяли большое количество моделей из открытых источников, дообучили, где-то вручную написали правила, добавили ансамбли. В итоге получился «комбайн» из большого количества моделей, которые работают согласованно. В некоторых случаях я сам удивлялся, насколько хорошо наше ПО находит ошибки», — рассказывает руководитель команды DeepPavlov Денис Кузнецов.

Второе место и ₽20 млн получила лаборатория «Наносемантика». Она представляет коммерческую компанию по созданию чат-ботов.

«Результаты испытаний показали, что задача по созданию ИИ-ассистента, способного выявлять все типы смысловых ошибок в текстах, вполне решаема на базе существующих технологий», — говорит глава оргкомитета ПРО//ЧТЕНИЕ Юрий Молодых.

Среди разработчиков организаторы также отметили проект «Антиплагиат». Но, по словам исполнительного директора компании Юрия Чеховича, о выполнении всех задач конкурса, особенно по русскому языку, речи пока не идет. Алгоритмы достаточно хорошо находят ошибки в текстах, однако есть трудности с их пониманием.

Юрий Чехович, исполнительный директор «Антиплагиат»:

«Создаваемому алгоритму требуется не просто найти и выделить все ошибки в сочинениях, а понять эти ошибки, исправить их и дать пояснения, какая именно ошибка была допущена. Если поиск грамматических и пунктуационных ошибок является уже достаточно изученной областью, особенно для английского языка, то именно понимание этих ошибок представляет огромный интерес для исследования».


Планы и перспективы

ИИ-системы, созданные в рамках конкурса, можно использовать в школах и на подготовительных курсах. Организаторы уверены, что эти разработки способны снять с учителей часть нагрузки и освободить их от рутины.

В перспективе технологию можно развить и использовать как тренажер для самообучения. При этом работы будут проверяться на уровне квалифицированного учителя. Потенциальные пользователи решений — старшеклассники, студенты младших курсов, преподаватели общего и дополнительного образования.

«Мы бы хотели видеть, что эти разработки были применены непосредственно для помощи учителям, чтобы появились коммерческие разработки, которые позволяют любому ученику из самых отдаленных уголков нашей страны получить оценку своей работы на уровне среднего эксперта ЕГЭ», — говорит Валентин Малых.