Top.Mail.Ru

Опубликованы первые датасеты конкурса Up Great ПРО//ЧТЕНИЕ на русском языке

22 июня 2020
Опубликованы первые датасеты конкурса Up Great ПРО//ЧТЕНИЕ на русском языке

На сайте конкурса ПРО//ЧТЕНИЕ размещены первые наборы текстовых эссе на русском языке: неразмеченная и обучающая выборки. Такие датасеты будут использоваться участниками конкурса для «тренировки» своих решений в области искусственного интеллекта. На данный момент датасет содержит более 200 текстов, в дальнейшем для его расширения планируется задействовать механизм краудсорсинга: учителя и преподаватели смогут самостоятельно загружать тексты для обучения ИИ на открытую платформу. В течение срока проведения конкурса планируется увеличить датасет до 20 тысяч текстов.

Неразмеченная выборка содержит текстовые эссе в исходном виде по следующим предметам: русский язык и литература, история, обществознание. Это работы, которые были написаны учениками и студентами при подготовке к экзаменам в средней школе и на старших курсах вузов, без исправлений преподавателями.

Обучающая выборка включает в себя тексты из неразмеченной выборки, проверенные несколькими профильными преподавателями, имеющими уровень эксперта. С помощью специального языка разметки внутри текстов были выделены и объяснены смысловые блоки и ошибки. Обучающая выборка предназначена для тренировки решений участников. Эта выборка будет пополняться в течение всего конкурса.

«На настоящий момент выборка очень небольшая по размеру. Нескольких сотен размеченных файлов, безусловно, недостаточно для обучения ИИ участников конкурса для решения задачи на достаточно хорошем уровне. Поэтому мы планируем в течение всего конкурса добавлять в нее новые документы, а также запустить краудсорс, который позволит создать датасет в десятки и даже сотни тысяч размеченных работ, — рассказал Юрий Молодых, директор по развитию технологических конкурсов Up Great. — Наша задача — еще до окончания конкурса запустить цифровую платформу, на которой учителя проверяют работы школьников в рамках образовательного процесса. На первом этапе это будет обычная ручная проверка, перенесенная в цифровую среду, но по мере появления достаточно хороших решений ИИ будет брать на себя выявление некоторых типов ошибок, облегчая работу учителей еще до того момента, как у конкурса появится победитель».

Также планируется к публикации ещё одна выборка — тестовая. Такая выборка будет содержать тексты, у которых будет скрытая от участников разметка, выполненная преподавателями. Проверяя, то есть размечая такие тексты, участники смогут в любой момент сравнить при помощи алгоритма платформы конкурса, насколько их проверка (разметка) совпала с проверкой профессиональным преподавателем.

Технологический конкурс Up Great ПРО//ЧТЕНИЕ направлен на разработку ИИ-решений, способных находить смысловые, логические и фактические ошибки в текстах на естественном языке. Для победы искусственный интеллект должен будет справиться с этой задачей не хуже, чем человек. В ходе соревнований решения участников должны будут проанализировать и найти ошибки в нескольких сотнях эссе, при этом решение по каждому тексту ИИ должен принять не более чем за 30 секунд. Конкурс проходит в несколько этапов и продлится до конца 2022 года. Испытания будут проходить регулярно до тех пор, пока одна из команд не покажет результат, превосходящий способности человека. Первые испытания запланированы на ноябрь 2020 года. Соревнования будут организованы отдельно для текстов на русском и английском языках. Призовой фонд каждого конкурса составит по 100 млн руб.

Оператор технологического конкурса Up Great ПРО//ЧТЕНИЕ — РВК. Соорганизаторы — Фонд «Сколково», АСИ. Технический партнер конкурса — Центр компетенций НТИ по направлению «Искусственный интеллект» на базе МФТИ.

Категория: ПРО//ЧТЕНИЕ