Одной из первых систем, понимающих естественный язык, была SHRLDU, разработанная в начале 1970-х годов. В ней пользователь управлял перемещением нарисованных объектов с помощью текстовых команд. Функциональность системы была очень скромной, она понимала ограниченный набор вопросов и команд. Для своего времени это был прорыв, но в XXI веке общество сформировало запрос на технологии совершенно другого уровня. Конкурс Up Great ПРО//ЧТЕНИЕ конкретизирует этот вызов, создавая новые подходы к искусственному интеллекту и глубокому пониманию письменной речи.
Современные алгоритмы понимания естественного языка — Natural Language Understanding (NLU) — работают на основе анализа корреляций и статистических данных. Машина анализирует огромный объём данных, которые собраны в готовые блоки в разных категориях, находит в них по ключевым словам совпадения и даёт ответ на основании проделанного анализа.
Такой подход позволяет отвечать лишь на определённые вопросы, которые машина уже проанализировала. Поэтому, когда мы обращаемся к голосовым помощникам с нестандартным диалогом, они отвечают, что ещё учатся, или отшучиваются:
Однако прогресс не стоит на месте. Разработчики пытаются научить нейросети понимать язык на более глубинном уровне, выявлять причинно-следственные связи, писать и говорить естественным языком человека на разные темы.
Для определения уровня их прогресса определяются технологические барьеры и формируются тестовые задачи, показывающие, работает алгоритм или нет.
По словам Юрия Молодых, директора по развитию технологических конкурсов Up Great в РВК, скорость развития технологий искусственного интеллекта высокая, и по аналогии с распознаванием изображений, в которых в 2010-ые годы роль катализатора сыграл конкурс ImageNet, в области естественных языков стали появляться аналогичные тестирования.
Один из примеров — созданный в 2018 году компанией DeepMind (принадлежит Alphabet) тест GLUE. Для решения этого теста DeepMind вместе с рядом технологических университетов разработала алгоритм BERT. Он может отвечать на вопросы, заданные в произвольной форме, создавать чат-боты и переводчики.
В 2019 году подразделение Facebook, занимающееся искусственным интеллектом, запустило более сложное тестирование алгоритмов — SuperGLUE, которое в начале 2020 года было переведено на русский язык. К нему проявили интерес специалисты AGI NLP из Сбербанка, лаборатория Huawei Noah's Ark, а также факультет компьютерных наук ВШЭ. В блоге Сбербанка основной целью проекта Russian SuperGLUE названо «продолжение развития русских моделей для общей задачи General Language Understanding». Созданный в рамках SuperGLUE алгоритм RoBERTA пытается находить причинно-следственные связи в тексте, что подразумевает более глубокий анализ.
В этих тестированиях задача облегчалась тем, что машине предоставлялись варианты ответов. Такой подход имеет практическую значимость и оправдан для Facebook, которому важно решать практические задачи по улучшению сервиса. Например, чтобы понимать, какой пост показать конкретному пользователю в ленте следующим: про политику или про технологии. Но это не универсальное решение.
Юрий Молодых, директор по развитию технологических конкурсов Up Great в РВК:
«Мы пришли к необходимости более сложного подхода. Системы должны понимать смысл текста, отслеживать логику, проверять факты и доступно объяснять пользователю свои выводы. Поэтому организаторы конкурса ПРО//ЧТЕНИЕ выбрали комплексную задачу анализа текста, при котором машина должна разобраться и учесть причинно-следственные связи. Причём эта задача из реального мира образования, с максимально объективными критериями. Она позволяет реализовать комплексный подход, который сможет стать универсальным».
Для глубокого понимания естественного языка человека, считает Иван Ямщиков, AI-евангелист компании ABBYY, ещё много предстоит сделать. По его словам, существует много примеров качественных диалоговых систем, но и не меньше примеров, где они не справляются. Машинное обучение сейчас развивается как экспериментальная наука. Поэтому конкурс ПРО//ЧТЕНИЕ — о той области, где технологии ещё не развиты в достаточной степени, чтобы сформировать конечное решение задачи, но которая способна дать старт реализации прорывных проектов.
Ямщиков также обращает внимание на фундаментальные вызовы, стоящие перед разработчиками: современные модели плохо понимают, как человек выстраивает нарратив, сюжет повествования.
Иван Ямщиков, AI-евангелист ABBYY, автор и ведущий научно-популярного подкаста «Проветримся!»:
«Построение правильных взаимосвязей между объектами текста во времени — сложная задача. Нарратив — фундаментальная специфика человеческой психики, человек делает выводы определённым образом. Например, врачи строят диагноз на основе первых четырёх признаков болезни, а остальные считают лишь подтверждением сформировавшегося убеждения».
Кроме того, по мнению эксперта, человеческий язык является фактором социальной демаркации, и в этих тонкостях нейросетям тоже предстоит разобраться. Например, стену между израильтянами и арабами в произраильских СМИ называют security fence — «ограждение для безопасности». А в проарабских — apartheid wall, или «стена апартеида». ИИ должен учитывать, что в обоих случаях речь идёт об одном и том же объекте. Прогресс в области нейросетей привёл к появлению технологий, которые способны выстроить более глубокие взаимосвязи в человеческом тексте.
Михаил Бурцев, заведующий лабораторией нейронных систем и глубокого обучения МФТИ:
«За последние два года появились и получили широкое распространение алгоритмы глубоких нейронных сетей. Они помогают выстроить эволюцию модели, которая позволяет нейросети выучить отношения между словами в тексте. Поняв эти отношения, можно сократить обучающую выборку, использовать в десять или даже в сто раз меньше данных».










