Роботы из ньюсрума: сможет ли искусственный интеллект заменить журналистов?

19 сентября 2019 N + 1

Искусственный интеллект в разы быстрее человека обрабатывает огромные объемы данных, не прерываясь на обед и не требуя прибавку к зарплате. Именно так ИИ грозится захватить практически все сферы человеческой деятельности, от промышленного производства до образования и медицины. Не обойдет эта участь и вотчину N + 1 — журналистику. Поэтому вместе с организаторами конкурса Up Great мы разобрались, где журналисты уже не нужны, где еще необходимы и как им заключить творческий союз с искусственным интеллектом.

Встряска для репортеров

Кен Швенке проснулся из-за того, что его дом начало трясти. Часы показывали половину седьмого утра: Кен вскочил с кровати и уставился на экран своего компьютера. На мониторе светилось сообщение: «По данным Геологической службы США, в понедельник утром в пяти милях от Вествуда, штат Калифорния, было зарегистрировано землетрясение силой 4,7 балла. Толчок произошел в 6:25 утра по тихоокеанскому времени на глубине 5,0 миль».

Кен пробежал глазами текст и нажал кнопку «опубликовать» — так газета Los Angeles Times впервые разместила на своем сайте новость, написанную алгоритмом Quakebot. На публикацию ушло три минуты.

Это было в 2014 году. Сегодня ботов для создания контента используют Associated Press, BBC News, Reuters, The Guardian, The New York Times, Forbes, The Washington Post, The Times, The Sunday Times, The Wall Street Journal, Bloomberg, японская телерадиокомпания NHK, финское информационное агентство STT и многие другие компании. Итак, что уже умеют делать алгоритмы?

Писать простые заметки. Одним из первых ботов-журналистов стал продукт компании Narrative Science — в 2012 году их алгоритм начал готовить новости для Forbes. Другой «железный корреспондент» по имени Heliograf работает на газету The Washington Post. Журналистскую славу ему принесла работа на Летних Олимпийских играх в Рио — алгоритм писал новости, отчитываясь о результатах состязаний. Позже он освещал президентские выборы в США и даже принес изданию премию — пока не Пулитцеровскую, правда, а «Биггис»: за использование передовых практик в сфере ИИ.

В агентстве Associated Press текстами, анализирующими финансовые отчеты компаний, занимается алгоритм Wordsmith — он делает это быстрее и точнее живых корреспондентов: если необходимо, отмечают разработчики, Wordsmith может производить по 2000 статей в секунду. В Bloomberg похожие функции на себя взяла система Cyborg.

Австралийский филиал The Guardian недавно стал использовать помощника по имени ReporterMate — его первая заметка была посвящена пожертвованиям для политических партий, а для газеты Los Angeles Times редакционные боты пишут короткие новости о городских убийствах.

Искать информацию. К примеру, в BBC News это делает алгоритм Juicer. Он просматривает RSS-каналы и сообщения около 850 новостных агентств и разбивает их на четыре категории: «люди», «места», «организации» и «вещи» (все, что не попало в первые три). В результате журналист, который ищет, скажем, последние новости про искусственный интеллект, может сэкономить массу времени — Juicer «гуглит по лентам» за него, а потом для удобства еще и структурирует найденное.

Общаться с аудиторией. Масса изданий держат в штате чат-ботов, которые помогают читателям ориентироваться в новостях, а редакциям — анализировать аудиторию: они есть у BuzzFeed, у The Guardian, у «Медузы» и даже у российской версии журнала Glamour.

Узнавать спикеров в лицо. Стажеры отдела интерактивных новостей The New York Times придумали для коллег инструмент, который называется «Шазам по конгрессменам». Приложение помогает идентифицировать на фотографиях членов Конгресса США, а их немало — 541 человек, да и состав их регулярно обновляется, поэтому вряд ли есть сегодня журналист, кто помнит всех конгрессменов в лицо.

Работать в прямом эфире. Киберведущий китайского информационного агентства Синьхуа и его коллега-девушка заставили понервничать уже не одну сотню тележурналистов всего мира.

Писать связные (но фейковые) новости. В начале этого года исследователи из OpenAI смогли создать алгоритм, способный генерировать целые страницы правдоподобного и связного текста без дообучения под конкретную задачу. Так, нейросеть GPT-2 написала фейковую новость про «серебристо-белых единорогов с четырьмя рогами», основываясь только на заголовке, а также смогла достаточно убедительно (правда, с 25-й попытки) объяснить, чем вредна переработка мусора.

Алгоритмы, интерпретирующие текст, существуют уже давно, но именно за последний год в их развитии произошел принципиальный скачок, — объясняет заведующий лабораторией методов анализа больших данных НИУ ВШЭ Андрей Устюжанин. — Google, Microsoft и Facebook опубликовали алгоритмы, основанные на нейронных сетях, которые по уровню понимания обычных текстов превзошли неспециалистов. После этого исследователям пришлось предложить более сложную методику для оценки алгоритмов понимания естественного языка: раньше это был набор заданий и метрика GLUE (General Language Understanding Evaluation), теперь — SuperGLUE. И если люди справляются с заданиями нового теста в среднем на 90 процентов, то алгоритмы, раньше находившиеся на уровне 60-70 процентов, уже добрались до 85 процентов. Практически вплотную к человеку.

SuperGLUE — это короткий тест из восьми типовых вопросов на понимание смысла того или иного текста. Испытуемому, будь то человек или машина, надо прочесть описание некоей ситуации и ответить на вопрос о том, как ее интерпретировать. Например, одно из заданий теста SuperGLUE выглядит так:

Посылка: Девочка получила приз.
Вопрос: Какова ПРИЧИНА этого?
Вариант#1: Она победила в конкурсе правописания.
Вариант#2: Она приобрела нового друга.

Верным ответом тут, как наиболее вероятно истинным, будет первый, и чтобы его дать, достаточно здравого смысла. А вот экспертные или насыщенные символическим значением тексты ИИ корректно интерпретировать пока не может — для этого ему еще учиться и учиться (а его создателям, соответственно, еще предстоит разобраться с искусством чтения «Поминок по Финнегану» или поэзии акмеистов).

ИИ в руках журналиста

Хотя журналистские задачи все больше автоматизируются с помощью постоянно умнеющих алгоритмов и многих репортеров это начинает пугать, менее впечатлительные представители профессии уже создают с помощью роботов принципиально новые виды историй. Журналисты BuzzFeed News в 2016-2017 годах опубликовали несколько резонансных материалов о самолетах-шпионах, принадлежащих правоохранительным органам США, которые умеют прослушивать телефоны и отслеживать передвижения людей.

Как они это сделали? Научили алгоритм разбираться в информации с сайта Flightradar24 — сервиса мониторинга полетов разных летательных средств.

Для обучения они взяли данные о 20 тысячах полетах, выполненных в течение четырех месяцев, и определили параметры для поиска: скорость, маневры, продолжительность и высоту полета, так как самолеты-шпионы, как правило, наворачивают небольшие круги над своей целью. Из выборки исключили крупные пассажирские рейсы и воздушные суда зарубежных компаний.

Потом алгоритм научился различать характеристики разных самолетов на примере 100 известных авиаразведчиков и 500 случайных рейсов — и выяснил, что самолеты, подходящие под заданное журналистами описание, шпионили за съездом Республиканской партии США, кружили над мексиканским городом Эльдорадо, где проходила операция по захвату главарей крупного наркокартеля, а также следили за террористическими организациями в Африке.