Top.Mail.Ru

Скоростная вероятность

12 января 2021 ПостНаука

Профессор Юрген Шмидхубер о скоростной вероятности, модели Соломонова и о том, как предсказать будущее

Немецкий инженер Конрад Цузе предположил, что Вселенная симулируется на клеточном автомате. Это значит, что история Вселенной вычислима, и данных, опровергающих это предположение, не существует. О том, как с помощью скоростной вероятности узнать историю Вселенной и предсказать будущее, рассказывает пионер в исследованиях искусственного интеллекта Юрген Шмидхубер.

Эта лекция — часть курса «Глубокое обучение». Партнер проекта — организатор технологического конкурса UpGreat ПРО//ЧТЕНИЕ.

Наша следующая лекция будет посвящена скоростной вероятности, очень полезной для выведения индуктивных суждений. Что такое индуктивные суждения? На вход поступают данные, которые мы можем закодировать как последовательность битов, — всё видео и аудио, поступающее в обучающуюся систему, может быть закодировано в строке X (назовем ее X). В какой-то момент времени вы получили X и теперь хотите предсказать будущие события, поскольку машинное обучение сводится к предсказанию будущих событий исходя из полученного опыта.

Возникает вопрос: при данном X, которое мы наблюдали, какое будущее мне следует ожидать? С применением теоремы Байеса мы можем сделать следующее: рассмотрим возможные варианты будущего Y, так что X и Y будут описывать всю историю полностью. Тогда возникает вопрос: какое будущее Y является наиболее вероятным с учетом уже имеющегося X? И теорема Байеса по сути гласит, что вероятность Y, следующего за X (то есть сначала X, потом Y), пропорциональна априорной вероятности X и Y, вместе взятых.

Рэй Соломонов в 1960-е годы предложил хитроумный способ оптимального предсказания будущего в условиях, когда он предполагает, что X и Y поступают от исчислимого распределения вероятностей. Он предложил неисчислимый способ выведения универсальной вероятности, которая известна как универсальная вероятность Соломонова.

Эта универсальная мера вероятности контролирует компьютерные процессы, присваивая любому X столь же высокую вероятность, что и любая другая исчислимая мера вероятности, за исключением не зависящих от размера X постоянных.

При этом нужно отметить, что оптимальный, но неисчислимый метод Соломонова для индуктивных суждений предполагает: наблюдаемые X связаны с рекурсивным распределением вероятностей, которое часто называется μ(x). μ(x) — это исходное распределение вероятностей, которое мы не знаем: мы не знаем правило, которое определяет поступающие к нам новые данные на основании старых данных.

Поэтому мы не используем неизвестную μ(x), а используем для предсказания знаменитую универсальную невычислимую вероятность, или, как ее иногда называют, (полу)меру Соломонова — Левина M (x), которая для всех X превосходит любые рекурсивные μ(x), то есть истинное, неизвестное нам распределение вероятностей — например, для постоянного коэффициента, не зависящего от X. Кстати, Рэй Соломонов был приглашенным профессором в нашей лаборатории в начале 2000-х. К сожалению, спустя несколько лет он скончался.

Мера простоты M (x) универсальной вероятности Соломонова соответствует принципам бритвы Оккама. Бритва Оккама гласит, что простые решения предпочтительнее сложных. Это понятие простоты тесно связано с K (x), колмогоровской сложностью, или алгоритмической информацией X. Более того, M (x), то есть универсальная вероятность Соломонова, и K (x), колмогоровская сложность, тесно связаны. Мой прошлый аспирант Маркус Хаттер изучил многие из этих связей.

Основанные на M предсказания являются невычислимо оптимальными. Тем не менее M, эта невычислимая универсальная вероятность, присваивает высокую вероятность определенным данным X, которые невероятно сложно вычислить. Таким образом, несмотря на сложности с вычислением X, они получают высокую априорную вероятность при использовании M (x).

Это плохо соотносится с нашим интуитивным пониманием простоты. Интуитивно мы предполагаем, что простота связана со сложностью вычислений — это совсем другое. Так что я предложил более убедительную меру, универсальную, основанную на наиболее быстром способе произвести вычисления — необязательно на кратчайшем, наиболее сжатом способе, но на самом быстром.

В отсутствие любых физических данных, свидетельствующих об обратном, я предполагаю, что весь физический мир вокруг нас сгенерирован в результате вычислительного процесса, в котором нет никаких вероятностных событий: это просто компьютерная программа, которая обсчитывает все входящие данные. Также я предполагаю, что все возможно бесконечные последовательности наблюдений вычислимы в пределе.

Это предположение намного радикальнее, чем идея Рэя Соломонова, который предположил только то, что вероятностное распределение исчислимо, но в его случае возможны бесконечно длинные истории вселенных, которые невозможно обсчитать конечной программой.

Я заменил меру M Соломонова на новую скоростную вероятность (S), в соответствии с которой суммарная априорная вероятность всех данных, вычисленная при помощи оптимального алгоритма и требующая для вычислений больше асимптотически оптимального количества ресурсов (O (n) ресурсов), равна 1/n. Это скоростная вероятность.

Чтобы оценить правдоподобность такой идеи, подумайте вот о чем: большая часть файлов на вашем компьютере обсчитывается за пару микросекунд, некоторые — за несколько секунд, совсем мало — за пару часов, а считаные единицы — за несколько дней и так далее. В этом смысле скоростная вероятность кажется разумным методом преобразовать ограничения вычислительных ресурсов в априорные вероятности, используемые для индуктивных умозаключений.

Если предсказывать будущее не с помощью универсальной меры Соломонова, а использовать для этого скоростную вероятность, то вы получите другие, более точные предсказания. Перейду сразу к радикальным примерам. Нет никаких данных, опровергающих предположение о том, что вся история нашей Вселенной вычислима в рамках конечной программы и самая важная цель физики — найти эту программу (будем надеяться, что она окажется короткой).

Мы предполагаем, что эта программа работает в соответствии со скоростной вероятностью (S) либо в соответствии с менее определяющей мерой вероятности, которая находится под влиянием скоростной вероятности и соответствует недостаточно оптимальным вычислениям событий.

Легендарный Конрад Цузе первым из ученых всерьез предположил, что вся Вселенная симулируется на грид-системах, или, как их еще называют, клеточном автомате. С этими идеями связана и работа Эдварда Фредкина, который инициировал работу над переводом вышедшей в 1969 году книги Цузе Rechnender Raum («Вычислительное пространство»), где он представил эту идею.

Предположив, что Вселенная вычислима, с использованием скоростной вероятности мы можем предсказать, что наша Вселенная не станет сильно старше, чем сейчас, — это первый любопытный вывод. Второй важный вывод: крупномасштабные квантовые вычисления, на которые возлагается столько надежд, не будут хорошо работать.

Возможно, адиабатические системы и определенные виды квантовых вычислений, которые сводятся к симуляции квантовых систем, будут работать. Однако универсальный квантовый компьютер, на появление которого возлагается столько надежд, который мог бы взламывать программы шифрования, не сможет работать, поскольку его работа потребует слишком много вычислительных ресурсов в параллельных вселенных. Согласно мере скоростной вероятности, у этого слишком низкая вероятность.

Третий вывод состоит в том, что наблюдаемый случайный характер каких-либо физических событий, например бета-распада, на самом деле не является истинно случайным: он задан пока еще неизвестным быстрым генератором псевдослучайных событий, который мы должны попытаться открыть. Возможно, генератор псевдослучайных чисел вычисляет знаки после запятой числа π: если вы напишете их и посмотрите, они покажутся случайным набором цифр, но это не так.

Да, сочетание трех любых цифр, например 5, 9 и 6, появляется примерно один раз на тысячу знаков, однако порядок цифр не истинно случайный: есть очень короткая программа, которая вычисляет все эти цифры. Я предполагаю, что все, что сейчас кажется стохастическим, в какой-то момент окажется неслучайным, детерминированным продуктом вычислений генератора случайных чисел.

Эти идеи в последнее время привлекли к себе много внимания, и об этом можно больше узнать в моей статье о скоростной вероятности, а также в более ранней статье 2000 года об алгоритмических теориях всего, которая послужила предтечей статьи о скоростной вероятности.

Источник:ПостНаука

Категория: