DeepMind утверждает, что ее ИИ работает лучше, чем золотые медалисты Международной математической олимпиады

DeepMind утверждает, что ее ИИ работает лучше, чем золотые медалисты Международной математической олимпиады:

Система искусственного интеллекта, разработанная Google DeepMind, ведущей исследовательской лабораторией Google в области искусственного интеллекта, судя по всему, превзошла среднего золотого медалиста в решении геометрических задач на международном математическом конкурсе.

Система, названная AlphaGeometry2, является улучшенной версией системы AlphaGeometry, которую DeepMind выпустила в январе прошлого года . В недавно опубликованном исследовании исследователи DeepMind, стоящие за AlphaGeometry2, утверждают, что их ИИ может решить 84% всех геометрических задач за последние 25 лет на Международной математической олимпиаде (IMO), математическом конкурсе для старшеклассников.

Почему DeepMind заботится о соревновании по математике на уровне старшей школы? Ну, лаборатория считает, что ключ к более способному ИИ может заключаться в открытии новых способов решения сложных геометрических задач — в частности, задач евклидовой геометрии.

Доказательство математических теорем или логическое объяснение, почему теорема (например, теорема Пифагора) верна, требует как рассуждения, так и способности выбирать из ряда возможных шагов к решению. Эти навыки решения проблем могут — если DeepMind прав — оказаться полезным компонентом будущих моделей ИИ общего назначения.

Действительно, прошлым летом DeepMind продемонстрировала систему, которая объединила AlphaGeometry2 с AlphaProof, моделью ИИ для формального математического обоснования, для решения четырех из шести задач из IMO 2024. Помимо задач геометрии, подобные подходы можно распространить на другие области математики и науки — например, для помощи в сложных инженерных расчетах.

AlphaGeometry2 имеет несколько основных элементов, включая языковую модель из семейства моделей ИИ Gemini от Google и «символический движок». Модель Gemini помогает символическому движку, который использует математические правила для вывода решений проблем, находить возможные доказательства для заданной геометрической теоремы.

Задачи олимпиадной геометрии основаны на диаграммах, которые требуют добавления «конструкций» перед тем, как их можно будет решить, например, точек, линий или окружностей. Модель Gemini AlphaGeometry2 предсказывает, какие конструкции могут быть полезны для добавления в диаграмму, на которую ссылается движок для выводов.

По сути, модель Gemini AlphaGeometry2 предлагает шаги и конструкции на формальном математическом языке движку, который — следуя определенным правилам — проверяет эти шаги на логическую согласованность. Алгоритм поиска позволяет AlphaGeometry2 проводить множественные поиски решений параллельно и сохранять потенциально полезные результаты в общей базе знаний.

AlphaGeometry2 считает проблему «решенной», когда приходит доказательство, объединяющее предложения модели Gemini с известными принципами символического движка.

Из-за сложностей перевода доказательств в формат, понятный ИИ, наблюдается нехватка пригодных для использования данных для обучения геометрии. Поэтому DeepMind создал собственные синтетические данные для обучения языковой модели AlphaGeometry2, сгенерировав более 300 миллионов теорем и доказательств различной сложности.

Команда DeepMind выбрала 45 геометрических задач из соревнований IMO за последние 25 лет (с 2000 по 2024 год), включая линейные уравнения и уравнения, требующие перемещения геометрических объектов по плоскости. Затем они «перевели» их в более крупный набор из 50 задач. (По техническим причинам некоторые задачи пришлось разделить на две.)

Согласно статье, AlphaGeometry2 решила 42 из 50 задач, преодолев средний балл золотого медалиста — 40,9.

Конечно, есть ограничения. Техническая особенность не позволяет AlphaGeometry2 решать задачи с переменным числом точек, нелинейными уравнениями и неравенствами. И AlphaGeometry2 технически не является первой системой ИИ, достигшей уровня золотой медали в геометрии, хотя она первая, достигшая этого с набором задач такого размера.

AlphaGeometry2 также показал худшие результаты в другом наборе более сложных задач IMO. Для дополнительной сложности команда DeepMind выбрала задачи — всего 29 — которые были номинированы на экзамены IMO экспертами по математике, но еще не появлялись на конкурсе. AlphaGeometry2 смогла решить только 20 из них.

Тем не менее, результаты исследования, вероятно, подольют масла в огонь споров о том, следует ли строить системы ИИ на основе манипуляции символами (то есть манипулирования символами, представляющими знания, с использованием правил) или на основе нейронных сетей, которые, по-видимому, более похожи на мозг.

AlphaGeometry2 использует гибридный подход: ее модель Gemini имеет архитектуру нейронной сети, а ее символьный движок основан на правилах.

Сторонники методов нейронных сетей утверждают, что интеллектуальное поведение, от распознавания речи до генерации изображений, может возникнуть только из огромных объемов данных и вычислений. В отличие от символических систем, которые решают задачи, определяя наборы правил манипуляции символами, предназначенных для определенных задач, таких как редактирование строки в программном обеспечении текстового процессора, нейронные сети пытаются решать задачи посредством статистической аппроксимации и обучения на примерах.

Нейронные сети являются краеугольным камнем мощных систем ИИ, таких как модель «рассуждений» o1 OpenAI. Но, как утверждают сторонники символического ИИ, они не являются конечным пунктом; символический ИИ может быть более приспособлен для эффективного кодирования знаний мира, обоснования сложных сценариев и «объяснения» того, как они пришли к ответу, утверждают эти сторонники.

«Поразительно видеть контраст между продолжающимся впечатляющим прогрессом в этих типах бенчмарков и тем временем, языковые модели, включая более новые с «рассуждением», продолжают бороться с некоторыми простыми проблемами здравого смысла», — сказал Винс Конитцер, профессор компьютерных наук Университета Карнеги-Меллона, специализирующийся на ИИ, в интервью TechCrunch. «Я не думаю, что это все дым и зеркала, но это иллюстрирует, что мы все еще не знаем, какого поведения ожидать от следующей системы. Эти системы, вероятно, будут очень влиятельными, поэтому нам срочно нужно понять их и риски, которые они несут, гораздо лучше».

AlphaGeometry2, возможно, демонстрирует, что два подхода — манипуляция символами и нейронные сети —  в сочетании  являются многообещающим путем вперед в поиске обобщаемого ИИ. Действительно, согласно статье DeepMind, o1, который также имеет архитектуру нейронной сети, не смог решить ни одну из проблем IMO, на которые AlphaGeometry2 смог ответить.

Это может не продолжаться вечно. В статье команда DeepMind заявила, что нашла предварительные доказательства того, что языковая модель AlphaGeometry2 способна генерировать частичные решения задач без помощи символического движка.

«[Результаты] подтверждают идею о том, что большие языковые модели могут быть самодостаточными, не завися от внешних инструментов [вроде символьных движков]», — пишет команда DeepMind в своей статье, — «но до тех пор, пока скорость [моделей] не будет улучшена, а галлюцинации не будут полностью устранены, эти инструменты останутся необходимыми для математических приложений».

Читайте нашу главную страницу —  Взгляд в будущееИнновацииТехнологииНаукаНовые открытияИзобретения

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *