Исследование OpenAI показало, что даже лучшие модели дают неверные ответы в огромном количестве случаев

Генератор БС

Компания OpenAI выпустила новый бенчмарк под названием «SimpleQA», предназначенный для измерения точности выходных данных собственных и конкурирующих моделей искусственного интеллекта.

При этом компания ИИ показала, насколько плохи ее последние модели в предоставлении правильных ответов. В собственных тестах ее передовая предварительная модель o1, выпущенная в прошлом месяце , показала ужасный показатель успешности в 42,7 процента на новом бенчмарке.

Другими словами, даже лучшие из недавно анонсированных крупных языковых моделей (LLM) с гораздо большей вероятностью дадут совершенно неверный ответ, чем правильный, — тревожное обвинение, особенно с учетом того, что технологии начинают проникать во многие аспекты нашей повседневной жизни.

Опять не так

Конкурирующие модели, такие как Anthropic, набрали еще меньше баллов на бенчмарке OpenAI SimpleQA, а недавно выпущенная модель Claude-3.5-sonnet дала правильные ответы только на 28,9% вопросов. Однако модель была гораздо более склонна проявлять собственную неопределенность и отказываться от ответа — что, учитывая убийственные результаты, вероятно, к лучшему.

Хуже того, OpenAI обнаружила, что ее собственные модели искусственного интеллекта склонны значительно переоценивать свои возможности, что может привести к их большой уверенности в придумываемой ими лжи.

Магистранты права долгое время страдали от «галлюцинаций» — элегантного термина, придуманного компаниями, занимающимися ИИ, для обозначения хорошо документированной тенденции своих моделей выдавать ответы, которые являются полной ерундой.

Несмотря на очень высокую вероятность полной фальсификации, мир принял эту технологию с распростёртыми объятиями: от студентов, создающих домашние задания, до разработчиков, работающих на технологических гигантов и создающих огромные массивы кода .

И трещины начинают шоу. Показательный пример: модель ИИ, используемая в больницах и построенная на технологии OpenAI, на этой неделе была замечена с частыми галлюцинациями и неточностями при расшифровке взаимодействий с пациентами.

Полицейские по всей территории Соединенных Штатов также начинают использовать искусственный интеллект , что является ужасающим достижением, поскольку может привести к тому, что правоохранительные органы будут ложно обвинять невиновных или усугублять тревожные предубеждения.

Последние результаты исследований OpenAI — еще один тревожный признак того, что нынешние магистры права крайне неспособны достоверно говорить правду.

Это событие должно послужить напоминанием о том, что к любому результату работы любого магистра права следует относиться с изрядной долей скептицизма и быть готовым тщательно проверять сгенерированный текст.

Остается открытым вопрос , можно ли решить эту проблему с помощью еще больших обучающих наборов (в чем лидеры в области ИИ спешат заверить инвесторов ) .

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *