
Генератор БС
Компания OpenAI выпустила новый бенчмарк под названием «SimpleQA», предназначенный для измерения точности выходных данных собственных и конкурирующих моделей искусственного интеллекта.
При этом компания ИИ показала, насколько плохи ее последние модели в предоставлении правильных ответов. В собственных тестах ее передовая предварительная модель o1, выпущенная в прошлом месяце , показала ужасный показатель успешности в 42,7 процента на новом бенчмарке.
Другими словами, даже лучшие из недавно анонсированных крупных языковых моделей (LLM) с гораздо большей вероятностью дадут совершенно неверный ответ, чем правильный, — тревожное обвинение, особенно с учетом того, что технологии начинают проникать во многие аспекты нашей повседневной жизни.
Опять не так
Конкурирующие модели, такие как Anthropic, набрали еще меньше баллов на бенчмарке OpenAI SimpleQA, а недавно выпущенная модель Claude-3.5-sonnet дала правильные ответы только на 28,9% вопросов. Однако модель была гораздо более склонна проявлять собственную неопределенность и отказываться от ответа — что, учитывая убийственные результаты, вероятно, к лучшему.
Хуже того, OpenAI обнаружила, что ее собственные модели искусственного интеллекта склонны значительно переоценивать свои возможности, что может привести к их большой уверенности в придумываемой ими лжи.
Магистранты права долгое время страдали от «галлюцинаций» — элегантного термина, придуманного компаниями, занимающимися ИИ, для обозначения хорошо документированной тенденции своих моделей выдавать ответы, которые являются полной ерундой.
Несмотря на очень высокую вероятность полной фальсификации, мир принял эту технологию с распростёртыми объятиями: от студентов, создающих домашние задания, до разработчиков, работающих на технологических гигантов и создающих огромные массивы кода .
И трещины начинают шоу. Показательный пример: модель ИИ, используемая в больницах и построенная на технологии OpenAI, на этой неделе была замечена с частыми галлюцинациями и неточностями при расшифровке взаимодействий с пациентами.
Полицейские по всей территории Соединенных Штатов также начинают использовать искусственный интеллект , что является ужасающим достижением, поскольку может привести к тому, что правоохранительные органы будут ложно обвинять невиновных или усугублять тревожные предубеждения.
Последние результаты исследований OpenAI — еще один тревожный признак того, что нынешние магистры права крайне неспособны достоверно говорить правду.
Это событие должно послужить напоминанием о том, что к любому результату работы любого магистра права следует относиться с изрядной долей скептицизма и быть готовым тщательно проверять сгенерированный текст.
Остается открытым вопрос , можно ли решить эту проблему с помощью еще больших обучающих наборов (в чем лидеры в области ИИ спешат заверить инвесторов ) .