10 апреля 2026

eur = 90.88 -0.68 (-0.75 %)

btc = 71 779.00$ 774.13 (1.09 %)

eth = 2 189.15$ -0.01 (-0.00 %)

ton = 1.25$ 0.01 (1.05 %)

usd = 77.84 -0.47 (-0.60 %)

eur = 90.88 -0.68 (-0.75 %)

btc = 71 779.00$ 774.13 (1.09 %)

OpenAI проверила, кто из ИИ-моделей работает лучше

2 минуты на чтение
OpenAI проверила, кто из ИИ-моделей работает лучше

Кодик кратко объясняет суть статьи

OpenAI разработала метрику GDPval, оценивающую эффективность ИИ-моделей в выполнении задач из 44 профессий, критичных для экономики США. Метрика фокусируется на интеллектуальных видах деятельности, требующих анализа и принятия решений. Тестирование включало модели OpenAI (включая GPT-5), а также конкурентов от Anthropic, Google и xAI. Лидерство заняла модель Claude Opus 4.1, отличившись в эстетических задачах, тогда как GPT-5 показала лучшие результаты по точности и отраслевым знаниям. Несмотря на значительное повышение качества и скорости работы моделей, OpenAI подчёркивает необходимость человеческого контроля и интеграции в реальные процессы, исключая немедленную замену специалистов.

Читайте в Telegram

|

OpenAI снова проверяет границы возможного. Компания представила GDPval, новую метрику, которая показывает, как ИИ справляется с прикладными задачами в 44 профессиях. Разбираемся, что именно она измеряет и стоит ли волноваться за свою работу.

На этот раз OpenAI говорит осторожнее. Никаких громких заявлений о «замене людей машинами», только акцент на «помощи человеку». GDPval, по словам команды, создана, чтобы трезво оценить, где модели уже могут быть полезны. Видимо, в OpenAI не спешат начинать разговор о том, кто кого заменит первыми, где и так всё очевидно. Поэтому анализ сфокусирован исключительно на том, как ИИ может улучшить нашу работу, а не забрать её.

Что оценивали

В основу GDPval легли 44 профессии из девяти отраслей, которые вносят наибольший вклад в ВВП США. Команда собрала 1320 реальных рабочих заданий: от юридических документов и инженерных чертежей до переписки со службой поддержки и планов ухода за пациентами. И так далее, список охватывает широкий спектр профессиональных сценариев, где ИИ может применяться на практике.

Главное внимание уделили тем видам деятельности, где результат зависит от знаний, опыта и аналитического мышления. Чтобы определить, какие профессии попадают в эту категорию, OpenAI использовала государственную базу ONET, которая классифицирует работу по уровню интеллектуальной и физической вовлечённости.

В выборку вошли те, где как минимум 60% задач требуют умственного труда: умения рассуждать, принимать решения и работать с информацией. Среди них юристы, инженеры, разработчики, врачи, аналитики, специалисты поддержки и другие профессии, где влияние ИИ может быть наиболее заметным.

Результаты

OpenAI решила не ограничиваться только своими моделями и протестировала сразу несколько систем. В исследовании участвовали GPT-4o, o4-mini, OpenAI o3, GPT-5, а также конкуренты Claude Opus 4.1 от Anthropic, Gemini 2.5 Pro от Google и Grok 4 от xAI.

OpenAI проверила, кто из ИИ-моделей работает лучше

Неожиданно лидерство досталось не OpenAI. Лучшей моделью по совокупным показателям стала Claude Opus 4.1, особенно в эстетических задачах: оформлении документов, структуре слайдов и визуальной логике. GPT-5 заняла второе место, показав высший результат по точности и глубине отраслевых знаний. Более мощная версия GPT-5 high получила оценку «на уровне или выше экспертов» чуть более чем в 40% случаев. Для сравнения, GPT-4o, выпущенная весной 2024 года, набрала лишь 13,7%.

OpenAI проверила, кто из ИИ-моделей работает лучше

Отдельно исследователи отметили рост эффективности. С момента релиза GPT-4o до GPT-5 качество выполнения задач фактически удвоилось. Модели не только стали точнее, но и выполняют рабочие сценарии GDPval примерно в сто раз быстрее и дешевле, чем специалисты-люди. Однако OpenAI уточняет, что речь идёт лишь о «чистом времени модели» и стоимости API, без учёта человеческой проверки, доработок и внедрения в реальные процессы. Так что, по крайней мере пока, поводы для паники можно отложить.

Теги:
Материал обновлен|
Обсудить
Блоги 503
билайн
OTP Bank
Слетать.ру
ВКонтакте
ВТБ
Т-Банк
Газпромбанк
МТС
X5 Tech
Сбер

Привет, это Кодик! Я создан, чтобы помогать вам с  разными задачами. Задайте мне вопрос…