22 августа 0 116

GPT-5 без «розовых очков» — что реально умеет новая модель, а где хайп обгоняет реальность

OpenAI выкатили GPT-5. Внутри: быстрый gpt-5-main, «думающий» gpt-5-thinking и роутер, который сам решает, когда ответить мгновенно, а когда включить глубокое рассуждение. На практике это дает ощутимый прирост там, где важна точность — кодинг, математика, мультимодальность. А еще значительно меньше стало разных «глюков» и подхалимажа от AI.

Но этот релиз — не прыжок уровня от GPT-3 к GPT-4 — в некоторых дисциплинах конкуренты на равных (или даже обходят в узких местах). Поэтому сегодня изучим, что поменялось: где GPT-5 действительно сильнее, где границы, сколько это стоит, как смотрится на фоне Claude/Gemini/Grok/DeepSeek и какие сценарии стоит попробовать уже сегодня.    

Что именно выпустили (и зачем)

Главное отличие GPT-5 — не больший набор параметров, а механизм распределения внимания модели. Вместо ручного выбора режимов система сама распределяет «когнитивный бюджет» — где ответить с ходу, а где подключить дополнительное размышление и инструменты. За это отвечает маршрутизатор в реальном времени, учитывая тип запроса, сложность, доступность к файлам или браузеру, подсказки в промте.

Внутри единого стека две роли — GPT-5-main (быстрый и экономный для решения задач попроще) и GPT-5-thinking (углубленное рассуждение для более сложных кейсов). Если пользователь упирается в лимиты, его подхватывают облегченные mini-версии. В будущем OpenAI планирует «склеить» все это в одну модель, но в моменте нынешний подход обеспечивает компромисс скорости, стоимости и качества.

С доступом все просто. GPT-5 — модель по умолчанию для бесплатных и платных аккаунтов, отличие только в количестве доступных лимитов. После исчерпания квоты чат переключается на GPT-5 mini.

Plus и Team-аккаунты комфортно живут на GPT-5 в повседневных задачах, а Pro получает доступ к GPT-5 pro — варианту с еще более длинным и точным рассуждением. К услугам разработчиков GPT-5/GPT-5 mini/GPT-5 nano в API и ручной контроль длины ответа.

По стоимости в профильных медиа озвучивались цифры $1.25 за 1M входных токенов и $10 за 1M выходных. Для сравнения цена модели Claude Opus 4.1 от Anthropic стартует от $15 за миллион входящих токенов и и $75 за миллион исходящих. GPT-5 оказался дешевле даже предыдущей модели от OpenAI.  

О цифрах — бенчмарки и реальность

Бенчмарки — не жизнь, но для ориентира подходят неплохо. Они показывают, где модель стабильно сильнее и за счет чего. Ниже разберем GPT-5 по ключевым направлениям — математика/наука, код, инструкции/агентность, мультимодальность, здоровье, адекватность и честность самой модели.

Математика и наука

На конкурсной математике GPT-5 поднимает планку. В Американской математической олимпиаде (AIME) новая модель в 94,6% задач с первой попытки выдает правильные ответы. С доступом GPT к Python этот показатель достигает 99,6% правильных решений.

Источник: OpenAI — Introducing GPT-5

На задачах Гарвардско-Массачусетского математического турнира pro вариант GPT-5 стабильно «выбивает» 100%. В тесте по научным вопросам докторского уровня (GPQA Diamond) модель с первой попытки набрала 89,4% правильных ответов. Для сравнения результаты Claude Opus 4.1 и Grok 4 Heavy по этому показателю 80,9% и 88,9% соответственно. 

Код и инженерия

В тесте по реальным задачам кодирования с GitHub GPT-5 набрала 74,9% с первой попытки. А вот какие тут были результаты у других нейронок — 74,5% у Claude Opus 4.1, 59,6% у Gemini 2.5 Pro от Google DeepMind.  В задачах многоязычного редактирования кода (Aider Polyglot) новая модель GPT берёт 88%.

BlogModule_

В жизни это означает, что с одного промта чаще получается рабочий каркас для игры/лендинга/SPA с максимально адекватной версткой, логикой и типографикой. Значит, на устранение багов и допиливание до оптимального варианта требуется меньше времени.

Инструкции и агентность

В тесте Tau-bench, который оценивает способность AI выполнять симулированные задачи, GPT-5 показал неоднозначные результаты. С одной стороны — улучшенная дисциплина и более четкое следование инструкциям.

Но остаются локальные «качели» — в навигации на сайте авиакомпании GPT-5 получил 63,5% (у о3 этот показатель был 64,8%). В тесте по ориентированию на сайте в сфере розничной торговли GPT-5 получил 81,1% и немного отстал от Claude Opus 4.1 (82,4%).  

Мультимодальность

Визуалка стала умнее — на MMMU (Massive Multi-discipline Multimodal Understanding — мультимодальные задачи уровня колледжа) GPT-5 показывает 84,2%, на продвинутых наборах — MMMU-Pro (усложненная, graduate-level), VideoMMMU (MMMU на видео), CharXiv-Reasoning (понимание научных графиков/рисунков из статей), ERQA (мультимодальное пространственное рассуждение) — тоже плюс.

Проще говоря, теперь достаточно «скормить» GPT слайд, диаграмму, и короткое видео, чтобы он все понял, аккуратно вытащил нужные цифры не перепутал информацию. А пользователь тратит меньше времени на ручную обработку и прочую возню.

Здоровье и честность

В тесте с реалистичными медицинскими вопросами (HealthBench) GPT-5 дает результат 67,2%. На более сложной версии теста (HealthBench Hard) — 46,2%. На сложных кейсах GPT-5 фантазирует всего в 1,6% всех ответах. Для сравнения у других версий этот показатель был сильно выше — 12,9% у GPT-4o и 15,8% у o3.  

Источник: OpenAI — Introducing GPT-5

GPT-5 меньше ошибается в запросах с веб-поиском — примерно на 45% меньше фактических косяков, чем у о3. Еще один плюс — модель реже стала делать вид ,что все хорошо, если выполнить задачу невозможно — 2,1% против 4,8% у о3.

Источник: OpenAI — Introducing GPT-5 и System Card

Эффективность рассуждений

Отдельный бонус от GPT-5 — экономия токенов. При такой же точности эта модель тратит на 50-80% меньше выходных токенов, чем о3 на задачах с визуалом и научных рассуждениях. Это одновременно про скорость и деньги, если работаете с нейронкой через API.

Дальше на конкретных практических примерах разберем, куда и как встраивать в реальную работу. С примерами промтов и предостережениями.

Где это ощущается в жизни

Бенчмарки — конечно, ориентир, но настоящая ценность чувствуется в каждодневной работе с AI. Ниже разобрали реальные сценарии в разных нишах — какой запрос дать модели, чего ждать на выходе и где подстелить соломку.

Код

GPT‑5 стал удобнее как «первый разработчик на проекте». Он быстро поднимает каркас SPA/лендинга/мини‑игры с базовой логикой, а верстка чаще отвечает ожиданиям (адекватные отступы, типографика, сетка). Для больших репозиториев модель читает контекст (структуру модулей, зависимости), предлагает план фиксов и готовит аккуратный PR‑дифф.

BlogModule_

Пример промта:

«Собери одностраничное приложение Jumping Ball Runner в одном HTML‑файле: парящий фон, ускорение со временем, счёт и лучший результат, кнопка Retry, короткие звуки на прыжок/столкновение. Код разбей на понятные функции, внизу — блок с TODO. Добавь краткий комментарий, как заменить спрайты».

Важно учесть, что код стоит запускать локально, ограничивать «болтливость» — это реальный способ не утонуть в лишних токенах.

А вот пример подобного диалога с GPT-5:

И фрагмент ответа:

Копирайтинг и креатив

С повседневными текстами (письма, посты, отчеты) модель научилась работать качественнее — лучше держит ритм, структуру, меньше «сюсюканья». Если немного постараться и зафиксировать ToV текстов на старте, то GPT-5 с высокой долей вероятности попадет в точку.

Для этого нужно:

  • Обозначить аудиторию (кому и зачем пишем, в каком объеме);
  • Тон и формат (деловой, разговорный, короткие фразы);
  • Список того, чего быть не должно (жаргон, эмодзи, клише).

Пример промта:

«Собери письмо клиенту на 180–220 слов: краткий апдейт по спринту, 3 пункта статуса, 2 риска и 1 просьба о доступах. Тон — вежливо‑деловой, без прилагательных‑усилителей».

Тут по-прежнему важно помнить, что фактчекинг остается на человеке. GPT-5 стал честнее и менее глючным, но суммы, даты, цитаты лучше проверять самостоятельно.

Мультимедиа и документы

Фото слайдов, диаграммы, куски презентаций — теперь это не повод страдать. Модель умеет внятно «считывать» подписи, легенды и оси, вытягивать цифры в таблицу и делать короткий конспект.

Как работать:

  • Скармливаем нейронке исходный материал (фото, скриншот), просим извлечь таблицу и список источников на слайде;
  • Просим проверить согласованность цифр (итоги, проценты, единицы измерения);
  • Просим несколько тезисов для отчета плюс при необходимости уточняющие вопросы для спикера.

Пример промта:

«Разбери этот слайд: вынеси все цифры в Markdown‑таблицу (поля — метрика, значение, период, источник), сделай 3 тезиса и укажи любые несостыковки».

Если приходится работать с некачественными фото или скринами, нужно просить модель цитировать дословно числа и подписи, а моменты, в которых «помощник» не уверен — помечать.

Здоровье (но не постановка диагнозов!)

GPT-5 может здорово помочь в переводе с «врачебного» на человеческий. Например, разложить результаты анализов простым языком, подготовить список вопросов перед приемом у специалиста.

Тут важно помнить, что постановка диагнозов — работа врачей и доверять ее нейросетям не стоит.

Пример промта:

«У меня результаты анализов (прикрепляю). Объясни простыми словами, что это значит, и составь список вопросов к терапевту. Укажи, какие симптомы — повод срочно обратиться за помощью».

Важно учитывать местоположение человека, о котором идет речь, возраст, анамнез. И всегда (!) сверяться по полученным рекомендациям со специалистами.

Итоги

GPT-5 — хороший релиз, но не прорыв. Это как новая модель смартфона — быстрее, умнее, экономичнее, но не «мир перевернулся». Лидерство GPT‑5 чувствуется в коде, математике, мультимодальности и мед‑диалогах, честность и фактичность стали заметно лучше.

BlogModule_

Кому особенно полезно:

  • Разработчикам/аналитикам — быстрый каркас кода, правка больших реп, сводка данных;
  • Маркетингу/арбитражникам — ленд за промпт, фабрика крео, квиз‑прелендеры, аккуратный комплаенс;
  • Редакторам/продактам — чистые тексты без «воды», конспекты слайдов/видео;
  • Health‑use cases — подготовка к приёму, объяснение результатов (не врач, но надежный переводчик).

GPT‑5 — новый «дефолт» для повседневных задач и сильный инструмент для тяжелых кейсов. Без фейерверков, но с реальной пользой в ежедневной работе.

Как вам статья?
ПОЛУЧИТЬ АКТУАЛЬНУЮ ПОДБОРКУ КЕЙСОВ

Прямо сейчас бесплатно отправим подборку обучающих кейсов с прибылью от 14 730 до 536 900 ₽.