目次を開く
GPT-5.4はこうしてリークされた — Codex PR・API・スクリーンショット、3つの漏洩と正式リリースまで

GPT-5.4はこうしてリークされた — Codex PR・API・スクリーンショット、3つの漏洩と正式リリースまで

2026年2月末、X上で「alpha-gpt-5.4がパブリックモデルのエンドポイントで発見された」という投稿が広まった。削除されたはずのCodex GitHub PRが本物だとも言われていた。そして1週間後の3月5日、OpenAIはGPT-5.4を正式リリースした。リーク情報はほぼ当たっていた。

GPT-5.4がどのようにして外に漏れ、実際に何が変わったのかを時系列で整理していく。

GPT-5.4 概要
出典: DEV Community

3つのリーク — 偶然が重なった1週間

GPT-5.4の存在が外部に出たのは、独立した3つの経路からだ。

1. Codex GitHub PR(2月27日〜3月2日)

最初のきっかけは、OpenAIのCodexリポジトリに出されたプルリクエストだった。PR #13050には、画像処理の新機能が必要とするモデルバージョンが (5, 4) と記述されていた。つまりGPT-5.4以降でしか動かない機能が実装されていたことになる。

このPRで実装されていたのは、detail: original パラメータによる画像圧縮スキップ機能だ。従来のモデルでは送信前に画像が自動的に圧縮・リサイズされていたが、このパラメータを指定するとPNG、JPEG、WebPのオリジナルバイトをそのままモデルに渡すことができる。建築図面や医療画像、UI画面のピクセル単位の分析など、圧縮によって劣化が生じると困るユースケースを想定した機能だ。そしてこの機能がGPT-5.4以降でのみ使えるという記述が、新モデルのビジョン能力が大幅に強化されていることを示していた。

数時間後、その記述は gpt-5.3-codex or newer に書き換えられた。force pushで履歴も消されたが、スクリーンショットはすでに出回っていた。

3月2日にはPR #13212でも同じことが起きた。gpt-5.4 をモデル引数に指定した関数呼び出しと、「toggle Fast mode for GPT-5.4」というスラッシュコマンドの記述が含まれていた。削除まで約3時間かかったが、そのころにはキャプチャ済みだった。

2. モデルセレクターのスクリーンショット

OpenAIの社員Tiboが、CodexアプリのモデルセレクターUIのスクリーンショットを投稿した。GPT-5.3-Codexの隣にGPT-5.4が並んでいる画面だ。投稿はすぐに削除されたが、魚拓はすでに取られていた。

3. APIエンドポイント

alpha-gpt-5.4 というラベルが、公開APIの /models エンドポイントに一時的に現れた。X上で複数ユーザーが確認してスクリーンショットを共有し、それが冒頭の投稿の根拠となった。

3つとも別々のタイミング、別々の人物によるミスだった。1件なら揉み消せたかもしれないが、3件重なれば確定情報として扱われる。

正式リリース — 3月5日に何が発表されたか

リークから1週間後の3月5日、OpenAIはGPT-5.4を正式に発表した。位置づけは「プロフェッショナルワーク向けの、最も高性能かつ効率的なフロンティアモデル」だ。

スペックとベンチマークをまとめる。

コンテキストウィンドウ

API版で100万トークンに対応した。OpenAI史上最大のサイズになる。リーク時には200万トークンという情報も出回っていたが、公式発表では100万トークンに落ち着いた。それでもGPT-5の40万トークンから2.5倍の拡張だ。

ベンチマーク

指標GPT-5.2GPT-5.4
GDPval(知識ワーク)83%(過去最高)
投資銀行モデリング68.4%87.3%
SWE-Bench Pro57.7%
OSWorld-Verified47.3%75.0%
BrowseComp+17%(GPT-5.2比)

GPT-5.2と比べて、個々の回答に誤情報が混入する確率が33%減った。レスポンス全体のエラー率も18%下がっている。

GPT-5.4 Capability Stack
出典: DEV Community

Computer-Use(コンピュータ操作)

GPT-5.4は汎用モデルとして初めて、ネイティブのコンピュータ操作機能を搭載した。アプリケーションをまたいだ複雑なワークフローをAIエージェントが直接実行できる。CodexやAPIと組み合わせれば、マルチステップの自律タスクをそのまま動かせる。

モデルバリエーション

3つのバリエーションで展開されている。

  • GPT-5.4:標準版。ChatGPT Plus以上で利用可能
  • GPT-5.4 Thinking:推論に特化。Plus、Team、Proプランで利用可能
  • GPT-5.4 Pro:最高性能。ProおよびEnterpriseプラン限定。BrowseCompで89.3%を記録

トークン効率

GPT-5.2と同等の問題解決を、より少ないトークン消費で達成できるようになった。つまりAPI利用者にとっては、性能が上がりながらコストも抑えられるアップデートになる。

GPT-5.4 Model Selection Map
出典: DEV Community

API価格とプラン

GPT-5.4のトークン単価は、GPT-5.2より改善されている。OpenAI公式の発表では、入力・出力ともにコスト効率が向上しており、API経由で使うコストに対して得られる性能の比率が上がっている。

Thinking版(GPT-5.4 Thinking)は推論トークンの追加コストがかかる構造だ。ただし複雑なタスクでは推論ステップを挟むことで回答の試行回数が減り、リトライや後処理のコストを含めたトータルが下がるケースもある。単純なQ&AにThinkingを使うのは過剰だが、コードレビューや多段階の計算では費用対効果が出やすい。

プランごとのアクセス範囲は以下のとおりだ。

プラン月額GPT-5.4GPT-5.4 ThinkingGPT-5.4 Pro
Plus$20利用可利用可不可
Team$30/人利用可利用可不可
Pro$200利用可利用可利用可
Enterprise要問合せ利用可利用可利用可

API経由での利用は、ChatGPTのプランとは別に従量課金として請求される。

リーク情報はどこまで正確だったか

冒頭の投稿の主張を振り返ると、こうなる。

  • 「alpha-gpt-5.4がエンドポイントで発見された」→ 事実
  • 「Codex GitHub PRリークは100%本物」→ 事実
  • 「来週早々に登場する」→ ほぼ正確(投稿から5日後にリリース)
  • 「盤面をリセットする世代間飛躍」→ ベンチマーク上は大幅な改善。ただし評価は使う人間次第

唯一外れたのは、コンテキストウィンドウのサイズだ。リーク時の「200万トークン」に対し、公式では「100万トークン」だった。内部のアルファ版でテストされていたスペックが、リリースまでの間に変更されたと考えるのが自然だろう。

200万から100万への半減には、いくつかの理由が考えられる。まずレイテンシの問題だ。コンテキストが長くなるほど推論時間が伸びる。GPT-5.4はプロフェッショナルワーク向けのモデルとして位置づけられており、応答速度とのバランスを取った結果、100万トークンに落ち着いた可能性が高い。もう一つは段階リリース戦略だ。200万トークン対応を将来のバージョンに温存し、アップデート時の目玉機能として使うという読み方もできる。

また、リーク時にはもう一つ噂があった。「会話をまたいで状態を保持するステートフルAI」の実装だ。従来のモデルはセッションごとにリセットされるが、ステートフルモードでは記憶や作業状態を持ち越せる。この機能については、正式発表では触れられなかった。開発中ではあるが、プライバシーとコストの問題を解決できていないため別途発表される可能性が残っている。

GPT-5シリーズの進化ペース

GPT-5シリーズは2025年8月の初版リリースから、1〜3ヶ月間隔でアップデートを続けてきた。半年で3回のメジャーアップデートというペースはGPT-4時代より明らかに速い。

バージョンリリース時期主な進化
GPT-52025年8月初版。推論能力の飛躍
GPT-5.22025年11月マルチモーダル強化
GPT-5.32026年1月Codex統合、エージェント強化
GPT-5.42026年3月Computer-Use、1Mコンテキスト

競合他社も同様のペースで動いている。AnthropicはClaude 4.5・4.6を2026年に入って相次いでリリースし、GoogleはGemini 2.5でマルチモーダルと長文コンテキストの性能を引き上げた。三社とも3ヶ月以内のサイクルでフラッグシップモデルを更新しており、AI能力のコモディティ化が加速している局面だ。

computer-useという機能に絞ると、AnthropicはClaude 3.5の段階から先行して提供していた。OSWorldのベンチマークでも一時期Claudeが上位を占めていた。GPT-5.4はOSWorld-Verifiedで75.0%を記録し、GPT-5.2の47.3%から大幅に向上させた。OpenAIが半年かけてchromecast操作からデスクトップ全体の自動化まで対応域を広げた形で、Anthropicの先行優位は縮まっている。

開発者への影響

GPT-5.4のスペック変化は、実際に使う開発者にとって具体的な変化をもたらす。

1Mトークンのコンテキストウィンドウにより、大規模コードベースの一括分析が現実的になった。従来は分割して投入していたファイル群を、リポジトリごとまとめて渡してアーキテクチャ上の問題点を指摘させるといった使い方が成立する。コンテキスト切れによる情報の断絶を避けられる点は、長いセッションを前提とする開発タスクで特に効いてくる。

Computer-Useの搭載は、エージェントの自律性を一段引き上げる。ブラウザ操作やGUIアプリへの入力など、これまでAPIでは届かなかった領域を自動化できる。Seleniumや専用スクレイパーを用意しなくても、「このサイトにログインしてデータを取ってきて」という指示をそのまま実行できるようになる。

Codexとの統合という観点では、PRレビューから修正・テスト実行までの一連のフローを自動化する構成が視野に入る。GPT-5.4はCodexのバックエンドとして動き、コードの意図を読んでレビューコメントを付け、修正案を生成し、テストを走らせて結果を確認する。一人の開発者が抱える反復作業の大部分を委任できる構成だ。

API利用者にとっては、性能とコストの比率が改善している点がシンプルにうれしい。同じ品質の出力をより少ないトークンで得られるなら、月の請求額を変えずにより多くのタスクをこなせる。

参考リンク

記事をシェアする