Claude Opus 4.8発表、SWE-bench Proで69.2%　価格据え置きで4.7との違いと料金を整理

時間がない人向けの30秒で理解ゾーン

Anthropicは5月28日、フラグシップ大規模言語モデルClaude Opus 4.8を公開した。SWE-bench Proで69.2%を記録し、4.7の64.3%から約5pt伸ばす結果となった。通常モードの料金は4.7と同じ100万トークンあたり入力5ドル/出力25ドルのまま据え置き。Fast modeは2.5倍速かつ3倍安に変わり、「エフォートコントロール」「Dynamic Workflows」を新たに搭載した。

↓ 詳細が気になる方は、このまま下へ ↓

4.7公開から42日でフルアップデート、ベンチマーク全方位で上回る

公開は5月28日。4.7のリリースから42日後の登場となった。Anthropicの公式発表によると、Opus 4.8は前モデル4.7を主要ベンチマーク全般で上回る。

– SWE-bench Pro：69.2%（4.7：64.3%／GPT-5.5：58.6%） – SWE-bench Verified：88.6%（4.7：87.6%） – USAMO 2026：96.7%（4.7：69.3%） – GDPval-AA：1890 Elo（4.7：1753）

特に米国数学オリンピック級の難問を扱うUSAMO 2026は27pt超（69.3%→96.7%）伸ばす大幅改善となった。長文コードを多ファイル横断で扱うSWE-bench Proでも、GPT-5.5に10pt以上の差をつける。Anthropicは「コードの欠陥を見逃す確率が約4分の1に下がった」と説明し、ハルシネーション低減と”正直さ”の向上を中心テーマに据える。

42日というサイクルの短さも目立つ。生成AI市場での主導権争いが、半年単位から数十日単位の競争に切り替わっている。

料金は通常据え置き、Fast modeが2.5倍速・3倍安に

気になる料金は、通常モードが4.7から完全据え置き。100万トークンあたり、入力5ドル、出力25ドルのまま動く。

変わるのはFast mode。4.7時代は入力30ドル/出力150ドルだったが、4.8は10ドル/50ドルへと値下げした。速度も従来の最大2.5倍。同条件で換算するとおよそ3倍安い計算になる。Anthropicは新Fast modeを、コーディング系の長時間タスクや、エージェント並列実行を後押しする用途に位置付ける。

利用先はclaude.ai、Claude Code、API、Coworkの4つ。APIでは識別子`claude-opus-4-8`で呼び出す。

「エフォートコントロール」「Dynamic Workflows」を新搭載

4.7との違いで特に大きいのが、3つの新機能だ。

エフォートコントロール

claude.aiおよびCoworkのモデル選択欄に隣接する新UIで、Claudeが応答にかける”思考の深さ”をユーザー側が選べる。低いほど応答は速くレートリミットの消費も抑えられ、高いほど推論に時間と計算を使う。設定は5段階で、`low` `medium` `high`（デフォルト）`xhigh` `max`。APIではoutput_config内のeffortパラメータとして扱い、テキスト出力・ツール呼び出し・推論にまたがるトークン総量を制御する。

Dynamic Workflows

Claude Codeの新機能。1セッション内でオーケストレーター役のエージェントが、最大1,000個のサブエージェントを実行できる（同時並列は16個まで）。マルチファイルのリファクタリング、広範囲のテストマトリクス、複数解の同時探索といった分岐の多い処理で力を発揮する設計だ。xhighのeffort設定と、後述のシステムエントリ挿入機能を前提に動く。

Messages APIのシステムエントリ挿入

Messages APIのmessages配列に、userとassistantだけでなくsystemエントリを途中で差し込めるようになった。会話開始後でも指示や権限を更新でき、しかもプロンプトキャッシュを壊さない。Dynamic Workflowsで親エージェントが子エージェントを途中投入できるのは、この基盤があってこそだ。

開発コミュニティの反応と業務AI市場への影響

価格据え置きでベンチマークと機能が伸びる構図に、開発コミュニティからは歓迎が広がる。X上では「4.7が出てまだ42日なのに」「Fast modeが3倍安いのは大きい」といった反応が相次ぐ。

VentureBeatは4.8の特徴として「3倍安いFast mode」と「アライメント面の改善」を挙げる。The New Stackも「ハルシネーション低減と、コーディング・正直さでの進歩」を主な進化点として整理した。

GPT-5.5との比較では、SWE-bench Proで10pt超、GDPval-AAで121 Elo差。Anthropicが長所とするコーディング・知識作業の領域で優位を保つ。一方、ベンチマークの細部ではOpus 4.8が劣る項目もあると伝える媒体もあり、選定時の比較は欠かせない。

Claude Code上の自動化とDynamic Workflowsを軸に、企業内エージェント運用の主流が、単発の高性能モデルから「親エージェント＋数百並列のサブエージェント」型へと動き始める。エフォートコントロールで思考量を選べる仕組みは、コスト感のあるユーザーがOpusを”常用”できる入口にもなる。料金体系の置き方も含め、4.8はベンチマーク更新であり、同時に運用設計そのものを変える更新となる。

[文/構成 by MEDIA DOGS編集部]