MEDIA DOGS

Claude Opus 4.8発表、SWE-bench Proで69.2% 価格据え置きで4.7との違いと料金を整理

Claude Opus 4.8発表、SWE-bench Proで69.2% 価格据え置きで4.7との違いと料金を整理

時間がない人向けの30秒で理解ゾーン

Anthropicは5月28日、フラグシップ大規模言語モデルClaude Opus 4.8を公開した。SWE-bench Proで69.2%を記録し、4.7の64.3%から約5pt伸ばす結果となった。通常モードの料金は4.7と同じ100万トークンあたり入力5ドル/出力25ドルのまま据え置き。Fast modeは2.5倍速かつ3倍安に変わり、「エフォートコントロール」「Dynamic Workflows」を新たに搭載した。

↓ 詳細が気になる方は、このまま下へ ↓

4.7公開から42日でフルアップデート、ベンチマーク全方位で上回る

公開は5月28日。4.7のリリースから42日後の登場となった。Anthropicの公式発表によると、Opus 4.8は前モデル4.7を主要ベンチマーク全般で上回る。

– SWE-bench Pro:69.2%(4.7:64.3%/GPT-5.5:58.6%) – SWE-bench Verified:88.6%(4.7:87.6%) – USAMO 2026:96.7%(4.7:69.3%) – GDPval-AA:1890 Elo(4.7:1753)

特に米国数学オリンピック級の難問を扱うUSAMO 2026は27pt超(69.3%→96.7%)伸ばす大幅改善となった。長文コードを多ファイル横断で扱うSWE-bench Proでも、GPT-5.5に10pt以上の差をつける。Anthropicは「コードの欠陥を見逃す確率が約4分の1に下がった」と説明し、ハルシネーション低減と”正直さ”の向上を中心テーマに据える。

42日というサイクルの短さも目立つ。生成AI市場での主導権争いが、半年単位から数十日単位の競争に切り替わっている。

料金は通常据え置き、Fast modeが2.5倍速・3倍安に

気になる料金は、通常モードが4.7から完全据え置き。100万トークンあたり、入力5ドル、出力25ドルのまま動く。

変わるのはFast mode。4.7時代は入力30ドル/出力150ドルだったが、4.8は10ドル/50ドルへと値下げした。速度も従来の最大2.5倍。同条件で換算するとおよそ3倍安い計算になる。Anthropicは新Fast modeを、コーディング系の長時間タスクや、エージェント並列実行を後押しする用途に位置付ける。

利用先はclaude.ai、Claude Code、API、Coworkの4つ。APIでは識別子`claude-opus-4-8`で呼び出す。

「エフォートコントロール」「Dynamic Workflows」を新搭載

4.7との違いで特に大きいのが、3つの新機能だ。

エフォートコントロール

claude.aiおよびCoworkのモデル選択欄に隣接する新UIで、Claudeが応答にかける”思考の深さ”をユーザー側が選べる。低いほど応答は速くレートリミットの消費も抑えられ、高いほど推論に時間と計算を使う。設定は5段階で、`low` `medium` `high`(デフォルト)`xhigh` `max`。APIではoutput_config内のeffortパラメータとして扱い、テキスト出力・ツール呼び出し・推論にまたがるトークン総量を制御する。

Dynamic Workflows

Claude Codeの新機能。1セッション内でオーケストレーター役のエージェントが、最大1,000個のサブエージェントを実行できる(同時並列は16個まで)。マルチファイルのリファクタリング、広範囲のテストマトリクス、複数解の同時探索といった分岐の多い処理で力を発揮する設計だ。xhighのeffort設定と、後述のシステムエントリ挿入機能を前提に動く。

Messages APIのシステムエントリ挿入

Messages APIのmessages配列に、userとassistantだけでなくsystemエントリを途中で差し込めるようになった。会話開始後でも指示や権限を更新でき、しかもプロンプトキャッシュを壊さない。Dynamic Workflowsで親エージェントが子エージェントを途中投入できるのは、この基盤があってこそだ。

開発コミュニティの反応と業務AI市場への影響

価格据え置きでベンチマークと機能が伸びる構図に、開発コミュニティからは歓迎が広がる。X上では「4.7が出てまだ42日なのに」「Fast modeが3倍安いのは大きい」といった反応が相次ぐ。

VentureBeatは4.8の特徴として「3倍安いFast mode」と「アライメント面の改善」を挙げる。The New Stackも「ハルシネーション低減と、コーディング・正直さでの進歩」を主な進化点として整理した。

GPT-5.5との比較では、SWE-bench Proで10pt超、GDPval-AAで121 Elo差。Anthropicが長所とするコーディング・知識作業の領域で優位を保つ。一方、ベンチマークの細部ではOpus 4.8が劣る項目もあると伝える媒体もあり、選定時の比較は欠かせない。

Claude Code上の自動化とDynamic Workflowsを軸に、企業内エージェント運用の主流が、単発の高性能モデルから「親エージェント+数百並列のサブエージェント」型へと動き始める。エフォートコントロールで思考量を選べる仕組みは、コスト感のあるユーザーがOpusを”常用”できる入口にもなる。料金体系の置き方も含め、4.8はベンチマーク更新であり、同時に運用設計そのものを変える更新となる。

[文/構成 by MEDIA DOGS編集部]

コメントはこちら

*
*
* (公開されません)

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

ライフハック/実用

More

グルメ

More

エンタメ

More

社会/ニュース

More

旅行/スポット

More

ファッション/ビューティー

More
Return Top