GPT-5.4が人間を超えた日——でも、あなたの仕事はまだ変わっていない理由

「AIがついに人間を超えました」——このフレーズ、ここ数年で何回聞いたか覚えていますか？

チェス、囲碁、画像認識、医療診断……。そのたびに「もう人間の出番はない」と言われてきました。そして2026年3月、OpenAIが発表したGPT-5.4が、コンピュータ操作のベンチマークで人間のスコアを初めて上回りました。

でも、あなたの月曜日の朝はどうですか？　相変わらずメールの山を片づけ、会議に出て、Excelで数字をまとめていませんか？

この記事では、「超えた」とは具体的に何を超えたのか、そして超えていないものは何かを、数字をもとに冷静に整理します。

今週押さえるべき3つのニュース

#	ニュースの要点	なぜ重要か
1	GPT-5.4がOSWorld-Verifiedで75.0%を記録し、人間の72.4%を突破	「コンピュータ操作」で初めてAIが人間超え
2	Morgan Stanleyが「世界の大半はAIブレークスルーに準備できていない」と警告	技術の進化と現場の乖離が拡大
3	業界コンセンサス：「1つのモデルが全てを支配する時代」は終了	ツールの選び方が成果を左右する時代へ

1. GPT-5.4が「超えた」もの——OSWorldベンチマークの正体

何が起きたか

OpenAIが2026年3月にリリースしたGPT-5.4は、**コンピュータ操作機能（Computer Use）**を搭載した最新モデルです。注目を集めたのは、OSWorld-Verifiedというベンチマークでのスコアでした。

モデル	OSWorld-Verifiedスコア	人間との比較
GPT-5.2（前世代）	47.3%	人間の65%水準
GPT-5.4	75.0%	人間超え（+2.6pt）
人間ベースライン	72.4%	—

わずか1世代で**47.3%→75.0%**へ。約28ポイントの跳躍は、確かに驚異的です。

「コンピュータ操作」とは何を測っているのか

ここで重要なのは、何を測ったベンチマークかという点です。

OSWorld-Verifiedが評価するのは、「画面を見てマウスやキーボードを操作し、指示通りのタスクを完了できるか」という能力です。たとえば：

ブラウザを開いて特定の情報を検索する
スプレッドシートにデータを入力する
ファイルをフォルダ間で移動する

つまり、**人間が日常的にPCで行う「定型的な操作」**を自動化する能力です。

超えていないもの

GPT-5.4が超えたのは「PC操作の正確さ」であって、「仕事そのもの」ではありません。

仕事は操作だけでは成り立ちません。誰に連絡すべきか判断する、空気を読んで優先順位を変える、顧客の曖昧な要望を解釈する——こうした能力はベンチマークの測定対象外です。

「人間超え」という表現は正確ですが、超えた領域はあくまで限定的であることを押さえておきましょう。

2. Morgan Stanleyの警告——「準備できていない」の意味

GPT-5.4 Thinkingの実力

GPT-5.4には推論に特化したThinkingモードも搭載されています。Morgan Stanleyのレポートが注目したのは、GDPValベンチマークでのスコアです。

ベンチマーク	GPT-5.4 Thinkingスコア	比較対象
GDPVal（経済分析）	83.0%	人間専門家レベル
OSWorld-Verified（PC操作）	75.0%	人間ベースライン超え

経済分析においても人間の専門家と同等のパフォーマンス。これを受けてMorgan Stanleyは、こう警告しています。

「AIブレークスルーは確実に来る。しかし、世界の大半はまだ準備ができていない」

「準備できていない」とは具体的に何か

Morgan Stanleyの指摘するギャップを整理すると、以下のようになります。

準備が必要な領域	現状
社内データの整備	多くの企業でデータがバラバラに管理されている
業務プロセスの再設計	AIを「追加」するだけでは効果が限定的
人材のリスキリング	AI活用スキルを持つ社員が圧倒的に不足
ガバナンスの構築	AIの判断をどこまで信頼するかのルールが未整備

つまり、AIの性能が上がっても、受け入れる側の「器」が整っていなければ恩恵は得られないのです。これが「あなたの仕事がまだ変わっていない」最大の理由です。

3. 「1強時代」の終焉——AIは「使い分け」の時代へ

各モデルの得意領域マップ

2026年3月時点で、業界のコンセンサスは明確になりつつあります。1つのAIモデルがすべてを支配する時代は終わったのです。

AIモデル	得意領域	向いている用途
Claude	正確性・コーディング	文書作成、プログラミング、分析レポート
GPT-5.4	コンピュータ操作・エージェント	PC作業の自動化、複雑なワークフロー
Gemini	マルチモーダル・Google連携	画像/動画解析、Google Workspace統合
DeepSeek	低コスト	大量処理、コスト重視のタスク

なぜこれが重要なのか

「最強のAIを選ぶ」ではなく、「自分のタスクに合ったAIを選ぶ」が正解になりました。

これは、AIが「魔法の道具」から**「用途別の実用ツール」に変わったことを意味します。ドライバーとペンチの「どちらが強いか」を議論しても意味がないのと同じで、AIもまた目的に合った使い分け**が求められる段階に入りました。

あなたが今日からできる3つのこと

ベンチマークの数字に一喜一憂するのではなく、「準備」を始めることが大切です。

1. 自分の仕事を「操作」と「判断」に分ける

GPT-5.4が超えたのは「操作」の領域です。自分の1日の業務を振り返り、定型的な操作に費やしている時間を洗い出しましょう。そこがAIで最初に効率化できるポイントです。

2. 1つのAIに固執しない

各モデルに得意・不得意があります。文章作成ならClaude、PC操作の自動化ならGPT-5.4、Google系ツールとの連携ならGeminiと、タスクごとに最適なツールを選ぶ習慣をつけましょう。

3. 「AIに置き換えられない仕事」に時間を振り向ける

対面でのコミュニケーション、関係構築、曖昧な状況での判断——これらは当面AIが苦手とする領域です。定型業務をAIに任せ、人間にしかできない仕事に集中する時間を増やすことが最大の「準備」です。

まとめ

ポイント	内容
GPT-5.4が超えたもの	PC操作の正確性（OSWorld-Verified: 75.0% vs 人間72.4%）
GPT-5.4が超えていないもの	判断力、文脈理解、対人コミュニケーション
Morgan Stanleyの警告	技術は準備できたが、企業・社会の「器」が追いついていない
AI選びの新常識	1強ではなく、タスク別の使い分けが正解
今すぐやるべきこと	自分の業務を「操作」と「判断」に分類し、操作からAI化を検討

「AIが人間を超えた」というニュースは、これからも繰り返し流れてくるでしょう。大切なのは、何を超えたのかを正確に理解し、自分の仕事のどこに影響するかを冷静に見極めることです。焦る必要はありません。しかし、準備を始めない理由もありません。