GoogleがAndroidアプリ開発向けAIモデルのベンチマーク「Android Bench」を2026年5月18日付で更新し、2026年5月21日時点でOpenAIのGPT 5.5がスコア74で首位に立ったと9to5Googleが報じています。Android Benchは、一般的なAndroid開発タスクの解決能力やベストプラクティスへの対応度を評価する指標で、AIモデルが実際のアプリ開発現場でどの程度役立つかを測るために設計されています。今回のアップデートでは平均レイテンシ・平均トークン消費・平均コストの3指標が新たに公開され、性能とコストのトレードオフがより鮮明に見える内容となっています。

GPT 5.5がスコア74で首位、僅差で前モデルを更新

最新ランキングでは、GPT 5.5がスコア74を獲得し、GPT 5.4(72.4)とGemini 3.1 Pro Preview(72.4)を「2%弱(a little under 2%)」差で上回りました。Android Benchが初めて公開された際にはGemini 3.1 Proが首位で、その後GPT 5.4が同点に並んだ経緯がありますが、今回のGPT 5.5登場で首位が入れ替わった格好です。

スコア差自体は僅かながら、新たに開示されたコスト指標を見るとGPT 5.5の高性能には相応の代償が伴っていることが分かります。GPT 5.5を1回のベンチマーク実行にかけた平均コストは$133.9(約2万円)で、Gemini 3.1 Pro Previewの$49.0(約7,300円)の2倍以上に達しているのです。9to5Googleも「GPT 5.5は性能で僅かに上回るものの、同等の処理にGemini 3.1 Proの2倍超のコストがかかる」と指摘しています。

新指標「レイテンシ・トークン・コスト」で実用性が見える化

今回のアップデートで追加された3つの指標は、いずれもAIモデルを実運用する際の重要なファクターです。Googleはベンチマーク用ドキュメントの中で、各指標の算出方法を以下のように定義しています。

  • 平均レイテンシ(Avg Latency): 10回の実行を通じて100タスクを解決するのにかかった時間
  • 平均総トークン(Avg Total Tokens): 10回の実行にわたる1ベンチマーク分のトークン消費
  • 平均コスト(Avg Cost): テスト時点でのベンチマーク1回あたりのコスト(米ドル建て)

この3指標を併せて読むと、各モデルの立ち位置が一気に明確になります。たとえばGemini 3.1 Pro PreviewはGPT 5.5よりスコアこそ僅かに下回るものの、レイテンシ11.5・トークン消費75.4・コスト$49.0と高い費用対効果を示します。一方でGPT 5.2 Codexはレイテンシ24.3・トークン消費124.4と重く、コストも$121.9(約1万8千円)に達するなど、スコア62.5に対して負担が大きい構造が浮かび上がります。

Top 10ランキング詳細——速度・コスト・スコアの三角関係

2026年5月21日時点のTop 10は以下の通りです。スコアだけでなく、レイテンシとコストの差を併せて見ると各モデルの立ち位置が明確になります。

モデルスコア平均レイテンシ平均トークン平均コスト
GPT 5.5(新規)7415.564.5$133.9
GPT 5.472.421.264.2$91.7
Gemini 3.1 Pro Preview72.411.575.4$49.0
Claude Opus 4.7(新規)68.711.690.0$124.3
GPT 5.3 Codex67.711.271.4$42.6
Claude Opus 4.666.69.969.5$84.4
GPT 5.2 Codex62.524.3124.4$121.9
Claude Opus 4.561.912.579.8$102.5
Gemini 3 Pro Preview60.49.8117.0$63.7
GLM 5.1(新規)59.733.480.2$46.7

特筆すべきはGPT 5.3 Codexで、スコア67.7・トークン消費71.4と上位グループに迫りながら、コストは$42.6(約6,400円)と本Top 10の中で最も低い水準にあります。コスト効率を重視するなら、最上位のGPT 5.5よりも実用的な選択肢となる可能性があります。逆に、レイテンシ最速はGemini 3 Pro Previewの9.8、続いてClaude Opus 4.6の9.9で、応答速度を最優先するならこの2モデルが候補となります。

オープンウェイトモデルの参入とGemini 3.5への期待

今回のアップデートでは、Gemma・Qwen・DeepSeek・MiMoといったオープンウェイトモデルが多数追加された点も注目です。これらの中ではGLM 5.1が最高スコア59.7を記録し、続いてKimi K2.6が高評価を得ています。GLM 5.1のトークン消費は80.2・コストは$46.7(約7,000円)と低水準ですが、レイテンシは33.4と上位モデルの2倍以上を要しており、応答速度と価格のトレードオフが顕著に表れています。

今後の焦点となるのは、すでに提供開始されているGemini 3.5 Flashと、近く投入予定とされるGemini 3.5 Proです。OpenAIに首位を奪われた形のGoogleが、自社最新モデルでどこまで巻き返せるかが次回以降のアップデートで問われることになります。Android Benchは概ね月次で更新されているため、続報を待ちたいところです。

レイテンシ重視ならGemini 3 Pro Preview/Claude Opus 4.6、コスト重視ならGPT 5.3 Codex

Androidアプリ開発でAIモデルを使い分けている読者にとっては、スコアだけで選ぶのではなく、自身のユースケースに応じて「速度重視か」「コスト重視か」「最高精度か」を見極めることが重要です。短時間で大量のタスクを回す用途ならレイテンシ9.8のGemini 3 Pro Previewやレイテンシ9.9のClaude Opus 4.6が、コスト最適化を狙うならコスト$42.6のGPT 5.3 CodexやGLM 5.1($46.7)が候補となります。GPT 5.5($133.9)とGemini 3.1 Pro Preview($49.0)のコスト差を支払うだけの性能差があるかどうかは、開発するアプリの規模や品質要件次第と判断するのが妥当でしょう。

Q&A

Q. GPT 5.5は本当にGemini 3.1 Proより優れているのですか? スコアは74対72.4で「2%弱」の差です。性能では僅かに上回りますが、1回のベンチマーク実行コストはGPT 5.5の$133.9(約2万円)に対しGemini 3.1 Proが$49.0(約7,300円)と、2倍以上の開きがあります。総合的な費用対効果ではGemini 3.1 Proが優位な場面も多いと考えられます。

Q. 自分のアプリ開発に今すぐ使うならどれを選ぶべきですか? 用途次第で最適解は変わります。最高精度を狙うならGPT 5.5(スコア74)、レイテンシを優先するならGemini 3 Pro Preview(9.8)またはClaude Opus 4.6(9.9)、コスト最適化ならGPT 5.3 Codex(スコア67.7・$42.6)が有力です。オープンウェイトを試したい場合はGLM 5.1(スコア59.7・トークン消費80.2・$46.7)が候補となりますが、レイテンシ33.4と応答時間が長い点は留意してください。

Q. コスト$133.9はあくまでベンチマーク実行費ですが、実際のアプリ開発での月額費用はどの程度になりますか? Android Benchで示される$133.9はあくまで「ベンチマーク1回・10回の実行平均」のコストであり、実プロジェクトでの月額費用ではありません。実運用コストは、開発タスクの量、入出力トークン数、リトライ頻度などに大きく左右されるため、Android Bench単体では推定できません。現時点で詳細は公表されていないため、各モデルのAPI公式価格を基に自身のワークロードで試算するのが現実的です。

出典