OpenAIが音声AI 3種をAPI公開——GPT-Realtime-2は70言語入力・13言語出力に対応

OpenAIは、開発者向けRealtime APIに3つの新しい音声モデルを追加したと発表しました。

GPT-5クラスの推論能力を備えた会話モデル「GPT-Realtime-2」、70の入力言語と13の出力言語をサポートするリアルタイム翻訳「GPT-Realtime-Translate」、ライブ文字起こしに対応する「GPT-Realtime-Whisper」の3種です。

OpenAIは、単純な一問一答の音声応答から、聞き取り・推論・翻訳・文字起こし・行動までを会話の流れに沿って実行できる音声インターフェースへの進化と位置付けています。

3つの新音声モデルが追加——Realtime APIで何ができるようになったか

OpenAIは木曜日、開発者向けのRealtime APIに複数の新しい音声インテリジェンス機能を追加したと発表しました。ユーザーと会話したり、文字起こしや翻訳を行うアプリケーションを開発者が構築できるようにすることが目的です。

中核となるのは、リアルな音声シミュレーションでユーザーと会話できる新モデル「GPT-Realtime-2」です。前世代の「GPT-Realtime-1.5」と異なり、GPT-Realtime-2にはGPT-5クラスの推論能力が組み込まれており、より複雑なユーザーリクエストに対応できるとOpenAIは説明しています。

2つ目の「GPT-Realtime-Translate」は、その名の通りリアルタイム翻訳に特化したモデルです。会話のテンポに合わせて翻訳を行い（OpenAIはユーザーにkeep paceするとしています）、70を超える入力言語と13の出力言語をサポートします。3つ目の「GPT-Realtime-Whisper」は、対話の進行と同時にライブで音声を文字起こしする新しい書き起こし機能です。

モデル	主な役割	特徴
GPT-Realtime-2	対話	GPT-5クラス推論を搭載
GPT-Realtime-Translate	翻訳	入力70言語以上／出力13言語
GPT-Realtime-Whisper	文字起こし	ライブ音声をテキスト化

OpenAIはこれらのモデルについて、リアルタイム音声を単純な一問一答から、会話の進行に合わせて聞き、推論し、翻訳し、文字起こしし、行動を取る——実際に仕事ができる音声インターフェースへと進化させるものだと説明しています。

課金体系・対象ユースケース・安全策——APIで提供される条件

新しい音声モデル群はすべてOpenAIのRealtime API経由で提供されます。課金体系はモデルによって異なり、GPT-Realtime-TranslateとGPT-Realtime-Whisperは分単位での課金、GPT-Realtime-2はトークン消費量に応じた課金となります。利用は開発者（API利用者）向けで、コンシューマー向けアプリへの組み込みは各開発者の実装次第となります。

OpenAIが想定する活用領域として明確に挙げられているのは、カスタマーサポート機能を拡張したい企業ですが、それだけにとどまりません。教育、メディア、イベント、クリエイタープラットフォームなど、幅広い分野での活用が見込まれているとされています。

一方で、こうしたリアルタイム音声生成機能はスパム、詐欺、その他のオンライン上の悪用に転用される可能性もあります。TechCrunchによると、エンタープライズ用途で有用に見える反面、悪用される可能性は十分にあり得る（seems plausible）と指摘されています。

OpenAIはこの点に対して、悪用を防ぐためのガードレールを組み込んだと説明しており、特定のトリガーがシステムに埋め込まれているとしています。同社は、会話が有害コンテンツガイドラインに違反していると検出された場合にはその会話を停止できると述べています。これにより、リアルタイム性を維持しながらも、生成中の対話を即座に遮断する仕組みを整えた格好です。

「応答するAI」から「実務をこなすAI」への移行点

今回の発表で印象的なのは、OpenAIが音声AIを「会話の相手」ではなく「会話の流れの中で実務をこなす存在」として位置付け直している点です。聞き取り、推論、翻訳、文字起こし、行動までを一連の流れとして扱う設計思想は、これまでのIVR（自動音声応答）や単機能の音声アシスタントとは性格が異なるものになると見られます。

日本のユーザーや企業にとっても、多言語のライブ翻訳や問い合わせ対応の自動化は実務インパクトが大きい領域と考えられます。一方で、開発者向けAPIとしての提供であるため、実際にエンドユーザーが体験する形態は各サービス側の実装に依存することになりそうです。競合する音声AIとの開発者囲い込み競争は、今後さらに激しくなる可能性があります。

このアップデートで変わること・変わらないこと

変わること

Realtime APIで利用できる音声モデルが3種類に拡張され、対話・翻訳・文字起こしを個別に呼び出せるようになりました
対話モデルがGPT-Realtime-1.5からGPT-Realtime-2へ更新され、GPT-5クラスの推論能力が組み込まれました
翻訳モデルが入力70言語以上・出力13言語に対応し、会話のテンポに追従するリアルタイム翻訳が可能になりました
有害コンテンツガイドライン違反を検出した場合、会話を停止できるガードレールが組み込まれました

現時点で変わらないこと

提供チャネルはOpenAIのRealtime API経由であり、開発者（API利用者）向けという位置付けは継続します
課金は従量制が維持され、Translate・Whisperは分単位、GPT-Realtime-2はトークン消費量による課金です
コンシューマー向けアプリでの利用形態は各開発者の実装に依存します

Q&A

Q. GPT-Realtime-2と前世代のGPT-Realtime-1.5の違いは何ですか？ A. GPT-Realtime-2にはGPT-5クラスの推論能力が組み込まれており、より複雑なユーザーリクエストに対応できるよう設計されている点が違いです。基本となる「リアルな音声シミュレーションでユーザーと会話する」役割は共通しています。

Q. GPT-Realtime-Translateは何言語に対応していますか？ A. 入力（理解できる言語）は70を超える言語、出力（話者に返す言語）は13言語に対応しているとOpenAIは説明しています。会話のテンポに追いつく形でリアルタイム翻訳を行うことが特徴です。

Q. これらのモデルはどう課金されますか？ A. GPT-Realtime-TranslateとGPT-Realtime-Whisperは分単位での課金、GPT-Realtime-2はトークン消費量に応じた課金となります。いずれもRealtime API経由での提供です。