OpenAIは、開発者向けのRealtime APIに3つの新しい音声インテリジェンス機能を追加したと発表しました。70言語以上の音声入力に対応したリアルタイム翻訳、GPT-5クラスの推論を音声会話に組み込んだ新モデル、そして会話中のライブ文字起こしが一挙に登場し、音声を活用したアプリ開発の選択肢が大きく広がります。

モデル名主な機能課金方式
GPT-Realtime-2GPT-5クラスの推論を持つ音声会話モデルトークン消費量に応じた課金
GPT-Realtime-Translateリアルタイム音声翻訳(70言語以上の入力・13言語の出力)分単位の課金
GPT-Realtime-Whisperライブ音声文字起こし(会話中にリアルタイムで取得)分単位の課金

OpenAIは今回の発表について、「リアルタイム音声を単純な呼びかけ・応答から、実際に作業できる音声インターフェースへと転換するもの」と述べています。

GPT-5クラスの推論が音声会話に入る——各モデルの中身を解説

GPT-Realtime-2の推論能力

GPT-Realtime-2は、前モデルのGPT-Realtime-1.5とは異なり、GPT-5クラスの推論能力を備えて構築されています。OpenAIによると、ユーザーからのより複雑なリクエストに対応することを目的として設計されています。たとえば、複雑な手順を尋ねるユーザーに対して、会話の流れの中で推論しながら段階的に回答するといった体験が、開発者はAPIを通じてアプリに組み込めるようになります。

GPT-Realtime-Translateの言語対応

GPT-Realtime-Translateは、ユーザーの会話のペースに「ついていく」形でリアルタイム翻訳を提供します。入力言語(理解できる言語)は70言語以上、出力言語(話者に返す言語)は13言語に対応しています。

ガードレールと活用領域

OpenAIは、スパム・詐欺・その他のオンライン悪用に利用されないよう、ガードレールを組み込んでいると説明しています。「有害コンテンツガイドラインに違反していると検知された場合、会話を停止できる」トリガーがシステムに埋め込まれているとのことです。ただし、これらのツールが悪用される可能性があることも同社は認めています。

想定される活用領域として、OpenAIはカスタマーサービス・教育・メディア・イベント・クリエイタープラットフォームなどを挙げています。

音声AIの「実用化フェーズ」が本格化する転換点か

単純な呼びかけ・応答にとどまらず、会話の中でリアルタイムに推論・翻訳・文字起こしを行う機能が一つのAPIで揃ったことで、開発者が音声機能をアプリやサービスに組み込む際のハードルが下がる可能性があります。カスタマーサービスや教育分野を中心に、音声AIを活用したサービス開発の動きが加速すると見られます。

Q&A

Q. 今回の3モデルはどこから利用できますか? A. いずれもOpenAIのRealtime APIに含まれる形で提供されます。エンドユーザーが直接利用するものではなく、開発者がAPIを通じてアプリやサービスに組み込む形での利用が前提です。

Q. 料金体系はモデルによって異なりますか? A. はい、異なります。GPT-Realtime-2はトークン消費量に応じた課金、GPT-Realtime-TranslateとGPT-Realtime-Whisperは分単位の課金となっています。

Q. GPT-Realtime-Translateは日本語に対応していますか? A. ソース記事では入力言語70言語以上・出力言語13言語と記載されていますが、日本語が含まれるかどうかは明記されていません。詳細は出典元をご確認ください。

このアップデートで変わること・変わらないこと

変わること

  • Realtime APIでGPT-5クラスの推論を持つ音声会話モデル(GPT-Realtime-2)が利用可能になった
  • 70言語以上の入力・13言語の出力に対応したリアルタイム音声翻訳(GPT-Realtime-Translate)が追加された=多言語対応のカスタマーサービスや教育アプリを単一APIで構築できる
  • 会話中にリアルタイムで音声を文字起こしするGPT-Realtime-Whisperが利用可能になった
  • 有害コンテンツ検知時に会話を自動停止するガードレールが組み込まれた

現時点で変わらないこと

  • 提供はRealtime API経由のみであり、一般ユーザーが直接利用できるコンシューマー向けサービスへの展開はソース記事では言及されていません
  • 出力言語は13言語に限定されており、すべての言語への翻訳出力には対応していません

出典