OpenAIは2026年5月6日、AMD・NVIDIA・Intel・Microsoft・Broadcomと共同で、大規模AI訓練クラスター向けの新オープンネットワーキングプロトコル「MRC(Multipath Reliable Connection)」を発表しました。AI訓練を遅らせる主因であるネットワーク輻輳・リンク障害・デバイス障害に対して、800Gb/sリンクを複数の小さなプレーンに分割して並列化することで、GPUの遊休時間を削減することを狙ったプロトコルです。OpenAIによれば、MRCを使うと約131,000基のGPUをわずか2階層のスイッチで全結合でき、従来の3〜4階層構成より大幅にシンプルになります。これは大規模モデル訓練の効率と耐障害性に直結し、訓練クラスターの設計コストや障害時のロス削減につながる変化です。

5社が2年がかりで作ったオープン規格「MRC」

今回の発表は、OpenAIが半導体・クラウド・ネットワーキングの主要プレイヤー5社(AMD、Broadcom、Intel、Microsoft、NVIDIA)を巻き込んだ大型パートナーシップとして示されました。OpenAIによると、5社は過去2年間にわたってMRCの開発に取り組んできました。プロトコルはOpen Compute Project(OCP)を通じて公開されており、業界全体で広く利用できる形となっています。

MRCが解決するのは、大規模AIモデルの訓練時に発生するデータ転送の遅延問題です。OpenAIの説明では、たった一つの転送が遅れるだけで訓練プロセス全体が滞り、GPUがアイドル状態になってしまいます。遅延の主因はネットワーク輻輳、リンク障害、デバイス障害で、クラスター規模が大きくなるほど発生頻度も高まる構造的な問題です。

項目内容
プロトコル名MRC(Multipath Reliable Connection)
公開元OpenAI(OCP経由で公開)
共同開発AMD・NVIDIA・Intel・Microsoft・Broadcom
開発期間過去2年間
対応インターフェース最新の800 Gb/s ネットワークインターフェース
ベース技術RDMA over RoCE(Converged Ethernet)の拡張
発表日2026年5月6日

MRCは既存のRDMA over RoCEを拡張する形で設計されており、GPUとCPUに対するハードウェアアクセラレーション付きのリモートダイレクトメモリアクセスを可能にします。

64ポートが512ポートに化ける——MRCのリンク分割

MRCの核心は、ネットワークインターフェースの扱い方を根本的に変える点にあります。OpenAIは具体例を交えて次のように説明しています。

各ネットワークインターフェースを単一の800Gb/sリンクとして扱うのではなく、複数の小さなリンクに分割し、例えば一つのインターフェースを8つの異なるスイッチに接続できるようにします。これにより、単一の800Gb/sネットワークではなく、それぞれ100Gb/sで動作する8つの独立した並列ネットワーク(プレーン)を構築できます。この変更はクラスターの形状に大きな影響を与え、800Gb/sで64ポートを接続できるスイッチは、代わりに100Gb/sで512ポートを接続できるようになります。これにより、わずか2階層のスイッチで約131,000基のGPUを全結合するネットワークを構築でき、従来の800Gb/sネットワークでは3〜4階層が必要でした。

比較項目従来の800Gb/s構成MRC方式(100Gb/s×8プレーン)
1スイッチあたりのポート数64ポート(800Gb/s)512ポート(100Gb/s)
約131,000 GPU全結合に必要な階層3〜4階層2階層
経路の冗長性単一リンク数百の並列パス
障害時の挙動マイクロ秒単位で経路切替

なお、OpenAIはNVIDIA GB200「Blackwell」GPUを搭載するスーパーコンピューター(テキサス州AbileneのOracle Cloud Infrastructure(OCI)、およびMicrosoftのFairwaterスーパーコンピューター)にすでにMRCを展開しており、フロンティアモデルの訓練に用いていると述べています。

競合5社が同じテーブルに着いた意味

通常は競合関係にある半導体・クラウド大手5社が、AI訓練基盤の共通規格で足並みを揃えた点は象徴的だと見られます。AIモデルの大規模化が進むなか、単一企業の最適化だけでは限界に近づき、業界横断の協調が不可欠な段階に入っていると考えられます。OCPで公開されオープンに利用可能となったことで、共通基盤化の流れが加速する可能性が見込まれます。日本のユーザーにとっては、訓練基盤の安定化と効率化が、生成AIサービスの応答品質や日本語対応の進化につながる追い風となることが期待されます。

このアップデートで変わること・変わらないこと

変わること

  • 800Gb/sのネットワークインターフェースを8本の100Gb/sプレーンに分割し、並列で運用できる
  • 約131,000基のGPUをわずか2階層のスイッチで全結合できる(従来は3〜4階層が必要)
  • 単一転送を数百の経路に分散させ、障害時はマイクロ秒単位で迂回できる
  • ネットワーク制御プレーンの構造をシンプルにできる
  • OCP経由で公開され、AI業界全体での共通利用が可能になる

現時点で変わらないこと

  • ベース技術はRDMA over RoCEの拡張であり、ゼロからの新規プロトコルではない
  • MRCの本格利用には最新の800 Gb/s ネットワークインターフェースが前提となる

Q&A

Q. MRCはすでに実環境で動いているのですか? A. はい。OpenAIは、NVIDIA GB200「Blackwell」GPUを搭載するスーパーコンピューターにMRCをすでに展開しています。具体的にはテキサス州AbileneのOracle Cloud Infrastructure(OCI)と、MicrosoftのFairwaterスーパーコンピューターで、フロンティアモデルの訓練に利用されているとされています。

Q. なぜ約131,000基ものGPUを2階層スイッチで接続できるのですか? A. 800Gb/sの1ポートを100Gb/sの8プレーンに分割するためです。OpenAIの説明では、800Gb/sで64ポート扱えるスイッチが、100Gb/s換算では512ポートを収容できるようになります。この拡張により、従来3〜4階層必要だった大規模クラスターを2階層で全結合できる形になります。

Q. 既存のRoCEネットワークとの関係はどうなりますか? A. MRCは既存のRDMA over RoCE(Converged Ethernet)を拡張する形で設計されています。GPUおよびCPU向けのハードウェアアクセラレーションされたリモートダイレクトメモリアクセスを引き続き活用できる仕組みで、まったく別系統の技術への置き換えを前提としたものではありません。

Q. 他のAI企業も使えるのですか? A. MRCはOCP(Open Compute Project)を通じて公開されており、業界全体での広範な利用を想定したオープンプロトコルとして設計されています。共同開発にはAMD、NVIDIA、Intel、Microsoft、Broadcomが参加しています。

出典