OpenAIが2026年5月6日、AMD・NVIDIA・Intel・Microsoft・Broadcomの5社と共同で、大規模AI学習クラスター向けの新しいオープンネットワーク規格「MRC(Multipath Reliable Connection)」を発表しました。この規格はOCP(Open Compute Project)を通じてAI業界全体に公開されており、OpenAIはすでに自社のスーパーコンピューターへの導入を完了しています。

GPUが「待ちぼうけ」になる問題を解決する

大規模なAIモデルを学習させる際、ネットワーク上のデータ転送が1件でも遅延すると、それだけで処理全体が止まり、GPUがアイドル状態になってしまいます。Wccftechによると、この遅延の主な原因はネットワーク輻輳(ふくそう)、リンク障害、デバイス障害の3つで、クラスターの規模が大きくなるほど発生頻度が高まるとされています。

MRCはこの問題に対し、1本の800 Gb/sネットワークインターフェースを複数の小さなリンクに分割するアプローチで対処します。OpenAIの説明によると、1つのインターフェースを8つの異なるスイッチに接続し、それぞれ100 Gb/sで動作する8本の並列ネットワーク(プレーン)を構築できます。

この構成変更がクラスター設計に与える影響は大きく、64ポートで800 Gb/s接続に対応するスイッチが、100 Gb/s構成では512ポートに対応できるようになります。結果として、約131,000基のGPUをフルメッシュ接続するネットワークをスイッチ2階層のみで構築できるとOpenAIは述べています。従来の800 Gb/s構成では3〜4階層が必要だったため、構成の大幅な簡素化が実現します。

2年間の共同開発を経てOCPで公開

MRCはOpenAIがAMD・Broadcom・Intel・Microsoft・NVIDIAと過去2年間にわたって共同開発した規格です。最新の800 Gb/sネットワークインターフェースに組み込まれており、単一の転送を数百の独立したパスに分散させ、障害発生時にはマイクロ秒単位で迂回経路に切り替えられる設計になっています。

技術的には既存のRDMA over RoCE(Converged Ethernet)を拡張する形で実装されており、GPUおよびCPUに対するハードウェアアクセラレーテッドなリモートダイレクトメモリアクセスを可能にします。

OpenAIはすでにNVIDIA GB200「Blackwell」GPUを搭載した自社スーパーコンピューターにMRCを展開済みで、テキサス州アビリーンのOracle Cloud Infrastructure(OCI)と、MicrosoftのFairwaterスーパーコンピューターが対象となっています。現時点でMRCはNVIDIAおよびBroadcomのハードウェア上で複数のOpenAIモデルの学習に使用されています。

Stargateへの展開と業界全体への波及

MRCはOpenAIのスーパーコンピュータープロジェクト「Stargate」の基盤技術としても位置づけられています。StargateはOracle Cloud Infrastructureがテキサス州アビリーンで建設中のもので、2029年までに10GWのAI演算能力の展開を目標としており、過去3か月間ですでに3GW以上を展開済みとされています。

OCP経由でオープン規格として公開されたことで、OpenAI以外のAI企業もMRCを採用できる環境が整いました。業界横断での大規模AI学習インフラの標準化が進む可能性があります。

MRCの動向は、大規模AIモデルの開発コストや学習速度に直結するため、AI開発に携わるエンジニアやインフラ担当者は今後の採用事例や対応ハードウェアの情報を継続的に追うことをお勧めします。

Q&A

Q. MRCはどこで入手・利用できますか? MRCはOCP(Open Compute Project)を通じて公開されており、AI業界全体が利用できる形で提供されています。ただし、最新の800 Gb/sネットワークインターフェースへの組み込みが前提となります。

Q. MRCは既存のネットワーク規格と互換性がありますか? MRCは既存のRDMA over RoCE(Converged Ethernet)を拡張する形で設計されており、GPUおよびCPUのハードウェアアクセラレーテッドなメモリアクセスと組み合わせて動作します。

出典