「strawberry」のRが3つであることを証明するのに、世界最大のAI企業はかなりの期間を要した。OpenAIがX(旧Twitter)で「ついに(at long last)」修正を高らかに告知した直後、同じ論理で「cranberry」のRを「1つ」と答えるChatGPTが確認されている——正解は同じく3つだ。"直った"はずの問題の隣で、同じ誤りが静かに続いている。
AIが「3つのR」をかなりの期間数えられなかった背景——strawberry問題が示すLLMの弱点
「strawberry(ストロベリー)という単語に文字Rは何回登場しますか」——この問いに対し、ChatGPTはかなりの期間にわたって誤答を返し続けてきた。正解は3つ(strawberry)だが、モデルは誤った答えを返し、ユーザーが「3つあるはずです」と指摘しても誤りを認めずに押し通す場面が繰り返し記録されてきた。他のAIモデルも同様の問題を抱えていたとされており、大規模言語モデルが持つ文字レベルの認識の弱点として広く知られた事例だ。
同時に修正されたとされるもう一つのケースが、「今日車を洗いたいが、洗車場は50メートル先にある。歩いていくべきか、車で行くべきか」という質問だ。以前のChatGPTはこの問いに「歩いていくべき」と自信満々に答えることが多くあった。洗車のために車を使わないという明白な矛盾を見抜けず、論理的でない回答を返し続けていた。現在、この両方の質問には正しく答えられることが確認されている。
「cranberry」のRは今も「1つ」——OpenAIの「修正」がハードコードだった可能性
OpenAIのX投稿への返信には、修正後も同様の論理問題で誤答するケースが多数報告されている。代表的なのが「cranberry(クランベリー)」だ。「cranberry にRはいくつ含まれますか」という質問に、ChatGPTは繰り返し「The word 'cranberry' has 1 'R'(cranberryのRは1つです)」と回答する。「cranberry」には実際にRが3つ含まれており、strawberryと同じR数の問題で、同じ種類の誤りを犯している。
9to5Googleが指摘するように、特定の単語に対してのみ正解を返せるのであれば、それは推論能力の改善ではなく、答えを事前に記憶させた「ハードコード」に過ぎない。AIチャットボットで個別の問題を事前定義で対処する手法自体は珍しくないが、根本的な問題が明らかに残ったままで「ついに修正した」と高らかに告知することについて、9to5Googleはある種ディストピア的な意味で少し笑えると評している。
strawberryとcranberryは、この修正の表と裏を映し出している。OpenAIが解決済みとしたstrawberryは今や正答するが、同じ構造のcranberryは依然として誤答する。これは修正が「strawberry」という単語への個別対処であった可能性を強く示唆しており、推論エンジンそのものへの手入れがなされたとは言えない状況だ。
自信満々に間違え、訂正を拒む——ChatGPTが抱える構造的な課題
今回の事例が繰り返し取り上げられる理由は、単なる文字の数え間違いではなく、AIが持つ「自信過剰な誤答」という構造的な課題を如実に示しているからだ。
チャットボットは情報が誤っていても確信を持って答え、ユーザーが訂正しても誤りを認めずに押し通す場合がある。これはこれらのツールの危険性として頻繁に示される問題であり、大量の計算リソースを消費するAIシステムが文字の数え問題で自信を持って誤答し続けるという現実は、現在のLLMの限界を端的に示している。
ユーザーとして取るべき姿勢は明確だ。ChatGPTが正解を返せるようになった「strawberry」の隣に、同じ誤りを犯し続ける「cranberry」が存在している以上、AIの回答を鵜呑みにせず、重要な情報は自分で検証することが引き続き求められる。
よくある質問
Q. 「strawberry」と同じ構造を持つ別の単語でも、同様の誤りが起きますか? 「cranberry」での誤答がすでに確認されていることから、ハードコードによる個別対処であれば、列挙されていない単語では依然として誤答するリスクがあります。推論能力そのものが改善されない限り、別の単語や論理問題で同じ種類の誤りが起きる可能性は十分にあります。
Q. この問題はChatGPT特有ですか? 9to5Googleは他のAIモデルも同様の問題を抱えていたと報じています。文字レベルの認識はLLM全般に共通する弱点であり、ChatGPT固有の欠陥ではありません。
Q. 今回の「修正」をどう受け止めるべきですか? 特定の単語を個別に直した対処である以上、推論能力の全般的な改善とは言えません。「cranberry」のような未修正の問題が残っている現時点では、AIの出力を批判的に確認する姿勢を維持することが依然として重要です。ファクトチェックが必要な情報については、AIの回答を出発点として扱い、自分で確認する習慣をつけることを推奨します。
