点数を競ったのは、米OpenAIの「ChatGPT」(GPT-4)、米Googleの「Bard」、米Anthropicの「Claude2」の3つの文章生成AI。企業へのAI導入コンサルティングなどを手掛けるLifePrompt(東京都千代田区)による実験だ。 結果を一読して意外だったのは、数学の正答率の圧倒的な低さだ。どのAIも受験生の平均点予想を上回れず、正答率は最大で46%(ChatGPTの「数学2B」)。Bardの「数学1A」に至ってはわずか6%しか取れていない。英語や国語、歴史科目などに比べても、目に見えて低い数字だ。 AIやコンピュータ、ロボットが「できること」のイメージは、ChatGPT以降、大きく変わったように思う。それまでは、AIやコンピュータは、特に数字や計算に関しては「間違わない」イメージがあった。今回の実験ブログを読む前、筆者も「受験5教科の中なら、AIは数学が一番得