Google DeepMindから次世代のマルチモーダル生成AI「Gemini」が発表されました。「GPT-4を圧倒」や「人間の専門家を超えた」などの華々しい評価が発表され、驚くようなデモ動画も公開されました。 断片的な情報が飛び交う中、しっかりと技術レポートを読み解いてみます。 どんな生成AIモデル? 定量的な評価は? 具体例は? Gemini - Technical Report はじめに革新的な技術が登場したとき、技術レポートや論文をしっかりと読むことが、急がば回れの近道です。華々しいデモ動画や断片的な二次情報の記事を読んでも、表層的な情報に踊らされて、技術の真の姿を読み解くことはできません。 Geminiに関しては、オープンソースではなく論文もありませんが、技術レポートが公開されています。しかし、60ページの大作であり、英語で書かれているため、多くの人が読むのをためらうでしょう。
![Geminiの技術レポートを読み解く〜生成AIの最前線|Ray | 旅する魔法使い](https://cdn-ak-scissors.b.st-hatena.com/image/square/bcb0423c1c8a5acd51d4e3e6db67b197b9f38a98/height=288;version=1;width=512/https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F123922217%2Frectangle_large_type_2_14754afae12c958ab0eeb7541956192e.jpeg%3Ffit%3Dbounds%26quality%3D85%26width%3D1280)