tamasaburou1982のブックマーク - はてなブックマーク

GPT-4o の概要｜npaka
以下の記事が面白かったので、簡単にまとめました。・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。音声入力にはわずか232ミリ秒 (平均320ミリ秒) で応答できます。これは、人間の会話における応答時間とほぼ同じです。英語のテキストおよびコードでは「GPT-4 Turbo」のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善されており、APIでははるかに高速で50%安価です。「GPT-4o」は、既存のモデルと比較して、特に視覚と音声の理解に優れています。 2. モデルの機能「GPT-4o」以前は、音声モードを使用して、平均2.8秒 (GPT-3.5) および5
tamasaburou1982 2024/05/14
リンク
Googleのオープンモデル Gemma の概要｜npaka
以下の記事が面白かったので、簡単にまとめました。・Gemma: Introducing new state-of-the-art open models 1. Gemma「Gemma」は、「Gemini」と同じ技術を基に構築された、軽量で最先端のオープンモデルです。「Google DeepMind」と「Google」の他のチームによって開発された「Gemma」は、「Gemini」からインスピレーションを受けており、その名前はラテン語で「宝石」を意味するgemmaを反映しています。モデルの重み付けに伴い、開発者のイノベーションをサポートし、コラボレーションを促進し、「Gemma」の責任ある使用をガイドするためのツールもリリースします。「Gemma」は本日より世界中で利用可能になります。知っておくべき重要な詳細は次のとおりです。・「Gemma 2B」「Gemma 7B」の2つのサイズの
tamasaburou1982 2024/02/22
リンク
1