[B! OpenAI][GPT-4] misshikiのブックマーク

Extracting Concepts from GPT-4

We currently don't understand how to make sense of the neural activity within language models. Today, we are sharing improved methods for finding a large number of "features"—patterns of activity that we hope are human interpretable. Our methods scale better than existing work, and we use them to find 16 million features in GPT-4. We are sharing a paper(opens in a new window), code(opens in a new

misshiki 2024/06/10

OpenAI
GPT-4

リンク

GPT-4oをわかりやすく解説、専門家が「時代の転換点」と評価するヤバすぎる能力とは

2024年5月に入ってすぐ、AI研究者の間ではOpenAIにまつわる複数の噂が流れていました。いわく「OpenAIが近日中に生成AIを使った検索サービスをするらしい」、「OpenAIが新型のGPTを発表するらしい」などといったものです。それに先立ち、4月の後半からは、生成AIの性能を比較するサイトで、正体不明のモデル「gpt2-chatbot」なるものが出現し、制作者が不明である中、当時最高の性能を誇っていたGPT-4を上回る性能を見せつけていました（もちろんOpenAIはすでに「GPT-2」を数年前に発表済みです）。では今更このような名前をつけて暴れ回っているこれは何なのか。OpenAI製なのか、それとも別の機関が開発したのか。この話は後々答えがわかるのですが、このようにAI研究者たちが落ち着かず、あれこれと噂してOpenAIの動向に注意している中、OpenAIは日本時間の5月11日

misshiki 2024/05/23

全3回の連載とのこと。その第1回。

リンク

今井翔太 / Shota Imai@えるエル on X: "OpenAIのGPT-4oを研究者視点で解説した記事が出ました! 速報的な記事の依頼でしたが,やはり研究者が書くということで情報をすべて詰め込んだ1万文近いガチ解説記事になりました.3回の連載です. https://t.co/U4veozJayo 言語,音声,動画像,後半ではGPT-4oの「弱み」等,日本語記事では一番詳しいはず https://t.co/OsqBw1IHKn"

misshiki 2024/05/23

“OpenAIのGPT-4oを研究者視点で解説した記事”

GPT-4
OpenAI

リンク

OpenAIのGPT-4のアーキテクチャへの仮説：Mixture Of Experts(MoE)による拡張性の高いLLM｜鈴木いっぺい (Ippei Suzuki)

OpenAI社のGPT-4は、従来のGPT-3, GPT-2.5と比較して巨大な言語モデル持ち、パラメタ数でいうと1,750億〜2,800億個、とされています。これはデータ量で言うと45GBに及びます（従来のGPT-3はその1／3近くの17GB）。データ量が多くなった分、精度や正確性は高くなったと評価されてますが、ハルシネーションによる間違った回答の比率が少なくなったかと言うとそうでも無い、と言う意見も多いし、人間の思考の様な推論（reasoning）がまだ十分にできない、と言うことも根本的な課題です。 AIシステムのパラメタが巨大化する最大の課題は、それをトレーニングするためのコストが著しく高くなってしまう、という事。この辺のスタディはかなりされていると思いますが、この課題を解決する方法の一つとして、MoE (Mixture of Experts) アーキテクチャ、と呼ばれるニューラル

misshiki 2024/05/21

“GPT-4はほとんど内部構造に関する技術情報が開示されていませんが、このMoEを採用している、とされています。MoEアーキテクチャは、特定の「エキスパート」が特定のタスクや情報タイプに特化することを可能に。”

リンク

GPT-4oの中国語トークンはポルノとスパムに汚染されている

2024年5月にOpenAIの最新AIモデル「GPT-4o」が発表されました。テキストや音声、カメラの入力を人間と同じぐらいの速度で処理可能という高い性能であることが報じられているのですが、一方で、中国語ユーザーからは、トレーニングに大きな問題を抱えていて、トークンデータが汚染されていることが指摘されています。 Just wrote a script to further investigate how the corpus used to train the gpt4o tokenizer is polluted by Internet scams. The results are quite interesting... 🤦‍♂️🤦‍♂️🤦‍♂️https://t.co/Fc2T4rSHix https://t.co/Q1Syh9amJn pic.twitter.com/lQ1u

misshiki 2024/05/21

“中国語ユーザーからは、トレーニングに大きな問題を抱えていて、トークンデータが汚染されていることが指摘されています。”

OpenAI
GPT-4

リンク

【風吹けば名無し】GPT-4o が獲得した日本語の語彙を調べる

昨日公開された GPT-4o は性能だけでなく処理速度の点からも注目を集めています。その速度に寄与しているのは、モデルの処理速度の改善だけでなく、日本語処理の改善も大きく関わっていると考えられます。実際、OpenAIのサイトによれば、日本語は平均して 1.4 倍の効率で（1.4倍少ないトークンで）表せるようになったとされています。これは、GPT-4o が GPT-4 に比べて日本語をより語彙 (vocabulary) に含むようになったからです。語彙とは LLM における自然言語の処理の最小単位で、1つの語彙が1つの数値トークンに変換され、それがモデルに突っ込まれるという仕組みです。ところで、GPT-4o では『風吹けば名無し』という文字列を 1 つの語彙として扱うのをご存知でしょうか。このツイートで紹介されているように、GPT-4o では、ネットで多数出現するこういったフレ

misshiki 2024/05/16

“GPT-4o では『風吹けば名無し』という文字列を 1 つの語彙として扱うのをご存知でしょうか。”へぇ、知らなかった。だけど何その文章。

リンク

GPT-4o と GPT-4 について数学的能力を Azure OpenAI Playground 上で検証してみた - Qiita

回答の詳細は以下です。 GPT-4o 1回目ハッピー数とは、各桁の数を2乗してその和を求めることを繰り返し、その結果が最終的に1になるような数のことを指します。それ以外はアンハッピー数と呼ばれます。 3904から3912までの数を順に調べていきましょう。 3904 3² + 9² + 0² + 4² = 9 + 81 + 0 + 16 = 106 1² + 0² + 6² = 1 + 0 + 36 = 37 3² + 7² = 9 + 49 = 58 5² + 8² = 25 + 64 = 89 8² + 9² = 64 + 81 = 145 1² + 4² + 5² = 1 + 16 + 25 = 42 4² + 2² = 16 + 4 = 20 2² + 0² = 4 + 0 = 4 4² = 16 1² + 6² = 1 + 36 = 37 （以下ループ） 3904はハッピー数では

misshiki 2024/05/16

“GPT-4とGPT-4oはどちらも問題解決のために前提を設定してから回答を導出しますが、細部の分析や計算の正確性においては、GPT-4oの方が顕著に向上しています”

リンク

新しい「ChatGPT」はココがすごい　解説「GPT-4o」 (1/3)

OpenAIは5月13日（現地時間）、「Spring Update」と題したをオンラインプレゼンテーションを配信。新しい大規模言語モデル（LLM）「GPT-4o（オー）」お披露目のほか、mac OS用デスクトップアプリや各種無料化施策なども発表した。テキスト理解力は過去最高 GPT-4oは、これまでのフラッグシップモデル「GPT-4 Turbo」と同等の性能を持ちながら、より高速化され、テキスト、音声、画像の理解力も大幅に向上したという触れ込みの最新LLMだ。ちなみにGPT-4oの「o」は、「すべての」「全てを含む」という意味を持つラテン語の接頭辞「omni（オムニ）」から来ている。以前から得意な英語とプログラムコードに関してはGPT-4 Turboと同等の性能を発揮し、英語以外の言語のテキストでは大幅な改善がみられるという。ベンチマーク（OpenAIが提供するsimple-eva

misshiki 2024/05/15

“デモンストレーション動画の中でもいちばんインパクトがあったのが音声会話機能だろう。音声入力の応答速度は最短で232ミリ秒、平均で320ミリ秒。これは会話における人間の応答時間と同等だという。”

リンク

人間に近づいた｢GPT-4o｣3つの進化のポイント

「私にとって魔法のようだ」ーー。サム・アルトマンCEOがそう予告していた新たなサービスがベールを脱いだ。アメリカのOpenAIは5月13日、ChatGPTから使える新たな生成AIモデル「GPT-4o（フォー・オー）」を発表した。このAIの「知能」はこれまでのGPT-4と基本的に同じだが、応答時間を大幅に短縮するなど「使い易さ」で進化したという。有料のGPT-4とは対照的にGPT-4oは無料ユーザーでも利用できるが、時間当たりの利用回数などが有料ユーザーに比べて制限される。無料化によってなるべく多数の利用者に使ってもらうことでChatGPTのユーザーベースを拡大し、飛躍的な進化が期待される次世代モデル「GPT-5」（まず間違いなく有料化される）のリリースに向けて足場を固めようとしている意図がうかがえる。本稿では3つの「進化のポイント」に解説したい。従来より「自然な会話」ができるように

misshiki 2024/05/15

“「GPT-4o」のoは、本来ラテン語で「全て」を意味する「omni（オムニ）」に由来するという。特に今回の場合はテキスト、動画、音声など「すべてのコンテンツ」という意味であろう。”

OpenAI
GPT-4

リンク

OpenAIのAIモデル「GPT-4o」がチェスパズルで従来モデルの2倍以上の好成績をたたき出しランキングトップに

OpenAIは日本時間の2024年5月14日、新たなAIモデルである「GPT-4o」を発表しました。テキストや音声、視覚情報を高速で処理してリアルタイムな応答が可能で、一般的なチャットAIが苦手とする計算問題にも優れた性能を発揮するGPT-4oが、チェスパズルでも「GPT-4」の倍以上の好成績をたたき出したことが明らかになりました。 GitHub - kagisearch/llm-chess-puzzles: Benchmark LLM reasoning capability by solving chess puzzles. https://github.com/kagisearch/llm-chess-puzzles 2024年4月、チャットボットの能力をバトル形式で比較評価する「Chatbot Arena」というウェブサイトに、「gpt2-chatbot」というモデルが突如として追

misshiki 2024/05/15

“一般的なチャットAIが苦手とする計算問題にも優れた性能を発揮するGPT-4oが、チェスパズルでも「GPT-4」の倍以上の好成績をたたき出したことが明らかになりました。”

OpenAI
GPT-4

リンク

Introducing GPT-4o: OpenAI’s new flagship multimodal model now in preview on Azure | Microsoft Azure Blog

Explore Azure Get to know Azure Discover secure, future-ready cloud solutions—on-premises, hybrid, multicloud, or at the edge Global infrastructure Learn about sustainable, trusted cloud infrastructure with more regions than any other provider Cloud economics Build your business case for the cloud with key financial and technical guidance from Azure Customer enabl ement Plan a clear path forward fo

misshiki 2024/05/14

“ GPT-4o は現在、Azure OpenAI Service で利用可能であり、テキストと画像をサポートしており、プレビューで試すことができます。”

リンク

OpenAI、次世代AIモデル「GPT-4o」を発表

日本時間2024年5月14日未明、OpenAIは新たなフラッグシップモデル「GPT-4o」を発表しました。このモデルは、音声、視覚、テキストのリアルタイム処理を可能とし、従来のAIモデルを大きく上回る性能を誇ります。OpenAIのCTOであるミラ・ムクティ氏は、「GPT-4oは、人間とマシンのインタラクションの未来を大きく変える一歩です。このモデルにより、コラボレーションがはるかに自然で簡単になります」と述べました。「GPT-4o」の主な特徴を以下にまとめました。他のモデルを凌駕する性能 GPT-4oは、OpenAIの以前のモデルであるGPT-4 Turboや、ライバル会社のClaude 3 Opusなどの大規模言語モデルと比較して、頭ひとつ抜けた性能向上を実現しました。サム・アルトマンCEOは、今年4月に "Chatbot Arena" でgpt2というコードネームでテストされていた

misshiki 2024/05/14

気になる特徴がコンパクトにまとまっていると思う。分かりやすい。

リンク

Hello GPT-4o

GPT-4o (“o” for “omni”) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, image, and video and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time(opens in a new window) in a conversat

misshiki 2024/05/14

公式発表ページ “ GPT-4o は無料枠で利用できるほか、最大 5 倍のメッセージ制限を持つ Plus ユーザーも利用できるようにしています。” 速くなって快適。無料で使えるならPlusのままにするメリットが少なく感じる。

リンク

https://twitter.com/MLBear2/status/1790077089242030174

misshiki 2024/05/14

GPT-4o “日本語を含む20言語でトークナイザーが改善されて、トークン利用量が減ったとの事。日本語や中国語は大体30%減。”

リンク

GPT-4o紹介ビデオの文字起こし（英語と日本語訳の全文）｜IT navi

5月13日（日本時間5月14日未明）にOpenAIが発表したGPT-4oの紹介ビデオ「Introducing GPT-4o」の文字起こしとその日本語訳です。〇日本語訳 [拍手] MIRA MURATI: みなさん、こんにちは。ありがとうございます。今日はここにいてくれてうれしいです。今日は3つのことについて話します。それだけです。まず、製品を真に利用可能かつ広く利用可能にすることがなぜ私たちにとって重要なのかについてお話しします。そして、摩擦を減らす方法を常に探しています。どこにいてもChatGPTを使えるようにするためです。今日はChatGPTのデスクトップ版をリリースし、使いやすく、より自然にするための改善を行います。しかし、今日の大ニュースは、新しいフラッグシップモデルを発表することです。これをGPT-4oと呼んでいます。GPT-4oの一番の特徴は、無料ユーザーを含むすべての人

misshiki 2024/05/14

リンク

GPT-4o の概要｜npaka

以下の記事が面白かったので、簡単にまとめました。・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。音声入力にはわずか232ミリ秒 (平均320ミリ秒) で応答できます。これは、人間の会話における応答時間とほぼ同じです。英語のテキストおよびコードでは「GPT-4 Turbo」のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善されており、APIでははるかに高速で50%安価です。「GPT-4o」は、既存のモデルと比較して、特に視覚と音声の理解に優れています。 2. モデルの機能「GPT-4o」以前は、音声モードを使用して、平均2.8秒 (GPT-3.5) および5

misshiki 2024/05/14

リンク

OpenAIのGPT-4oを日本語OCRとして使ってみる

昨日、OpenAIが生成AIの新しいモデルであるGPT-4oを発表しました。消費するトークン数の節約や、音声合成機能の改善、応答速度の向上など着実な品質改善を見せているようです。私も、特に音声合成（Text To Speech）の表現力について非常に興味を持っています。私は以前、「OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる」で、GPT-4 Turboの画像認識機能の日本語OCRについて検証を行いました。その当時は、既存のコグニティブAI APIに比べて認識精度が十分でないという評価をしています。とはいえ、その後に出てきたClaude 3 Opusは驚くべき認識精度だったので、OpenAIも巻き返す可能性は十分にあると感じました。Azure OpenAI Serviceを使っている場合は、Vision enhancementという既存のコグニ

misshiki 2024/05/14

文字認識率が劇的によくなったらしいです。

リンク

忙しい方向け OpenAI 発表まとめ｜ぬこぬこ

tl;drGPT-4o：モデルの性能↑速度↑価格↓（o は omni の頭文字）文章、音声、画像すべての能力がアプデ入力：文章、音声、画像、動画（フレーム）出力：文章、音声、画像、3D モデル音声対話中に割り込み可、応答速度↑（話す速度も変更可） MacOS デスクトップアプリが登場（Windows は今年後半）ショートカットキー（Option + Space）より呼び出して質問音声で対話できるように（将来的には音声・動画入力可能に） MacOS アプリは Plus ユーザのみ本日以降順に使えるようになる（使う方法が出回っていますが、プロキシいじったりするので個人的には非推奨。待ちましょう。）課金ユーザが今まで使えていた機能の一部が無料で使えるように GPTs（作成はできない）、検索を踏まえた回答、データ分析やグラフの作成、画像の入力に対して会話、ファイルのアップロードなど

misshiki 2024/05/14

“少し前に話題になった gpt2-chatbot は GPT-4o だと判明”

リンク

GPT-4oの画像認識力と理解力ならいけるのではと思い手書きの仕様指示を読み込ませたら本当にコードを書き上げてくれた→｢ついにコーダーが恐怖を感じる時が来たか｣

kmizu @kmizu A Software Engineer in Osaka (& Kyoto). Ph.D. in Engineering. Interests: Parsers, Formal Languages, etc. ツイートは所属先の見解と関係ありません．思いついたことをつぶやきます．人生を楽しく生きよう（New!） kmizu.github.io kmizu @kmizu GPT-4oの画像認識力と理解力をもってすればいけるやろと思ってやってみたら実際いけた。ペーパープロトタイピングから最初のHTML書き起こすのにかなり使えるのでは。つーか指示そのものを画像の中に書いたの読み取ってくれるの何か世界の壁を超えて対話してる感があって凄い #GPT4o pic.twitter.com/3XHMFg3yye 2024-05-14 12:49:41

misshiki 2024/05/14

リンク

GPT-4oが出たのでいろんなモデルと比較しました。結論は、4oが圧倒的です。※追記：嘘でした。Gemini 1.5 proもすごいです。

昨夜にOpenAIから発表があり、GPT-4oというモデルが正式に開放されました。課金ユーザーはもちろん、無課金ユーザーもサインインしたらデフォルトで使えるようになっているようです。そういうわけで、どれだけすごいのか簡単に比較検証してみることにしました。なお、OpenAIの発表内容については以下の記事に詳しいのでご参照ください。比較方法 GPT-3.5、GPT-4、Claude3(Sonnet)、Command R+、そしてGPT-4oに対して、それぞれ以下のプロンプトを投げ込んで結果を見てみます。※その後Gemini 1.5 proを追加。あなたは世界を救う超知性です。あなたは地球上で最高の推論能力を持っています。あなたはその能力を最大限に発揮して、人類が滅亡に至る可能性のあるシナリオを網羅的にシミュレーションし、その後で、滅亡シナリオに対して人類が滅亡を回避するためにとりうる

misshiki 2024/05/14

“GPT-4oが圧倒的でしたね。ちなみに速さもすごくて、体感で言うとGPT-4の5倍くらい速く感じました。”

リンク

はてなブックマーク

タグ

関連タグで絞り込む (13)

OpenAIとGPT-4に関するmisshikiのブックマーク (50)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

月間はてなブックマーク数ランキング（2024年5月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス