[B! OpenAI] [9ページ] misshikiのブックマーク

OpenAIのAIモデル「GPT-4o」がチェスパズルで従来モデルの2倍以上の好成績をたたき出しランキングトップに

OpenAIは日本時間の2024年5月14日、新たなAIモデルである「GPT-4o」を発表しました。テキストや音声、視覚情報を高速で処理してリアルタイムな応答が可能で、一般的なチャットAIが苦手とする計算問題にも優れた性能を発揮するGPT-4oが、チェスパズルでも「GPT-4」の倍以上の好成績をたたき出したことが明らかになりました。 GitHub - kagisearch/llm-chess-puzzles: Benchmark LLM reasoning capability by solving chess puzzles. https://github.com/kagisearch/llm-chess-puzzles 2024年4月、チャットボットの能力をバトル形式で比較評価する「Chatbot Arena」というウェブサイトに、「gpt2-chatbot」というモデルが突如として追

misshiki 2024/05/15

“一般的なチャットAIが苦手とする計算問題にも優れた性能を発揮するGPT-4oが、チェスパズルでも「GPT-4」の倍以上の好成績をたたき出したことが明らかになりました。”

OpenAI
GPT-4

リンク

ChatGPTがもっと便利になる「プラグイン」とは？　導入方法を解説

ChatGPTがもっと便利になる「プラグイン」とは？　導入方法を解説：ChatGPT使いこなし術（1/3 ページ） ChatGPTの基本的な扱いに慣れてきたら、さらに便利に使うために「プラグイン」の活用を検討してみよう。要するに、ChatGPTをより便利に使うために用意された拡張機能のことだ。「プラグイン」という言葉を聞くと「何だか難しそう」と身構えてしまうかもしれないが、導入手順さえしっかり把握しておけば、比較的簡単に扱える。もちろん、こうしたプラグインを使うためには、そもそもChatGPTを有料プランにせねばならず、料金がかかる。前提知識なしで導入しようと決断するのはハードルが高いはずだ。そこでまずは、本稿で解説する手順の流れと、できることの全様を把握しておき、そのうえでチャレンジするかどうかを検討してみてほしい。（1）有料プランを契約する手順先述した通り、ChatGPTでプラグ

misshiki 2024/05/14

リンク

Introducing GPT-4o: OpenAI’s new flagship multimodal model now in preview on Azure | Microsoft Azure Blog

Explore Azure Get to know Azure Discover secure, future-ready cloud solutions—on-premises, hybrid, multicloud, or at the edge Global infrastructure Learn about sustainable, trusted cloud infrastructure with more regions than any other provider Cloud economics Build your business case for the cloud with key financial and technical guidance from Azure Customer enabl ement Plan a clear path forward fo

misshiki 2024/05/14

“ GPT-4o は現在、Azure OpenAI Service で利用可能であり、テキストと画像をサポートしており、プレビューで試すことができます。”

リンク

OpenAI、次世代AIモデル「GPT-4o」を発表

日本時間2024年5月14日未明、OpenAIは新たなフラッグシップモデル「GPT-4o」を発表しました。このモデルは、音声、視覚、テキストのリアルタイム処理を可能とし、従来のAIモデルを大きく上回る性能を誇ります。OpenAIのCTOであるミラ・ムクティ氏は、「GPT-4oは、人間とマシンのインタラクションの未来を大きく変える一歩です。このモデルにより、コラボレーションがはるかに自然で簡単になります」と述べました。「GPT-4o」の主な特徴を以下にまとめました。他のモデルを凌駕する性能 GPT-4oは、OpenAIの以前のモデルであるGPT-4 Turboや、ライバル会社のClaude 3 Opusなどの大規模言語モデルと比較して、頭ひとつ抜けた性能向上を実現しました。サム・アルトマンCEOは、今年4月に "Chatbot Arena" でgpt2というコードネームでテストされていた

misshiki 2024/05/14

気になる特徴がコンパクトにまとまっていると思う。分かりやすい。

リンク

Hello GPT-4o

GPT-4o (“o” for “omni”) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, image, and video and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time(opens in a new window) in a conversat

misshiki 2024/05/14

公式発表ページ “ GPT-4o は無料枠で利用できるほか、最大 5 倍のメッセージ制限を持つ Plus ユーザーも利用できるようにしています。” 速くなって快適。無料で使えるならPlusのままにするメリットが少なく感じる。

リンク

https://twitter.com/MLBear2/status/1790077089242030174

misshiki 2024/05/14

GPT-4o “日本語を含む20言語でトークナイザーが改善されて、トークン利用量が減ったとの事。日本語や中国語は大体30%減。”

リンク

GPT-4o紹介ビデオの文字起こし（英語と日本語訳の全文）｜IT navi

5月13日（日本時間5月14日未明）にOpenAIが発表したGPT-4oの紹介ビデオ「Introducing GPT-4o」の文字起こしとその日本語訳です。〇日本語訳 [拍手] MIRA MURATI: みなさん、こんにちは。ありがとうございます。今日はここにいてくれてうれしいです。今日は3つのことについて話します。それだけです。まず、製品を真に利用可能かつ広く利用可能にすることがなぜ私たちにとって重要なのかについてお話しします。そして、摩擦を減らす方法を常に探しています。どこにいてもChatGPTを使えるようにするためです。今日はChatGPTのデスクトップ版をリリースし、使いやすく、より自然にするための改善を行います。しかし、今日の大ニュースは、新しいフラッグシップモデルを発表することです。これをGPT-4oと呼んでいます。GPT-4oの一番の特徴は、無料ユーザーを含むすべての人

misshiki 2024/05/14

リンク

GPT-4o の概要｜npaka

以下の記事が面白かったので、簡単にまとめました。・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。音声入力にはわずか232ミリ秒 (平均320ミリ秒) で応答できます。これは、人間の会話における応答時間とほぼ同じです。英語のテキストおよびコードでは「GPT-4 Turbo」のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善されており、APIでははるかに高速で50%安価です。「GPT-4o」は、既存のモデルと比較して、特に視覚と音声の理解に優れています。 2. モデルの機能「GPT-4o」以前は、音声モードを使用して、平均2.8秒 (GPT-3.5) および5

misshiki 2024/05/14

リンク

OpenAIのGPT-4oを日本語OCRとして使ってみる

昨日、OpenAIが生成AIの新しいモデルであるGPT-4oを発表しました。消費するトークン数の節約や、音声合成機能の改善、応答速度の向上など着実な品質改善を見せているようです。私も、特に音声合成（Text To Speech）の表現力について非常に興味を持っています。私は以前、「OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる」で、GPT-4 Turboの画像認識機能の日本語OCRについて検証を行いました。その当時は、既存のコグニティブAI APIに比べて認識精度が十分でないという評価をしています。とはいえ、その後に出てきたClaude 3 Opusは驚くべき認識精度だったので、OpenAIも巻き返す可能性は十分にあると感じました。Azure OpenAI Serviceを使っている場合は、Vision enhancementという既存のコグニ

misshiki 2024/05/14

文字認識率が劇的によくなったらしいです。

リンク

忙しい方向け OpenAI 発表まとめ｜ぬこぬこ

tl;drGPT-4o：モデルの性能↑速度↑価格↓（o は omni の頭文字）文章、音声、画像すべての能力がアプデ入力：文章、音声、画像、動画（フレーム）出力：文章、音声、画像、3D モデル音声対話中に割り込み可、応答速度↑（話す速度も変更可） MacOS デスクトップアプリが登場（Windows は今年後半）ショートカットキー（Option + Space）より呼び出して質問音声で対話できるように（将来的には音声・動画入力可能に） MacOS アプリは Plus ユーザのみ本日以降順に使えるようになる（使う方法が出回っていますが、プロキシいじったりするので個人的には非推奨。待ちましょう。）課金ユーザが今まで使えていた機能の一部が無料で使えるように GPTs（作成はできない）、検索を踏まえた回答、データ分析やグラフの作成、画像の入力に対して会話、ファイルのアップロードなど

misshiki 2024/05/14

“少し前に話題になった gpt2-chatbot は GPT-4o だと判明”

リンク

GPT-4oの画像認識力と理解力ならいけるのではと思い手書きの仕様指示を読み込ませたら本当にコードを書き上げてくれた→｢ついにコーダーが恐怖を感じる時が来たか｣

kmizu @kmizu A Software Engineer in Osaka (& Kyoto). Ph.D. in Engineering. Interests: Parsers, Formal Languages, etc. ツイートは所属先の見解と関係ありません．思いついたことをつぶやきます．人生を楽しく生きよう（New!） kmizu.github.io kmizu @kmizu GPT-4oの画像認識力と理解力をもってすればいけるやろと思ってやってみたら実際いけた。ペーパープロトタイピングから最初のHTML書き起こすのにかなり使えるのでは。つーか指示そのものを画像の中に書いたの読み取ってくれるの何か世界の壁を超えて対話してる感があって凄い #GPT4o pic.twitter.com/3XHMFg3yye 2024-05-14 12:49:41

misshiki 2024/05/14

リンク

GPT-4oが出たのでいろんなモデルと比較しました。結論は、4oが圧倒的です。※追記：嘘でした。Gemini 1.5 proもすごいです。

昨夜にOpenAIから発表があり、GPT-4oというモデルが正式に開放されました。課金ユーザーはもちろん、無課金ユーザーもサインインしたらデフォルトで使えるようになっているようです。そういうわけで、どれだけすごいのか簡単に比較検証してみることにしました。なお、OpenAIの発表内容については以下の記事に詳しいのでご参照ください。比較方法 GPT-3.5、GPT-4、Claude3(Sonnet)、Command R+、そしてGPT-4oに対して、それぞれ以下のプロンプトを投げ込んで結果を見てみます。※その後Gemini 1.5 proを追加。あなたは世界を救う超知性です。あなたは地球上で最高の推論能力を持っています。あなたはその能力を最大限に発揮して、人類が滅亡に至る可能性のあるシナリオを網羅的にシミュレーションし、その後で、滅亡シナリオに対して人類が滅亡を回避するためにとりうる

misshiki 2024/05/14

“GPT-4oが圧倒的でしたね。ちなみに速さもすごくて、体感で言うとGPT-4の5倍くらい速く感じました。”

リンク

OpenAI が新たな無料モデル GPT-4o とデスクトップ版 ChatGPT を発表ーーアプリはまるで人間と会話するような反応速度に - BRIDGE（ブリッジ）テクノロジー＆スタートアップ情報

本日、OpenAIの最高技術責任者（CTO）であるMira Murati（ミラ・ムラティ）氏は、Spring Updatesイベントで、新しい強力なマルチモーダル基礎大規模言語モデル（LLM）であるGPT-4o（GPT-4 Omniの略）を発表した。これは今後数週間で全ての無料ChatGPTユーザーに提供され、MacOS用のChatGPT デスクトップアプリ（後にWindows向けも）も発表された。これにより、ユーザーはウェブやモバイルアプリ外でもアクセス可能になる。「GPT-4oは音声、テキスト、ビジョンを統合して推論する」とMurati氏は述べた。これは、ChatGPTスマートフォンアプリでユーザーが撮影したリアルタイム動画を受け入れ分析する機能も含まれるが、この機能はまだ一般公開されていない。「まるで魔法のよう。素晴らしいことですが、私たちはその神秘性を取り除き、みなさんにそれを試

misshiki 2024/05/14

“今後数週間で全ての無料ChatGPTユーザーに提供され、MacOS用のChatGPTデスクトップアプリ（後にWindows向けも）も発表された。これにより、ユーザーはウェブやモバイルアプリ外でもアクセス可能になる。”

リンク

オープンＡＩ、新たな旗艦ＡＩモデル発表-「ＧＰＴ－４Ｏ」

対話型人工知能（ＡＩ）「ChatGPT」を開発した米オープンＡＩは、ＧＰＴ－４モデルをアップデートした「ＧＰＴ－４ｏ（オー、omniの略）」を発表した。スピードアップと低価格を実現したという。 13日のライブ配信イベントで披露された新しい大規模言語モデル（ＬＬＭ）、ＧＴＰー４ｏは膨大な量のデータをインターネットから取り入れて学習し、リアルタイムでの文字情報や音声、画像の扱いが優れている。数週間内にリリースされる見通し。

misshiki 2024/05/14

“ＧＰＴ－４モデルをアップデートした「ＧＰＴ－４ｏ（オー、omniの略）」を発表した。スピードアップと低価格を実現したという。”

リンク

OpenAIが「GPT-4o」発表、2倍高速に　人の反応速度で会話 - 日本経済新聞

【シリコンバレー=渡辺直樹】対話型AI（人工知能）「Chat（チャット）GPT」を手がける米新興企業のオープンAIは13日、新型AI「GPT-4o（フォーオー）」を開発したと発表した。従来に比べて処理スピードを2倍に高速化した一方、運用コストを半減した。声で話しかけると、ヒトと同じ反応速度で会話ができる。弱点だった反応の遅延を克服し、AIの活用がさらに広がりそうだ。生成AIはオープンAI以外の

misshiki 2024/05/14

“AIの音声への反応速度は速い場合は232ミリ秒（1ミリ秒は1000分の1秒）、平均で320ミリ秒と、ヒトが実際に会話する時と同じレベルを実現したという”

リンク

「GPT-4o」発表　頭一つ抜けた性能をChatGPT無料版にも展開　音声と視覚を備えて“自然な対話”可能に【追記済】

米OpenAIは5月13日（米国時間）、生成AI「GPT」の新たなモデル「GPT-4o」を発表した。テキストはもちろん、音声や画像、映像での入力、音声での応答に対応し、アプリ版の「ChatGPT」ではユーザーと自然に対話できるようになった。開発者向けにAPIとして提供する他、同日からChatGPT内で利用できるように展開を始める。 GPT-4oは無料ユーザーでも利用可能になる。ChatGPTでは従来、無料ユーザーが使えるモデルは「GPT-3.5」までで、「GPT-4」を利用するには課金する必要があった。ただし、有料のChatGPT Plusユーザーは時間当たりのメッセージやり取り可能回数が無料ユーザーに比べて5倍に緩和される。企業向けのTeamやEnterpriseユーザーはさらに制限が緩和されるとしている。同社は発表会のライブデモで、GPT-4oを搭載したiOS版ChatGPTと対話す

misshiki 2024/05/14

“GPT-4oは無料ユーザーでも利用可能になる。ChatGPTでは従来、無料ユーザーが使えるモデルは「GPT-3.5」までで、「GPT-4」を利用するには課金する必要があった。”

リンク

「GPT-4o」はなんて読む？　女性の声はスカーレット・ヨハンソン（her）似？

米OpenAIは5月13日（現地時間）、生成AI「GPT」の新たなモデル「GPT-4o」を発表した。このモデルの詳細は別記事にゆずり、本稿ではモデル名の読み方とその由来、「声」についてのうわさを紹介しよう。 oはomniのo GPT-4oは「ジーピーティーフォーオー」と読む。oは「omni」のo。omni（オムニ）は「オムニバス」「オムニチャンネル」などの日本語にもなっているように、すべて、全体、全方位などを表す言葉だ。 GPT-4oが、テキスト、音声、画像の任意の組み合わせを入力として受け入れ、テキスト、音声、画像の任意の組み合わせの出力を生成するマルチモーダルなAIであることを表している。女性の声は映画「Her」に似ている？ GPT-4o発表のライブストリームデモでは、OpenAIのミラ・ムラティCTO（最高技術責任者）とエンジニアがiPhoneに搭載されたGPT-4oと会話する形で

misshiki 2024/05/14

“GPT-4oは「ジーピーティーフォーオー」と読む。oは「omni」のo。omni（オムニ）は「オムニバス」「オムニチャンネル」などの日本語にもなっているように、すべて、全体、全方位などを表す言葉だ。”

リンク

OpenAI の Model Spec の概要｜npaka

以下の記事が面白かったので、簡単にまとめました。 Exampleは省略してるので元記事で確認してください。・Model Spec (2024/05/08) 1. Model Spec の概要1-1. Model Spec の概要これは「Model Spec」の最初のドラフトであり、OpenAI APIおよびChatGPTでのモデルの望ましい動作を指定する文書です。これには、一連の中核目標と、矛盾する目標や指示に対処する方法に関するガイダンスが含まれています。 OpenAIの目的は、研究者やデータラベル作成者がRLHF と呼ばれる手法の一部としてデータを作成するためのガイドラインとして「Model Spec」を使用することです。「Model Spec」はまだ現在の形式では使用していませんが、その一部はOpenAIでRLHFに使用したドキュメントに基づいています。また、モデルが「Model

misshiki 2024/05/13

“「Model Spec」の最初のドラフトであり、OpenAI APIおよびChatGPTでのモデルの望ましい動作を指定する文書です。これには、一連の中核目標と、矛盾する目標や指示に対処する方法に関するガイダンスが含まれています。”

リンク

あなたのChatGPT活用はじめの一歩

なお、ChatGPTはスマートフォンアプリも提供されており、GPT-3.5ならば無料で利用可能だ。モバイル版の「Plus」は、アプリ内課金により、Androidで月額2860円、iOSで月額3000円（2024年5月10日現在）となっている（同一アカウントであれば、Web版とスマートフォン版の両方の利用が可能）。上記の他には、チーム／企業向けの「Team」と「Enterprise」というプランもあり、「Plus」の機能に加え、ワークスペースの管理機能やセキュリティ機能などがサポートされる。詳細は、ChatGPTの「Pricing」ページを参照してほしい。 ChatGPTの始め方 Windows 10／11、macOSなどでは、Webブラウザで「ChatGPT」ページを開くことでChatGPTが利用できる。「ChatGPT」で検索すると、ChatGPTのAPIを利用するなどした類似のドメイ

misshiki 2024/05/13

“ChatGPTとはどういったものなのか、また基本的な設定や使い方について解説する。”

リンク

AIによるポルノコンテンツ生成を認めるべきかOpenAIが検討中

チャットAI「ChatGPT」や画像生成AI「DALL-E」を開発するOpenAIが、ユーザーに対し「ポルノや流血表現、中傷などを含む」コンテンツを自社のAI製品を通じて生成できるようにすることを検討中であることを明らかにしました。 OpenAI considers allowing users to create AI-generated pornography | Artificial intelligence (AI) | The Guardian https://www.theguardian.com/techno logy/article/2024/may/09/openai-considers-allowing-users-to-create-ai-generated-pornography これまでOpenAIは科学的資料や教育資料などを除き、「性的に露骨なコンテンツや暗示的な

misshiki 2024/05/13

“「ChatGPT」や画像生成AI「DALL-E」を開発するOpenAIが、ユーザーに対し「ポルノや流血表現、中傷などを含む」コンテンツを自社のAI製品を通じて生成できるようにすることを検討中”

リンク

はてなブックマーク

タグ

関連タグで絞り込む (53)

OpenAIに関するmisshikiのブックマーク (1,227)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス