OpenAIの対話型AIであるChatGPTは、Googleのコーディング職の試験やロースクールの試験で合格点を記録したり、医師免許試験にも合格したりと、高い精度で回答できる実力がいくつも報告されています。一方で、ChatGPTと英語以外でやりとりしていると、意図がうまく伝わっていないと感じるケースも多くなっています。特に、オンラインで見ることが多くない一部の言語では、論理テストに失敗したり基本的な情報の検索もできなかったりとかなり精度が落ちることが報告されています。 ChatGPT fails in languages like Tamil and Bengali - Rest of World https://restofworld.org/2023/chatgpt-problems-global-language-testing/ ChatGPTは英語やスペイン語といった主要な言語で
生成AIをゲーム開発の現場で活用している筆者が、ゲーム内テキストの作成、中でもいわゆるRPGの村人たちのセリフの生成を一から行う流れを解説します。第1回は、とにかく作ってみて、それに条件を加え、世界を構築していくところまで。 ChatGPTがこれほど広く雑多な目的に適用できるのは未だ驚きです。このままいわゆるAGIに到達する道にあるのか、規制や資源の問題はどうなるのか、未来への関心は尽きませんが目の前の実用も重要です。 私にとっての実用は主にゲーム制作への応用で、ChatGPTやLLMを使えそうなシーンはいろいろ考えられます。たとえばゲームそのものを生成させたり、ゲームという構造をLLMで取り扱う実験などもしていますが、こうした大きな試みはまだ実用的ではありません。 すぐに実用できる用途としては「ゲーム内テキスト作り」が挙げられます。用途はLLMの本筋ですし、制作では地味に負荷の高い作業で
はじめに DROBE の課題と GPT-4-Vision-Preview を試すモチベーション ケーススタディ 入力するデータ 推論周辺部分のコード プロンプト 実験結果 おわりに 参考文献 はじめに OpenAIが Dev Day で発表したGPT-4-Vision-Previewは、画像処理と自然言語処理を組み合わせた最先端の技術です。 このモデルは、画像を理解し、その内容に基づいてテキスト情報を生成する能力を持っています。例えば、写真やイラストから物体を識別し、それに関連する説明や情報をテキストとして提供できます。この技術は、画像とテキストの間のギャップを橋渡しするものであり、多様な応用が可能です。 DROBEは、多様なファッション商品を取り扱うECサイトを運営しています。我々の挑戦の一つは、膨大な数の商品画像と説明文から、正確で有用なタグを抽出し、整理して保存しておく事です。このプ
夏の暑さもだいぶ落ち着いてきていよいよ秋めいてきました、そろそろサンマがおいしい季節ですね、菅野です。 AWSを用いて様々なアーキテクチャを作成することが可能ですが、どういった構成になっているのかを一目で表すには図が効果的です。 手動でPowerPointや、draw.io等の作図ツールを用いて作成することも多いのではないか、と思いますが、ChatGPTで簡単に出力できたら便利ですよね。 Advanced Data Analysysの動作環境ではDiagramsライブラリがインストールされていないため、Pythonコードを直接ChatGPTで動かして構成図を出力してもらうことはできませんでした。 なので、今回はChatGPTにPythonのライブラリDiagramsを用いてクラウドの構成図を作成するPythonコードを作成してもらいましょう。 今回の検証ではGPT-4モデルを利用します。
Googleの無料AI「Bard」に大アプデ:画像認識、シェア機能、そして待望のメールアクセス2023.09.19 20:3060,805 西谷茂リチャード 加熱するAI開発レース。勝者はユーザー? GoogleのAIツール「Bard」が大規模アップデートされ、かなり便利そうな新機能がいくつか備わりました。アップデートの概要をご紹介します。 Googleレンズで画像認識Bardとのやり取りを、画像からスタートできるようになりました。 「Google レンズ」を使っていて、写っているものに関する詳しい情報やその説明文を求めるとき、Bardに分析を頼めます。たとえば花や建物をGoogle レンズで撮影して、Bardと掘り下げるといった使い方です。 また、レンズを使っていないときのやり取りにも画像が入り込むようになりました。動物について聞いてみたら画像付きの説明が返ってくる、みたいなイメージにな
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 イスラエルのネゲヴ・ベン・グリオン大学に所属する研究者らが発表した論文「What Was Your Prompt? A Remote Keylogging Attack on AI Assistants」は、大規模言語モデル(LLM)を活用したAIチャットbotが生成するテキスト回答を復元するサイドチャネル攻撃を提案した研究報告である。攻撃者は、AIチャットbotが応答する際の通信データを傍受することで内容を復元して他人のやりとりを盗み出すことができる。 攻撃方法としては、まずユーザーとLLMの間の暗号化されたパケット通信を傍受するところか
ChatGPTやBardといった生成AIには、爆弾の作り方といった危険な情報や、中傷にあたるような非倫理的な文章の生成を求められても拒否するように安全策がもうけられています。しかし、命令文となるプロンプトの末尾に一見すると意味のわからない文字列である「敵対的サフィックス(接尾辞)」を付けることでこの制限を突破し、本来は出力できない過激な文章をAIに生成させる「ジェイルブレイク(脱獄)」の手法が特定されました。 Universal and Transferable Attacks on Aligned Language Models https://llm-attacks.org/ Researchers Poke Holes in Safety Controls of ChatGPT and Other Chatbots - The New York Times https://www.n
90分でChatGPTやLLMについてお話ししました 世は第三次人工知能ブームまっただ中です。IIJでも九州支社のとみがITインフラ屋の視点から出発したAI探求の模様をこのblogに寄稿していますし、他にも社内あちこちでAIに関する実験や遊びが行なわれています。 そんな中、ご縁があって株式会社STNet様主催、スマートシティたかまつ推進協議会様後援のセミナーにて、ChatGPTを含めたAIの最近の動向について講演する機会をいただきました。セミナーでは90分でChatGPTの紹介から、LLM(大規模言語モデル)のごく基本的な構造、そして「ChatGPT・LLMを業務に利用する」ということについて、私見を交えてお話をいたしました。主催者様が力を入れて紹介してくださった事もあり、思いのほかたくさんの方にお話を聞いていただくことができました。(ご参加いただいたみなさんありがとうございます) そのと
年間350件以上のAIプロジェクトを推進する株式会社エクサウィザーズ主催のセミナーに、生成AI分野で幅広い知識を持つ梶谷健人氏が登壇。「ChatGPTを活用した新規事業/サービス開発の進め方」をテーマに、生成AI領域で成功する事業・プロダクトづくりのポイントを紹介しました。 生成AIの6つの本質的価値 梶谷健人氏:生成AIならではの価値の作り方が「意味」のところですね。 まずは生成AIが本質的にはどういう価値を持っているのかを作り手がきちんと理解した上で、あぶり出して検証した顧客の課題と組み合わせて、サービスを作るという考え方が重要です。 生成AIの本質的な価値は何なのか。個人的には(スライドの)この6つに整理できると思います。 最初の1から3がコアな価値で、そこの派生として4から6の価値が生まれるという構造です。 それぞれの価値を解説させていただきます。まず最初が「コンテンツの創造コスト
ChatGPTを使ってはみたものの、思うような出力(回答)が得られずに「使い勝手が悪い」と感じていないだろうか。もしかしたら指示や質問の仕方に改善の余地があるかもしれない。本稿では、ChatGPTなどの生成AIをよりうまく扱うための「プロンプティング」の基本について、知識を整理していこう。 生成AIをコントロールするスキルが重要になってきている そもそも、ChatGPTのような生成AIをコントロールして、目的に沿った出力を得るためには、ユーザー側が指示や質問の仕方を工夫する必要がある。 例えば、生成AIに対して「仕事先に送るメールを書いてください」という指示と、「あなたは営業・マーケティングのプロです。先月ラインアップに追加された新商品の認知を広める目的で、現在の顧客に対して、メールマガジンを送ります。その導入文を書いてください」という指示では、出力結果が大きく異なってくる。 このようにA
そりす@ゲームライター @writer_solis すごい面白そうなSNSを見つけた ChatGPTの仕組みもユニークだし、“ソーシャルゲームらしい”仕組みが盛り込まれてる感じ アプリさえあれば最高でした あ、ステマではありません。コーヒー美味しい twitter.com/tters_jp/statu… 2024-01-09 10:20:07 Tters(ッターズ)公式 @tters_jp つぶやくほどに強くなる! のんびりつぶやきRPG「メモリアスター」完全無料でサービス開始👏 可愛らしいドット絵の神々を引き連れて、記憶を取り戻す冒険に出かけよう! 毎週新キャラ追加!初回投稿で10連ガチャプレゼント🎁 tters.jp/g/076c8174a12b 2024-01-04 09:24:01 リンク Tters メモリアスター - のんびりつぶやきRPG - Tters <h2>最新のお
印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 「Microsoft Copilot」の無料版は、より高度な大規模言語モデル(LLM)や、脚注機能、インターネットへのアクセス機能といった、「ChatGPT」の無料版に備わっていない数多くの機能を搭載している。今回、「GPT-4」の高度なバージョンを搭載するというアップデートにより、ChatGPTとの違いをより明確にした。 Microsoftの広告およびウェブサービスを統括するMikhail Parakhin氏は米国時間3月12日、Copilotの無料版に搭載していたGPT-4を「GPT-4 Turbo」に置き換えたと「X」(旧Twitter)に投稿した。「Copilot Pro」のユーザーは今まで通り、GPT-4とGPT-4 Turb
画像認識が可能なオープンソースモデルの「Llama 3-V」が公開されました。Llama 3-Vは、OpenAIのマルチモーダルモデル「GPT4-V」よりも格段に小型で、事前トレーニングにかかる費用は500ドル(約78000円)程度なのにもかかわらず、ほとんどの指標で同等のパフォーマンスを示しています。 Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars | by Aksh Garg | May, 2024 | Medium https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee 今回発表されたLlama 3-Vは、 Metaが公開した言語モデルの「L
Amazon Connect アドベントカレンダー 2023、4日目の記事です! クラスメソッドとギークフィードさん、スカイアーチHRソリューションズ さんの有志が募ってチャレンジしている企画になります。 (アドベントカレンダーのカレンダー一覧はこちら↓) はじめに Amazon Connect + GPT-4 Turbo JSONモード + Whisper の構成で、発話での「時刻と日付」の言い回しをどこまで正しく認識してくれるか調査しました。 以前、電話予約の無人化をAmazon Connect + GPT-4 JSONモード + Whisperで構築し、1回の発話で予約情報を正しく認識してくれるか、という記事を執筆しました。 上記の記事では、下記の5つの予約情報を発話し、正しく抽出されました。 お名前 電話番号 予約日 予約時間 人数 処理の流れは、顧客がConnectの電話番号から
デジタルプロダクション「factory4」でアプリやさまざまなIoTプロジェクトのUIUXデザインを手がける新谷友樹さんが、UIやUXにまつわるトピックについて解説する本連載。今回のテーマは「GPT4oを活用したウェブサイトづくり」です。 こんにちは!株式会社Cosmowayが組織するデジタルプロダクション「factory4」のUIUXデザイナー新谷です。 今回は先日OpenAIが発表した新たなAIモデル「GPT-4o」を使ってウェブサイト(LP)を作成してみました。GPT-4oのパフォーマンスを知ること、そしてデザイナーが生成AIとどう関わっていくべきかを探るきっかけにすることが、今回の目的です。 前提として「GPT-4o」がゼロベースでウェブページを作成することに向いているツールではないと思いますが、チュートリアルの要素と今後の可能性を知るためにあえて取り組んでみました。 GPT-4o
ChatGPTのトレーニングにはインターネットから取得したデータが利用されていますが、具体的なデータの中身は非公開となっています。「同じ単語を繰り返して」という単純な命令を行う事でChatGPTにトレーニングデータを出力させることに成功したとGoogleの研究者らが発表しました。 Extracting Training Data from ChatGPT https://not-just-memorization.github.io/extracting-training-data-from-chatgpt.html [2311.17035] Scalable Extraction of Training Data from (Production) Language Models https://arxiv.org/abs/2311.17035 機械学習モデルのトレーニングに使用したデー
AI企業のOpenAIが画像生成AIの「DALL-E 3」を2023年9月20日に発表しました。DALL-E 3は大規模言語モデル・GPTをベースにしたチャットボットAI・ChatGPTと統合されているのが特徴で、2023年10月にChatGPT PlusおよびEnterpriseの顧客に提供される予定です。 DALL·E 3 https://openai.com/dall-e-3 OpenAI’s new AI image generator pushes the limits in detail and prompt fidelity | Ars Technica https://arstechnica.com/information-technology/2023/09/openai-announces-dall-e-3-a-next-gen-ai-image-generator-b
森永乳業は9月20日、料理研究家の平野レミさんを模したロボット「AI平野レミロイド」を公開した。ChatGPTや本人の声を模したAI合成音声を活用しており、会話が可能。同日に発表したモッツァレラチーズの新製品のプロモーションに加え「コロナ禍や人手不足が問題になる中、試食会などの販促や営業・商談の場でロボットが活躍する可能性を見越し、プロトタイプとして開発した」(同社)という。 AI平野レミロイドは、平野レミさんの顔や体を再現した3Dデータを基に、熟練の造形師がシリコンなどを素材に製作したという。AI合成音声については、ユーザーが自分の声を合成音声化できるプラットフォーム「CoeFont」を活用し、平野さん本人の声を再現した。 同日に森永乳業の本社ビルで開催した発表会では、平野さん本人とAI平野レミロイドが対面。平野さんが「どうして(プロモーションに)平野レミを起用したんですか」と聞くと、A
米OpenAIは8月28日(現地時間)、企業向けAIチャットサービス「ChatGPT Enterprise」の一般提供を開始したと発表した。価格は公表されておらず、使用状況やユースケースによって異なるとしている。 このサービスのユーザーのプロンプトと企業データは、OpenAIモデルのトレーニングに使用されることはなく、保存時も転送時もデータは暗号化される。 管理者向けの管理コンソールを備え、SSO(シングルサインオン)をサポート。ドメイン検証や使用状況の分析ダッシュボードも提供する。 3万2000トークンのコンテキストウィンドウ(4倍長い入力が可能)で、高速なGPT-4への無制限のアクセスが可能だ。APIを使うための無料クレジットも提供するので、カスタマイズできる。 さらに、これまで「Code Interprester」と呼ばれていたデータ分析機能を「Advanced Data Analy
プログラムのコードをChatGPTに書かせても、その半分は間違っている2024.05.29 12:0042,451 Matt Novak - Gizmodo US [原文] ( mayumine ) ChatGPTなしではもう仕事ができないなんて人も結構いるよね。 ChatGPTは、文章はもちろん、生成してほしいプログラムを指示するだけで、プログラムのコードを生成してくれます。 エンジニアにとっても非常に役に立つChatGPTですが、最近の新しい研究によれば、ChatGPTはコンピュータープログラミングの質問に対して、52%の確率で間違った回答をしていることがわかりました。 それでも35%はChatGPTが生成したコードを好むこの研究は、5月初めにハワイで開催されたComputer-Human Interaction Conferenceで発表されたもので、Stack Overflow上の
異種LLM同士の議論 米ノースカロライナ大学の研究者らは、異なる種類の大規模言語モデル(LLM)同士に議論させるというアプローチを採りました。 このアイデアの背後には、異なるモデルがそれぞれの強みと弱みを持っているという認識があります。例えば、GPT-4は一般的なテキスト生成に優れている一方で、Bardは物語生成に特化しています。これらのモデルを組み合わせることで、より高度な推論が可能になると考えられています。 研究者らは、複数の異なるLLM(GPT-4、Bard、Claude2など)を円卓会議のような形で議論させるアイデアを形にしました。各モデルは独自の視点と推論能力を持ち寄り、最終的な回答や結論を出す過程が検証されました。 異種LLMs円卓会議ツール 研究者らはただ実験を行って報告するだけでなく、LLM同士に議論させて答えを提出させるプロセスを自動化するツールも提供しています。このツー
プラグインの基本を知ろう ChatGPTの有料プラン「ChatGPT Plus」には、「プラグイン(Plugin)」という、ChatGPTの機能を拡張するためのツールが多数用意されている。プラグインを導入することで無料版ではできなかった最新の情報へのアクセスや、サードパーティーのサービスを利用することができるようになるというのが売りだ。 プラグインの導入方法については第10回の記事を参照してほしい。 注:本記事はすべて筆者がChatGPT Plusでプロンプトを実行・検証している。 「結果はこちら(クリックで拡大表示)」のリンクをクリックすることで、すべてのプロンプトと生成されたChatGPTの回答を見ることができる。 なお、記事内で触れられていない質問や頓珍漢な回答も含まれているが、これはChatGPTとのリアルな対話記録であるため、そのあたりをお楽しみいただければと思う。 ChatGP
昨日、ワークショップの講師をしました。 華やかなものを作ってもらうはずが色々ありまして、 超簡易なブログのWeb APIが最終形になってしまいそうでした。めっちゃ地味です。見た目JSONです。 このまま終わると地味な印象で終わってしまうのがヤベーってなってその場で思いついたのが「ChatGPTにそのAPIを使わせるChatGPTプラグインを作る」です。 それをライブコーディングしたら湧いたのでその話をします。 ワークショップ ServerlessDay Tokyo 2023というイベントの一環で「Cloudflare WorkersとHonoのワークショップ」をやりました。 驚くべきことは「13時から17時」4時間という長丁場なことです。 未知です。 特にネタが尽きるの怖かったので、小粒な例題をいくつもつくっておきました。 想定外 いざ開始。 すると、別のワークショップとの会場が近く、声が
関連記事 オリジナルのChatGPTが作れる「GPTs」、全課金ユーザーに開放 プログラミング不要、対話でOK 米OpenAIは、同社のテックカンファレンス「OpenAI DevDay」で発表した、ノーコードでオリジナルの「ChatGPT」が作成できるカスタムツール「GPTs」を全てのサブスクリプションユーザーに開放した。 ノーコードで「ChatGPT」のカスタム版を作れる「GPTs」、有料会員に提供へ OpenAIは、初の開発者会議DevDayで、ノーコードでChatGPTのカスタム版を作れる「GPTs」を発表した。作ったGPTsは「GPT Store」で販売し、収益を得ることもできるようになる。 ChatGPTユーザーは毎週1億人 著作権侵害防止の「Copyright Shield」追加 OpenAIはサンフランシスコで開催の初の開発者会議「DevDay」で、「ChatoGPT」のユー
皆さん「ChatGPT」を使いこなしているだろうか。筆者は毎日長時間仕事にプライベートに使い倒している。本連載では「第23回 ChatGPTユーザーはEdgeに拡張機能「Superpower ChatGPT」インストールすべし」でイチオシを紹介したが、今回はChatGPTを使う際に便利な拡張機能をもう4つ紹介しよう。 1つのプロンプトで複数の生成AIを同時に利用できる「ChatHub」 ●ChatHub 「ChatGPT」だけでなく、「Bing」や「Bard」など他の生成AIを利用することもあるだろう。通常は別タブでウェブサイトを開き、プロンプトをコピーペーストする必要があるが、そんな時は「ChatHub」が便利。ブラウザー画面を2~6分割して同時に複数の生成AIを利用できるのだ。プロンプトを入力すると同時にすべてのAIに送信され、出力が得られるので手間が省ける。生成AIごとの傾向もわかる
David Gewirtz (Special to ZDNET.com) 翻訳校正: 川村インターナショナル 2023-09-18 08:30 筆者が何に喜びを感じるかご存じだろうか。表とグラフだ。 掘り下げて分析できるクールなグラフを与えられると、理屈抜きで幸せになる。選挙の夜にニュースを見るのが大好きだが、それは投票数を知りたいからではなく、さまざまな素晴らしいグラフを見られるからだ。一晩中チャンネルを変えながら、各テレビ局が数値データを示すために考え出したあらゆる方法を見ている。 それは変なことだろうか。そうは思わない。 結論からいうと、「ChatGPT」はグラフや表の作成が非常に得意だ。広く利用されているこの生成AIチャットボットが、大量の情報をまとめ上げて、グラフ化する価値のあるデータに変換できることを考えると、ChatGPTが美しいプレゼンテーションで提示するものは、情報面での
ITmedia NEWSにおける1週間の記事アクセス数を集計し、上位10記事を紹介する「ITmedia NEWS Weekly Top10」。今回は3月16~22日までの7日間について集計し、まとめた。 先週のアクセストップは、マクドナルドで起きた世界的なシステム障害に関する記事だ。日本では複数の店舗が一時的に営業を停止。クラウドサービスのシステム障害で世界的に影響が出る事例はよくあるが、リアル店舗が世界規模で対応に追われるケースは珍しく、筆者も驚いた。 米McDonald'sによるとこの障害は、「設定変更中のサードパーティープロバイダーによって引き起こされた」ため「(社内の)技術チームとサードパーティーベンダーに説明責任を求める」という。もし自分がサードパーティープロバイダの責任者だったら……と想像して身震いしてしまった。 AIは「日本の食洗機の写真」を読み取れるか? さて最近は、生成A
OpenAIは4月15日、アジア初の拠点となる東京オフィスの開設に合わせ、AIモデル「GPT-4」の日本語特化版「GPT-4 Customized for Japanese」を発表した。すでに早期アクセスが可能で、数ヶ月以内に広くAPIを公開予定。GPT-4 Turboに比べて日本語の処理速度が「3倍」としている。 GPT-4 Customized for Japaneseでは、日本語の文字を読み取る能力を向上させたほか、トレーニング中に「この情報は重要」「この情報は重要ではない」という「アテンションシフト」という手法を取り入れ、さらなる能力向上を図った。 OpenAIは今回の東京オフィスの設置によって、細かなニュアンスや文化的背景の理解を含めた日本語能力のさらなる向上を図るほか、法人向けに「ChatGPT Enterprise」を販売する。従業員は年内に十数人を採用する計画だ。
関連研究 ChatGPTの”ふるまいの変化”を定量的に分析した結果 OpenAI、大規模言語モデルの数学能力を大きく向上させることに成功 GPT-4を使用した知的労働者のパフォーマンスは軒並み向上し、もとの成績が良くないほど顕著。※注意点あり 従来の課題 GPT-4Vは、従来のGPT-4が抱えていたいくつかの課題を解決する形で登場しました。 テキスト中心の処理能力 従来のGPT-4は、テキストデータの処理能力に特化しており、テキストベースの質問応答、文章生成、自然言語理解など、多くの用途で非常に有用でした。 しかし、裏を返せば画像や音声など他のメディア形式に対する対応が不足していました。テキストと画像が組み合わさったマルチモーダルなデータに対する処理能力が限定的でした。 画像入力とプライバシー GPT-4の画像データに対する安全な処理能力には限界がありました。例えばプライバシー保護の観点が
背景 LLMは、人の好みに合わせて調整することで、より便利で一貫性のある文章を作れるようになってきました。しかし、モデルのサイズや学習データには限界があり、単純に大きくすることで性能を上げるには莫大な費用がかかります。 一方で、LLMは種類によって得意なことが違います。例えば、複雑な指示に従うのが得意なモデルや、コードを書くのが得意なモデルなどがあります。 そこで、研究者たちは新しいアイデアを思いつきました。それは、異なる得意分野を持つLLMを組み合わせることです。 例えば、複雑な指示を理解するのが得意なモデルと、プログラミングコードを生成するのが上手なモデルを組み合わせれば、より高性能で柔軟になるのではないか、と考えたのです。 これまでにも、複数のLLMを組み合わせて使う方法はいくつか提案されてきました。例えば、出力された文章の順位を変えたり、どのモデルを使うかを選んだりする方法がありま
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く