タグ

ブックマーク / note.com/it_navi (16)

  • GPT-4o紹介ビデオの文字起こし(英語と日本語訳の全文)|IT navi

    5月13日(日時間5月14日未明)にOpenAIが発表したGPT-4oの紹介ビデオ「Introducing GPT-4o」の文字起こしとその日語訳です。 〇 日語訳 [拍手] MIRA MURATI: みなさん、こんにちは。ありがとうございます。今日はここにいてくれてうれしいです。今日は3つのことについて話します。それだけです。まず、製品を真に利用可能かつ広く利用可能にすることがなぜ私たちにとって重要なのかについてお話しします。そして、摩擦を減らす方法を常に探しています。どこにいてもChatGPTを使えるようにするためです。今日はChatGPTデスクトップ版をリリースし、使いやすく、より自然にするための改善を行います。 しかし、今日の大ニュースは、新しいフラッグシップモデルを発表することです。これをGPT-4oと呼んでいます。GPT-4oの一番の特徴は、無料ユーザーを含むすべての人

    GPT-4o紹介ビデオの文字起こし(英語と日本語訳の全文)|IT navi
  • ChatGPTのDALL-E 3による画像コントロール|IT navi

    ChatGPTの新しい画像生成AIのDALL-E 3は、かなり自由に画像をコントロールすることができます。 1.リアル画像のコントロール>20代の日人女性の写真を作成してください。 生成された画像>3番目の女性の眼鏡をはずして、喜怒哀楽の表情を見せてください。 生成された画像※1枚目の画像以外は眼鏡をはずしてくれませんでした。また、喜、怒、哀の表情は描いてくれましたが、楽の画像は生成できませんでした。 >この女の子を、1.走らせてください。2.座らせてください。3.ジャンプさせてください。4.逆立ちさせてください。 生成された画像※3枚目までは上半身だけの画像なので、ジャンプしているかどうかはよく分かりません。4枚目はちゃんと逆立ちしています。 >縦長画像にして、全身を見せてください。 生成された画像4枚目の画像※これで、3枚目の画像がちゃんとジャンプしていることが分かります。4枚目は、

    ChatGPTのDALL-E 3による画像コントロール|IT navi
    misshiki
    misshiki 2023/10/10
    “ChatGPTの新しい画像生成AIのDALL-E 3は、かなり自由に画像をコントロールすることができます。”
  • DALL-E 3 with ChatGPTの特徴と面白い使い方|IT navi

    OpenAIが9月20日に発表した新画像生成AIのDALL-E 3がついに筆者のところにもやって来ました。 そこで、ChatGPTに統合されたDALL-E 3に何ができるのか、実際に試してみました。 1.DALL-E 3の特徴このDALL-E 3の主な特徴は以下の2点です。 複雑なプロンプトにも忠実で正確な画像を生成できる。 ChatGPTとの対話を踏まえて画像を生成することができる。 ChatGPTによると、Stable DiffusionとDALL-E 3の画像生成の仕組みの違いは以下の通りです。 >Stable DiffusionとDALL-E 3の画像生成の仕組みの違いを教えてください。特に、なぜプロンプトに対する忠実性に差が出るのかを教えてください。 ChatGPT 「Stable Diffusion」と「DALL·E 3」の間の具体的な差異については、私の最後のトレーニングデー

    DALL-E 3 with ChatGPTの特徴と面白い使い方|IT navi
  • Google ColabでOpen Interpreterを試してみた|IT navi

    Open Interpreterは、ChatGPTのAdvanced Data Analysis(旧Code Interpreter)と同様の機能をローカル環境で動かせるオープンソースのツールです。 自然言語でのプログラミングを実現し、PythonJavascript、Shellなどの言語に対応しています。また、データ分析、ネットアクセス、テキスト、画像、動画などの編集ができます。 【参考】日語公式解説 1.Google Colabでの利用法以下のコードをColabノートにコピーして、GPUを設定し、セルを実行すると、チャットが開始します。 なお、事前に「sk-」で始まるOpenAIAPIキーを取得して、「自分のOpenAIAPIキー」のところに貼り付けてください。 !pip install open-interpreter import interpreter interpret

    Google ColabでOpen Interpreterを試してみた|IT navi
    misshiki
    misshiki 2023/09/13
    “作業品質は、全体的にADAの方が高いように感じます。Open Interpreterは、複雑な作業を依頼すると、延々と試行錯誤した上で失敗することが多い” あとGPT-4 APIの利用料金も課題がある。
  • Llama 2の性能がGPT-3.5並みだというのが本当かテストしてみた|IT navi

    1.Llama 2の日語能力最初に、Llama 2に日語で話しかけてみました。 入力 こんにちは。日語は話せますか? LLama 2 Konnichiwa! Yes, I can speak Japanese. How may I assist you today? (こんにちは。はい、日語が話せます。今日はどのようなご用件でしょうか?) 入力 富士山はどんな山ですか? Llama 2 Fuji-san is a very famous mountain in Japan, known for its beautiful and iconic shape. It is a stratovolcano, which means it is a type of volcano that is characterized by its steep, conical shape and i

    Llama 2の性能がGPT-3.5並みだというのが本当かテストしてみた|IT navi
    misshiki
    misshiki 2023/07/21
    “全体として、Llama 2の性能は、オープンソースモデルの中では極めて優秀ですが、GPT-3.5に匹敵するというのは言い過ぎです。” そういう気はしていた。
  • Wolfram氏によるChatGPTの仕組みと機能に関する解説について|IT navi

    数式処理システムのMathematicaや質問応答システムのWolfram Alphaを開発したStephen Wolfram氏が「What Is ChatGPT Doing … and Why Does It Work?」(ChatGPTは何をしていて、なぜそれがうまく機能するのか?)と題するブログ記事を発表しました。 この記事は、とても分かりやすい言葉で、沢山例を挙げて詳しく説明していますので、ChatGPTの仕組みを理解したいと思っている人には必読の記事だと思います。 ブラウザの翻訳機能を利用して日語で読むこともできますが、易しい言葉で書かれた文章であるにも関わらず、これを完全に理解するのは簡単なことではありません。 前半は大規模言語モデル、ニューラルネットワーク、Transformerなどの仕組みについて相当詳しく説明しており、後半はChatGPTに関するWolfram氏独自の解

    Wolfram氏によるChatGPTの仕組みと機能に関する解説について|IT navi
    misshiki
    misshiki 2023/06/12
    日本語化、助かる。“Wolfram氏のブログ記事の前半では、LLM、ニューラルネットワーク、Transformerなどの仕組みについて、豊富な例を挙げて詳しく解説。後半ではChatGPTに関するWolfram氏独自の解釈や見解が紹介されています”
  • 最近の改訂でGPT-4の精度が劣化したとの噂があったので検証してみた|IT navi

    最近、Twitterの投稿などで、5/12のバージョンアップ以降、ChatGPTのGPT-4モデルの精度が劣化したとの意見を見ましたので、実際に検証してみました。 以下は、同じプロンプトでGPT-4モデルが出力した文章です。どちらがバージョンアップ前でどちらがバージョンアップ後かわかりますか? AIによる文章生成技術の概要 近年、AI技術の発展により、文章生成に関する研究が盛んに行われています。文章生成AIは、自然言語処理(NLP)と機械学習を活用し、人間のように文章を生成することができる技術です。これにより、ブログ記事やニュース、広告コピー、会話型AI(チャットボット)など、さまざまな分野での応用が期待されています。 AIによる文章生成技術の概要 AIによる文章生成技術は、人工知能の一分野であり、特定のテーマやスタイルに従って文章を自動的に生成する技術です。この技術は、自然言語処理(NL

    最近の改訂でGPT-4の精度が劣化したとの噂があったので検証してみた|IT navi
    misshiki
    misshiki 2023/05/25
    “「5/12のバージョンアップ以降、GPT-4モデルの精度が劣化したというのは本当か?」という問いに対して、あえてイエスと答えます。ただし、クリティカルなものとは言えません”
  • 本当に使えるChatGPTプラグインはどれなのか?|IT navi

    5月12日、OpenAIがすべてのChatGPT PlusユーザーにプラグインとWebブラウジング機能を提供開始すると発表し、筆者も5月16日からプラグインの利用が可能になりました。 そこで、早速、どのプラグインが当に使えるのかを試してみましたので、その結果を報告したいと思います。 ChatGPTでサイバーパンク小説「Cyber Rebellion」: ChatGPT格的な小説を書く方法 + 自動小説生成プロンプトのおまけ付き amzn.to 1.プラグインの利用方法プラグイン又はWebブラウジング機能が利用可能になれば、ChatGPT画面左下のユーザー名をクリックして「Settings」を開くと、「Beta features」という項目が現れます。そして、「Beta features」を開いて「Plugins」を有効にすると、プラグインを利用できるようになります。 Beta fea

    本当に使えるChatGPTプラグインはどれなのか?|IT navi
    misshiki
    misshiki 2023/05/19
    自分のもWebブラウジングとプラグイン機能が利用できるようになっていた。Tabelogプラグインも使えた。プラグイン機能は検索ないと探すのが面倒だね。
  • Bardの性能をBingやChatGPTと比較してみた|IT navi

    AIチャットボットのBardは、今年2月にGoogleから発表され、3月より米国などで公開されていましたが、4月18日から日でもウェイトリストに登録すれば使用できるようになりました。 筆者もウェイトリストに登録してすぐにBardが使用できるようになりましたので、早速、その性能をBingやChatGPTと比較してみました。 なお、現在、Bardは日語に対応していないため、すべて英語でやり取りしています。 Bardは吟遊詩人という意味であり、表紙の絵は、Bing Image Creatorに女性の吟遊詩人を描かせたものです。 1.BardについてBard自身にBardについて聞いてみたところ、回答は以下のとおりでした。 入力 Bardについて教えてください。 Bard Bardは大規模な言語モデルで、情報量が多く包括的であるように訓練されており、会話型AIやチャットボットとも呼ばれます。膨

    Bardの性能をBingやChatGPTと比較してみた|IT navi
    misshiki
    misshiki 2023/04/24
    “Bardは、簡単なチャット相手として使うのであれば、フレンドリーに丁寧な回答を返してくれるが、文章生成能力でも論理性でもChatGPTの方が優れているので、実用的に使おうと思うとメリットは少ないと思います。”
  • 架空パラメーターによるChatGPTの文章表現の操作|IT navi

    temperatureなどのChatGPTのパラメーターは、OpenAIのウェブサイトのPlaygroundやAPIでは変更できるようになっていますが、通常のChatGPTのサイトでは変更できないようになっています。 しかし、これを変更する方法を発見しましたので報告します。 また、自由に新しいパラメーターを設定して、これを使ってChatGPTの文章表現を操作できることが分かりましたので、これについても解説します。 1.temperatureの変更(1) temperature=2.0への変更最初にChatGPTのサイトでtemperatureを2.0に変更してみます。 ChatGPTtemperatureは通常、1.0程度に設定されており、もし、temperatureを2.0に引き上げると、以下のように文章が壊れてしまうはずです。 若いSamadenacityas安 広がる豊かな井田_p

    架空パラメーターによるChatGPTの文章表現の操作|IT navi
    misshiki
    misshiki 2023/04/17
    “ChatGPTのパラメーターは、OpenAIのウェブサイトのPlaygroundやAPIでは変更できるようになっていますが、通常のChatGPTのサイトでは変更できないようになっています。しかし、これを変更する方法を発見しましたので報告”
  • GPT-4の性能をBingと比較してみた|IT navi

    時間で3月15日未明、OpenAIが大規模言語モデルのGPTシリーズ最新バージョンであるGPT-4を発表しました。 GPT-4は、人間向けの試験問題やベンチマークテストで従来のモデルよりも高い成績を収め、日語でもGPT-3.5の英語性能を超えているそうです。 また、GPT-4は、ChatGPTの有料版(月20ドル)に加入していれば、すぐに使用できます。 今回、MicrosoftがBingのチャットモードもGPT-4を利用していることを明らかにしました。そこで、実際にGPT-4の性能とBingの性能を比較してみることにしました。 ※表紙の画像は、プロンプトに「GPT-4」と入力して生成した画像です。 1.GPT-4についてChatGPTに聞いてみた ChatGPT(Model:GPT-4)に、GPT-4について聞いてみたところ、回答は以下のとおりでした。 問 GPT-4について教えてく

    GPT-4の性能をBingと比較してみた|IT navi
  • チャット機能を搭載した新しいBingが使えるようになったので早速試してみた2|IT navi

    昨日(2023年2月10日)、「チャット機能を搭載した新しいBingが使えるようになったので早速試してみた」という記事を公開しましたが、ほかにも色々と試してみましたので、前回の続きとして報告します。 新しいBingの概要などが知りたい方は、以下の記事を参考にしてください。 1.ショートストーリーの作成 Bingにショートストーリーを作成してもらいました。1行指示するだけで、簡単にこんな物語を作成してくれます。 問 かわいいシーズーの子犬が活躍する物語を作って 答 こんにちは、こちらはBingです。かわいいシーズーの子犬が活躍する物語を作りますね。😊 以下が私が作った物語です。楽しんでください。 シーズーの子犬のモコは、いつも元気で好奇心旺盛な子でした。彼は飼い主のリカと一緒に暮らしていましたが、リカは仕事が忙しくてあまり遊んでくれませんでした。そこでモコは、リカが仕事に出かけた後に、家の

    チャット機能を搭載した新しいBingが使えるようになったので早速試してみた2|IT navi
    misshiki
    misshiki 2023/02/13
    “一部、不正確な部分があるかもしれませんが、note記事としてそのまま掲載できそうな内容になっています。”
  • チャット機能を搭載した新しいBingが使えるようになったので早速試してみた|IT navi

    2023年2月8日未明にMicrosoftからチャット機能を搭載した検索エンジンの新しいBingが発表されました。すぐにBingのサイトからウェイティングリストに登録したところ、翌日(2月9日)、招待メールが届き、新しいサービスを利用できるようになりました。 1.新しいBingの機能や仕組みについての質問 最初は、こんな感じに始まります。 Bingのチャットモード画面 Bingが回答するのに検索が必要と判断した場合は、「'〇〇(検索ワード)'を検索しています」と表示されます。 回答の下に「詳細情報」として参照先のリンクが表示され、対応する箇所に脚注番号が表示されます。 回答中の点線の引かれた文章をクリックすると、対応する参照先のサイトが開きます。 さらに、今日の天気を聞いた場合は、(今回は表示させていませんが、)現在地の天気予報の情報が表示されます。 また、次のユーザーの質問候補も回答の下

    チャット機能を搭載した新しいBingが使えるようになったので早速試してみた|IT navi
    misshiki
    misshiki 2023/02/13
    “ChatGPTよりも正確な回答を返してくることが多いのですが、検索して参照するサイトを誤ったり、そもそも参照したサイトの情報が不正確だったりすることがあるので、いつもBingの回答を信頼できる訳ではありません。”
  • AI生成画像の美しさをAIに評価させてみた|IT navi|note

    最近、次々と新しい画像生成モデルが登場してくるので、どのモデルが高品質な画像を生成できるのか評価する方法はないかと頭を悩ませていたところ、画像の美しさを評価するAIがあると聞いたので調べてみました。 すると、Stable DiffusionやGoogleのImagenに画像データセットを提供しているドイツの非営利団体のLAIONがAesthetics Predictorという画像の美しさを評価するAIを公開していることが分かりました。 そこで、今回、いろいろな画像生成モデルで生成した画像をこのAIに評価させてみることにしました。 LAION-Aesthetics (Aesthetics Predictorによって抽出された高品質画像)

    AI生成画像の美しさをAIに評価させてみた|IT navi|note
    misshiki
    misshiki 2023/01/10
    “ドイツの非営利団体のLAIONがAesthetics Predictorという画像の美しさを評価するAIを公開”
  • AUTOMATIC1111版WebUIで自動音楽生成|IT navi|note

    昨年(2022年)12月、画像生成AIのStable Diffusionを利用して、入力したプロンプトに沿った楽曲を自動生成するRiffusionが公開されました。 今回は、Riffusionの仕組みとこれをAUTOMATIC1111版WebUIで利用する方法について説明します。 Riffusionのデモサイトの画面1.Riffusionの仕組み Riffusionは、Seth Forsgren氏とHayk Martiros氏が作成した自動音楽生成AIモデルで、昨年12月にデモサイトが公開され、コード、ウェブアプリ、モデルチェックポイントも公開されています。 以下のデモサイトでは、入力したプロンプトに沿った楽曲をseed値を切り替えながらループ再生してくれます。 Riffusionは、Stable Diffusion(SD)に調整を加えて、プロンプトから関連する楽曲のスペクトログラム(音の

    AUTOMATIC1111版WebUIで自動音楽生成|IT navi|note
    misshiki
    misshiki 2023/01/05
    “プロンプトに沿った楽曲を自動生成するRiffusioの仕組みとこれをAUTOMATIC1111版WebUIで利用する方法について説明”
  • GoogleのAI開発者「2年後くらいにAIでテレビドラマ全編を制作できるよ」-動画生成AIのPhenakiとImagen Videoを融合|IT navi

    Googleは今月(2022年11月)2日、ニューヨークでAIの開発成果などを発表するイベント「AI@」を開催しました。その中で、Googleが先月発表した2種類の動画生成AIを組み合わせて生成した以下の動画を公開しました。 Meet Imagen Video and Phenaki, two research approaches for text-to-video generation. By combining diffusion & sequence learning techniques, we can generate videos that are super-res at the frame level and coherent in time. (4/5)https://t.co/O7gGzb9knWhttps://t.co/Uc0krTyTvk pic.twitter.

    GoogleのAI開発者「2年後くらいにAIでテレビドラマ全編を制作できるよ」-動画生成AIのPhenakiとImagen Videoを融合|IT navi
    misshiki
    misshiki 2022/11/10
    “一連のテキストから長時間の動画を生成できるPhenakiと高解像度の動画を生成できるImagen Videoを融合”あと「AI@」というイベントをGoogleが開催していた。
  • 1