タグ

ブックマーク / note.com/npaka (9)

  • GPT-4o の概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。 音声入力にはわずか232ミリ秒 (平均320ミリ秒) で応答できます。これは、人間の会話における応答時間とほぼ同じです。英語のテキストおよびコードでは「GPT-4 Turbo」のパフォーマンスに匹敵し、英語以外の言語のテキストでは大幅に改善されており、APIでははるかに高速で50%安価です。「GPT-4o」は、既存のモデルと比較して、特に視覚と音声の理解に優れています。 2. モデルの機能「GPT-4o」以前は、音声モードを使用して、平均2.8秒 (GPT-3.5) および5

    GPT-4o の概要|npaka
  • Sora - 世界シミュレータとしての動画生成モデル|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Video generation models as world simulators 1. はじめにこのテクニカルレポートでは、(1)あらゆる種類のビジュアルデータを、生成モデルの大規模学習できる表現に変換する手法、(2)「Sora」の能力と限界の定性的評価 について紹介しています。モデルと実装の詳細は含まれていません。 多くの先行研究では、リカレントネットワーク、生成的敵対ネットワーク、自己回帰変換器、拡散モデルなど、様々な手法を用いて映像データの生成的モデリングが研究されています。OpenAIの最大の動画生成モデルである「Sora」はビジュアルデータの汎化モデルであり、様々な時間、アスペクト比、解像度にまたがる動画や画像を生成することができます。 2. ビジュアルデータのパッチ化LLMパラダイムの成功は、テキスト、数学、様々な自然言

    Sora - 世界シミュレータとしての動画生成モデル|npaka
  • OpenAI Sora の 概要|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・Sora 1. Sora「Sora」は、テキスト指示から現実的で想像力に富んだシーンを作成できる、動画生成モデルです。 OpenAIでは、人々が現実世界の相互作用を必要とする問題を解決するのに役立つ学習モデルを目標に、動いている物理的な世界を理解してシミュレートするようにAIを教えています。 Introducing Sora, our text-to-video model. Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W Prompt: “Beau

    OpenAI Sora の 概要|npaka
  • RLHF (人間のフィードバックからの強化学習) の図解|npaka

    以下の記事が面白かったので、軽く要約しました。 ・Illustrating Reinforcement Learning from Human Feedback (RLHF) 1. はじめに言語モデルは、人間の入力プロンプトから多様で説得力のあるテキストを生成することで、ここ数年、目覚ましい成果をあげています。しかし、「良い」テキストかどうかは、主観的で文脈に依存するため、定義することが困難です。 「良い」テキストを生成するための損失関数の設計は難しく、ほとんどの言語モデルは、まだ単純な次のトークン予測損失(クロスエントロピーなど)で学習しています。この損失自体の欠点を補うために、BLEUやROUGEなどの人間の好みをよりよく捉えるように設計された指標も定義されています。しかしこれらは、能力測定において損失関数より適してますが、生成されたテキストを単純なルールで参照比較するため、制限があり

    RLHF (人間のフィードバックからの強化学習) の図解|npaka
  • Google Colab で BabyAGI を試す

    Google Colab」で「BabyAGI」を試したので、まとめました。 1. BabyAGI「BabyAGI」は、タスク駆動型自律エージェントのフレームワークです。ゴールに基づいてタスクの作成、優先順位付け、および実行を行います。主なアイデアは、前のタスク結果とゴールに基づいてタスクを作成することです。「Task-Driven Autonomous Agent」 (Mar 28, 2023)の簡易版になります。 「BabyAGI」は、次の手順を無限ループすることで機能します。 (1) タスクリストから最初のタスクを取得。 (2) タスクを実行エージェントに送信。実行エージェントは、「OpenAI API」を使用して、タスク結果を取得。 (3) 結果を充実させ、「Pinecone」に保存。 (4) 新しいタスクを作成し、ゴールと前のタスク結果に基づいてタスクリストの優先順位を付け直す。

    Google Colab で BabyAGI を試す
  • ChatGPT API の使い方|npaka

    OpenAI」の 記事「Chat completions」が面白かったので、軽くまとめました。 1. ChatGPT APIChatGPT」は、OpenAIの最も先進的な言語モデルである「gpt-3.5-turbo」を搭載しています。「OpenAI API」から「gpt-3.5-turbo」を使用して独自アプリケーションを作成できます。 ・メールや文章のドラフト ・Pythonコードの生成 ・一連の文書に関する質問応答 ・会話型エージェントの作成 ・ソフトウェアへの自然言語インターフェースの追加 ・さまざまな科目の家庭教師 ・言語の翻訳 ・ビデオゲームのキャラクターのシミュレート 2. 使用料金使用料金は、以下で確認できます。 3. Colab での実行「gpt-3.5-turbo」は、マルチターンの会話を簡単にするように設計されていますが、会話のないシングルターンタスクでも役立ちます

    ChatGPT API の使い方|npaka
  • Google Colab で PEFT による大規模言語モデルのファインチューニングを試す|npaka

    Google Colab」で 「PEFT」による大規模言語モデルのファインチューニングを試したので、まとめました。 1. PEFT「PEFT」(Parameter-Efficient Fine-Tuning)は、モデルの全体のファインチューニングなしに、事前学習済みの言語モデルをさまざまな下流タスクに適応させることができるパッケージです。 大規模言語モデルのファインチューニングは、多くの場合、法外なコストがかかりますが、「PEFT」は少数のパラメータのみをファインチューニングするため、計算コストとストレージ コストが大幅に削減でき、さらには、完全なファインチューニングに匹敵するパフォーマンスを実現します。 現在サポートしている手法は、次の4つです。 ・LoRA ・Prefix Tuning ・P-Tuning ・Prompt Tuning 2. Colabでの実行Google Colab

    Google Colab で PEFT による大規模言語モデルのファインチューニングを試す|npaka
  • Androidアプリ開発入門 (3) - SpeechRecognizer|npaka

    Androidアプリでの「SpeechRecognizer」による「音声認識」の実装方法をまとめました。 ・API 31: Android 12 (S) 前回 1. SpeechRecognizerカスタムUIを使った「音声認識」を実装するには、「SpeechRecognizer」で「RecognizerIntent」を実行して使います。このクラスのメソッドは、すべてメインスレッドから呼ぶ必要があります。 2. AndroidManifest.xml「AndroidManifest.xml」に以下の項目を設定します。 ・android.permission.RECORD_AUDIO : マイクのパーミッション<uses-permission android:name="android.permission.RECORD_AUDIO" />さらに、Android 11(API Level 3

    Androidアプリ開発入門 (3) - SpeechRecognizer|npaka
  • MediaPipeとTensorFlow.jsによるブラウザでの顔と手の追跡|npaka

    以下の記事を参考に書いてます。 ・Face and hand tracking in the browser with MediaPipe and TensorFlow.js 1. ブラウザでライブデモを試してください「facemesh」は、画像内の顔の境界とランドマークを検出、「handpose」は手を検出するパッケージです。これらのパッケージは小さく、高速で、ブラウザ内で実行されるため、データがユーザーのデバイスを離れることはなく、ユーザーのプライバシーが保護されます。 以下のリンクから、今すぐ試すことができます。 ・facemesh ・handpose これらパッケージは、マルチモーダル知覚パイプラインを構築するためのライブラリ「MediaPipe」の一部としても利用できます。 ・MediaPipe face tracking ・MediaPipe hand pose trackin

    MediaPipeとTensorFlow.jsによるブラウザでの顔と手の追跡|npaka
  • 1