タグ

ブックマーク / note.com/npaka (6)

  • Gemini API で 動画の質問応答 を試す|npaka

    「Gemini API」で動画の質問応答を試したので、まとめました。 1. Gemini 1.5 Pro の 動画データ入力「Gemini 1.5 Pro」で動画データでの入力が可能になりました。 サポートしているファイル形式は、次のとおりです。 ・MP4 : video/mp4 ・MPEG : video/mpeg ・MOV : video/mov ・AVI : video/avi ・FLV : video/x-flv ・MPG : video/mpg ・WebM : video/WebM ・WMV : video/WMV ・3GPP : video/3gpp 「File API」は動画を1フレーム/秒(FPS)でサンプリングしますが、最適な推論品質を提供するために変更される可能性があります。解像度や品質に関係なく、個々の画像は258トークンを使用します。 2. 動画の質問応答動画の質問

    Gemini API で 動画の質問応答 を試す|npaka
    sh19910711
    sh19910711 2024/05/28
    "動画を1フレーム/秒(FPS)でサンプリングしますが、最適な推論品質を提供するために変更される可能性 / 解像度や品質に関係なく、個々の画像は258トークンを使用 / プロジェクト毎に最大20GBのファイルを保存"
  • Stable Baselines と Raspberry Pi によるホッケーロボットの強化学習|npaka

    AI人工知能EXPO 2020 【秋】」の「ギリア」ブースにて、「Stable Baselines」 と「Raspberry Pi」によるホッケーロボットの強化学習を展示しました。 Webカメラの映像を入力として使って、「Raspberry Pi」上で「Stable Baselines」による推論を行い、ロボットアームの操作して、ホッケーロボットの対戦を実現させています。 今回は、「Stable Baselines」と「Raspberry Pi」によるホッケーロボットの強化学習の作成の流れを紹介します。 【ステップ1】 ロボットアームとホッケー台の選定はじめに、ロボットアームをいろいろ試してみて、KHRシリーズで有名な近藤科学の「KXR-A5」を選びましました。ホッケーするのに十分なサーボ速度、長時間動く耐久性、1台38,000円という値段の安さが決め手になりました。

    Stable Baselines と Raspberry Pi によるホッケーロボットの強化学習|npaka
    sh19910711
    sh19910711 2024/04/21
    "Webカメラの映像を入力として使って、「Raspberry Pi」上で「Stable Baselines」による推論 / KXR-A5: ホッケーするのに十分なサーボ速度、長時間動く耐久性、1台38,000円 / 模倣学習: 「人間の操作ログ」に近いほど報酬を与える" 2021
  • Gemini API でラジオ番組の音声からの文字起こしを試す|npaka

    「Gemini API」でラジオ番組の音声からの文字起こしを試したので、まとめました。 1. Gemini 1.5 Pro の 音声データ入力「Gemini 1.5 Pro」で音声データでの入力が可能になりました。 サポートしているファイル形式は、次のとおりです。 ・MIMEタイプの制限 ・WAV - audio/wav ・MP3 - audio/mp3AIFF - audio/aiff ・AAC - audio/aac ・OGG Vorbis - audio/ogg ・FLAC - audio/flac ・1プロンプトでの音声データの最大長は 9.5 時間。 ・1プロンプト内の音声ファイルの数には制限ない。 ・音声ファイルは16Kbpsのデータ解像度までリサンプリングされ、複数のオーディオ チャネルは1チャネルに結合される。 2. ラジオ番組の音声の準備今回は、「Claude 3」と

    Gemini API でラジオ番組の音声からの文字起こしを試す|npaka
    sh19910711
    sh19910711 2024/04/15
    "Gemini 1.5 Pro: 1プロンプトでの音声データの最大長は9.5時間 + 音声ファイルの数には制限ない / 音声の準備: 「Claude 3」に台本を書いてもらう + 「VOICEVOX」に読み上げてもらう"
  • MLX Swift による LLM のオンデバイス推論を試す|npaka

    「MLX Swift」による「LLM」のオンデバイス推論を試したので、まとめました。 1. MLX Swift「MLX Swift」は、Swiftから利用できる「MLX」で、「MLX」は、Appleが開発した新しい機械学習フレームワークで、「Apple Silicon」(M1/M2/M3など) を最大限に活用するように設計されています。 ・サポートするプラットフォーム ・Mac ・iOS ・visionOS 2. iOSのデモアプリの実行iOSのデモアプリの実行手順は、次のとおりです。 (1) 以下のXcodeプロジェクトをダウンロードして実行。 初回は、モデルダウンロードに時間がかかります。 ・LLMEval (2) 必要に応じてでモデルを切り替え。 ControlViewの150行目で切り替えることができます。 let modelConfiguration = ModelConfigu

    MLX Swift による LLM のオンデバイス推論を試す|npaka
    sh19910711
    sh19910711 2024/04/13
    "MLX Swift: Swiftから利用できる「MLX」 / MLX: Appleが開発した新しい機械学習フレームワーク / 「iPhone 12」の6GBでは、「Mistral 7B 4bit」は動作しませんでした。「iPhone 15 Pro」であれば8GBなので動くと思われ"
  • GPT Index のナレッジグラフ機能を試す|npaka

    GPT Index のナレッジグラフ機能を試したので、まとめました。 1. ナレッジグラフ「ナレッジグラフ」 (Knowledge Graph) は、さまざまな知識の関係をグラフ構造で表したものです。知的システムの基盤となるデータベースとして用いられます。 「GPT Index」は、RDF フレームワークと直接互換性のある「トリプル」 (主語、述語、目的語) として表されるナレッジグラフデータをサポートします。内部的には、グラフデータは有向グラフとして管理されます。 現在、「GPT Index」は、LLMがサポートするトリプルの操作を2つ提供しています。 ・グラフ抽出 (Graph extraction) : 与えられたテキストからトリプルを抽出 ・グラフQ&A (Graph Q&A) : グラフデータを応答合成のコンテキストとして利用 2. グラフ抽出Google Colabでの「GPT

    GPT Index のナレッジグラフ機能を試す|npaka
    sh19910711
    sh19910711 2023/02/19
    "Graph extraction: 与えられたテキストからトリプルを抽出 / Graph Q&A: グラフデータを応答合成のコンテキストとして利用 / ナレッジグラフが利用できるのは0.4.3以降 / 日本語で質問してみましたがうまく動作しませんでした"
  • Motion Diffusion Model で生成したモーションをUnityで再生する|npaka

    Motion Diffusion Model で生成したモーションをUnityで再生する方法をまとめました。 ・Unity 2021.3.10f1 前回 1. Motion Diffusion Modelで生成したモーション前回、「Motion Diffusion Model」で「the person walked forward and is picking up his toolbox.」(人は前に歩き、ツールボックスを拾う)というプロンプトからモーション(results.npy)を生成し、(おまけで) result.jsonに変換しました。 今回は、このモーションをUnityで再生します。 2. Unityでのモーションの可視化はじめに、モーションのUnityでの可視化を行います。 (1) 3DでUnityプロジェクトを作成。 (1) results.jsonをAssets/Reso

    Motion Diffusion Model で生成したモーションをUnityで再生する|npaka
    sh19910711
    sh19910711 2022/10/12
    "前回、「Motion Diffusion Model」で「the person walked forward and is picking up his toolbox.」(人は前に歩き、ツールボックスを拾う)というプロンプトからモーションを生成 / 今回は、このモーションをUnityで再生します"
  • 1