sh19910711のブックマーク - はてなブックマーク

Gemini API で動画の質問応答を試す｜npaka

「Gemini API」で動画の質問応答を試したので、まとめました。 1. Gemini 1.5 Pro の動画データ入力「Gemini 1.5 Pro」で動画データでの入力が可能になりました。サポートしているファイル形式は、次のとおりです。・MP4 : video/mp4 ・MPEG : video/mpeg ・MOV : video/mov ・AVI : video/avi ・FLV : video/x-flv ・MPG : video/mpg ・WebM : video/WebM ・WMV : video/WMV ・3GPP : video/3gpp 「File API」は動画を1フレーム/秒（FPS）でサンプリングしますが、最適な推論品質を提供するために変更される可能性があります。解像度や品質に関係なく、個々の画像は258トークンを使用します。 2. 動画の質問応答動画の質問

sh19910711 2024/05/28

"動画を1フレーム/秒（FPS）でサンプリングしますが、最適な推論品質を提供するために変更される可能性 / 解像度や品質に関係なく、個々の画像は258トークンを使用 / プロジェクト毎に最大20GBのファイルを保存"

リンク

Stable Baselines と Raspberry Pi によるホッケーロボットの強化学習｜npaka

「AI・人工知能EXPO 2020 【秋】」の「ギリア」ブースにて、「Stable Baselines」と「Raspberry Pi」によるホッケーロボットの強化学習を展示しました。 Webカメラの映像を入力として使って、「Raspberry Pi」上で「Stable Baselines」による推論を行い、ロボットアームの操作して、ホッケーロボットの対戦を実現させています。今回は、「Stable Baselines」と「Raspberry Pi」によるホッケーロボットの強化学習の作成の流れを紹介します。【ステップ1】ロボットアームとホッケー台の選定はじめに、ロボットアームをいろいろ試してみて、KHRシリーズで有名な近藤科学の「KXR-A5」を選びましました。ホッケーするのに十分なサーボ速度、長時間動く耐久性、1台38,000円という値段の安さが決め手になりました。

sh19910711 2024/04/21

"Webカメラの映像を入力として使って、「Raspberry Pi」上で「Stable Baselines」による推論 / KXR-A5: ホッケーするのに十分なサーボ速度、長時間動く耐久性、1台38,000円 / 模倣学習: 「人間の操作ログ」に近いほど報酬を与える" 2021

リンク

Gemini API でラジオ番組の音声からの文字起こしを試す｜npaka

「Gemini API」でラジオ番組の音声からの文字起こしを試したので、まとめました。 1. Gemini 1.5 Pro の音声データ入力「Gemini 1.5 Pro」で音声データでの入力が可能になりました。サポートしているファイル形式は、次のとおりです。・MIMEタイプの制限・WAV - audio/wav ・MP3 - audio/mp3 ・AIFF - audio/aiff ・AAC - audio/aac ・OGG Vorbis - audio/ogg ・FLAC - audio/flac ・1プロンプトでの音声データの最大長は 9.5 時間。・1プロンプト内の音声ファイルの数には制限ない。・音声ファイルは16Kbpsのデータ解像度までリサンプリングされ、複数のオーディオチャネルは1チャネルに結合される。 2. ラジオ番組の音声の準備今回は、「Claude 3」と

sh19910711 2024/04/15

"Gemini 1.5 Pro: 1プロンプトでの音声データの最大長は9.5時間 + 音声ファイルの数には制限ない / 音声の準備: 「Claude 3」に台本を書いてもらう + 「VOICEVOX」に読み上げてもらう"

リンク

MLX Swift による LLM のオンデバイス推論を試す｜npaka

「MLX Swift」による「LLM」のオンデバイス推論を試したので、まとめました。 1. MLX Swift「MLX Swift」は、Swiftから利用できる「MLX」で、「MLX」は、Appleが開発した新しい機械学習フレームワークで、「Apple Silicon」(M1/M2/M3など) を最大限に活用するように設計されています。・サポートするプラットフォーム・Mac ・iOS ・visionOS 2. iOSのデモアプリの実行iOSのデモアプリの実行手順は、次のとおりです。 (1) 以下のXcodeプロジェクトをダウンロードして実行。初回は、モデルダウンロードに時間がかかります。・LLMEval (2) 必要に応じてでモデルを切り替え。 ControlViewの150行目で切り替えることができます。 let modelConfiguration = ModelConfigu

sh19910711 2024/04/13

"MLX Swift: Swiftから利用できる「MLX」 / MLX: Appleが開発した新しい機械学習フレームワーク / 「iPhone 12」の6GBでは、「Mistral 7B 4bit」は動作しませんでした。「iPhone 15 Pro」であれば8GBなので動くと思われ"

リンク

GPT Index のナレッジグラフ機能を試す｜npaka

GPT Index のナレッジグラフ機能を試したので、まとめました。 1. ナレッジグラフ「ナレッジグラフ」 (Knowledge Graph) は、さまざまな知識の関係をグラフ構造で表したものです。知的システムの基盤となるデータベースとして用いられます。「GPT Index」は、RDF フレームワークと直接互換性のある「トリプル」 (主語、述語、目的語) として表されるナレッジグラフデータをサポートします。内部的には、グラフデータは有向グラフとして管理されます。現在、「GPT Index」は、LLMがサポートするトリプルの操作を2つ提供しています。・グラフ抽出 (Graph extraction) : 与えられたテキストからトリプルを抽出・グラフQ&A (Graph Q&A) : グラフデータを応答合成のコンテキストとして利用 2. グラフ抽出Google Colabでの「GPT

sh19910711 2023/02/19

"Graph extraction: 与えられたテキストからトリプルを抽出 / Graph Q&A: グラフデータを応答合成のコンテキストとして利用 / ナレッジグラフが利用できるのは0.4.3以降 / 日本語で質問してみましたがうまく動作しませんでした"

リンク

Motion Diffusion Model で生成したモーションをUnityで再生する｜npaka

Motion Diffusion Model で生成したモーションをUnityで再生する方法をまとめました。・Unity 2021.3.10f1 前回 1. Motion Diffusion Modelで生成したモーション前回、「Motion Diffusion Model」で「the person walked forward and is picking up his toolbox.」(人は前に歩き、ツールボックスを拾う)というプロンプトからモーション(results.npy)を生成し、(おまけで) result.jsonに変換しました。今回は、このモーションをUnityで再生します。 2. Unityでのモーションの可視化はじめに、モーションのUnityでの可視化を行います。 (1) 3DでUnity プロジェクトを作成。 (1) results.jsonをAssets/Reso

sh19910711 2022/10/12

"前回、「Motion Diffusion Model」で「the person walked forward and is picking up his toolbox.」(人は前に歩き、ツールボックスを拾う)というプロンプトからモーションを生成 / 今回は、このモーションをUnityで再生します"

リンク

はてなブックマーク

タグ

ブックマーク / note.com/npaka (6)

お知らせ

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

今週のはてなブックマーク数ランキング（2024年6月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス