サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
大阪万博
zenn.dev/kun432
from openai import OpenAI client = OpenAI() audio_file= open("voice_lunch_jp_5min.wav", "rb") transcription = client.audio.transcriptions.create( model="whisper-1", file=audio_file ) print("\n===== whisper-1 =====\n", transcription.text) transcription = client.audio.transcriptions.create( model="gpt-4o-mini-transcribe", file=audio_file ) print("\n===== gpt-4o-mini-transcribe =====\n", transcriptio
PDFからきれいなプレーンテキストを抽出するオープンソースツール、olmOCRをご紹介します! 規模に合わせて構築されたolmOCRは、多くの種類のドキュメントを高いスループットで処理します。3000トークン/秒以上、100万ページあたり190ドル相当、GPT-4oの1/32のコストです! PDFはテキストを抽出するのが難しいことで有名です。列、表、数式などの複雑なレイアウトを持つこともあります。標準的なツールでは、読み取り順序に苦労し、特にスキャン文書や手書き✍️のテキストでは、テキストが乱れたり、コンテンツが完全に欠落したりすることがよくあります。 olmOCRを構築するために、我々は100KのクロールされたPDFから260Kページの多様なデータセットを調達し、PDFメタデータとページラスタを組み合わせた*ドキュメントアンカリング*と呼ばれる特殊なプロンプトを使用してGPT-4oを使用
そういえば「おうちKubernetes」をやろうと思った時に、Proxmoxも考えたのよな。 ただ、当時は複数台用意するとなるとRPiのほうが安かったので、そちらにしたのだけども。我が家のお蔵入りしているRPi K8Sクラスタ・・・ ちょっと前にも改めてやっていたのだけど、K8S熱が上がってきた感があるなー。マルチエージェントのデプロイ先にK8Sはとてもいいと思うし。 公式サイト データセンターをシンプルに Proxmoxは、すべての機能に誰もがフルアクセスできる強力なエンタープライズグレードのソリューションを提供します。信頼性と安全性に優れています。 ソフトウェア定義のオープンなプラットフォームは、導入、管理、予算が容易です。 Proxmox Virtual Environment Proxmox Virtual Environmentは、企業向け仮想化のための完全なオープンソースプラッ
とあるノートブック試したくて、そのノートブック内でFlashAttentionがインストールされている。 ただこれめちゃめちゃ時間がかかる。ノートブックではT4を使用しているようだが、試した限り少なくとも1時間では終わらなかった。L4でも試したが同じ。(ちなみにFlashAttention2はT4のような新しいアーキテクチャには対応していないとレポジトリには書いてあるようなのだが、はて?) 自分は待てなかったので止めた。 でこういうポストを見かけた どうやらFlashAttention2のレポジトリで事前ビルド済みのものが提供されているみたい さらにpip install flash-attn --no-build-isolationは、この事前ビルド済みのものをダウンロードしてきてインストールするのだが、この時、環境内のPython/CUDA/PyTorchなどのバージョンをチェックして
インストール Colaboratory L4で。 パッケージインストール。transformersのアップデートを行っている箇所で、おそらくランタイム再起動を促されると思うので、すべてのパッケージインストールが終わった段階でランタイムを再起動する。 !pip install --upgrade pip !pip install --upgrade transformers accelerate torchaudio !pip install "punctuators==0.0.5" !pip install "pyannote.audio" !pip install git+https://github.com/huggingface/diarizers.git
GitHubレポジトリ PydanticAI エージェントフレームワーク / PydanticをLLMで活用するためのシム FastAPIに出会ったとき、その価値をすぐに理解しました。Pydanticを基盤とした、これほど革新的で使いやすいものを見つけたことに興奮しました。 Pythonで利用されるほぼすべてのエージェントフレームワークやLLMライブラリはPydanticを使用していますが、私たちがPydantic LogfireでLLMを活用し始めたとき、同じような感動を得られるものは見つかりませんでした。 PydanticAIは、生成AIを用いた本番グレードのアプリケーションをより簡単に構築できるよう設計されたPythonエージェントフレームワークです。 なぜPydanticAIを使うのか? Pydanticを開発したチームが構築 OpenAI SDK、Anthropic SDK、La
ここで知った Jina-CLIP-v2: 89の言語に対応し、512x512の画像解像度、8192トークンの長さ、そして画像とテキストの両方で最大64次元までのMatryoshka表現をサポートする0.9B(9億パラメータ)の多言語対応マルチモーダル埋め込みモデルです。詳しくはこちら:https://jina.ai/news/jina-clip-v2-multilingual-multimodal-embeddings-for-text-and-images/ もちろん、検索や分類タスクでの高いパフォーマンスを誇ります。Jina-CLIP v1と同様に、Jina-CLIP v2のテキストエンコーダーは単独でも高密度な検索ツールとして機能し、現在1B未満のパラメータ数で最高の多言語埋め込みモデルであるjina-embeddings-v3に匹敵するパフォーマンスを発揮します。 他のCLIPスタ
たまたま目にしたこれ スレに技術スタックが書かれているのだが ✅ Zep (@zep_ai) for conversation memory and building up key facts about each user; この「Zep」が気になって調べてみた。 公式サイト。クラウドサービスとして提供しているっぽい。 AIの基礎となるメモリレイヤー 平凡なものから途方もないものまで、タスクを完了するための知識をエージェントに与えます。 パーソナライズされた正確なAIエージェントを構築 ユーザーとビジネスデータから学習するメモリ Zepにチャットメッセージとビジネスデータのストリームを送信 Zepはナレッジグラフ上でインテリジェントにデータを融合します。 1回のAPIコールでエージェントに正確で適切なユーザ情報を提供します。 エージェントの時間的推論を可能に 事実の変化に応じて更新される
が、エラーになってしまう。 ちなみにClaude-3.5-Sonnetだとこんな感じで、ファイル作成してプレビューまで問題なく行われる。 Claude-3.5-Sonnetに最適化されているとあるし、しょうがないのかな?と思いつつも、そもそもタスクを正しく認識していないように見える。調べてみると以下のIssueを見つけた。 Cline用のカスタムなQwen2.5-Coderモデルを作っている方がいる様子。確かにキャプチャを見る限りは動いているように見える。モデルは以下。 こちらの方のモデルをダウンロード。
ここで知った。 試しに、神戸市が公開している観光に関する統計・調査資料のうち、「令和5年度 神戸市観光動向調査結果について」のPDFで一度試していたのだけども: (出典) 神戸市Webサイトの「観光に関する統計・調査」のページ 上記にある「令和5年度 神戸市観光動向調査結果について」のPDF 日本語でも、概ね問題なく、表などもきれいにパースされる ただし、表が画像 になってる場合に、うまく解釈されない(表は解釈されるが、中の文字が化ける) OCRが正しくできていない可能性 というのがあって、ドキュメント読んだけどわからなくて、それ以上深追いしてなかった。 ただ、X界隈を見る限りは評判は良さそうで、いろいろ記事も出てきたみたいなので、改めて試してみる。 GitHubレポジトリ ドキュメント Docling Doclingは、ドキュメントを解析し、簡単かつ迅速に希望の形式にエクスポートします。
前からあるのは知っていたけど、全然試してなかった。名前がそのまますぎる。 LLM 大規模言語モデル(LLM)とのやり取りを可能にするCLIユーティリティとPythonライブラリです。リモートAPIと、ローカルにインストールして実行できるモデルの両方に対応しています。 コマンドラインからプロンプトを実行したり、結果をSQLiteに保存したり、埋め込みを生成するなどの機能があります。 リモートモデルとローカルモデルへのアクセスを提供するLLMプラグインディレクトリをご参照ください。 詳細なドキュメント: llm.datasette.io このプロジェクトの背景: llm、ttok、strip-tags - ChatGPTなどのLLMを操作するためのCLIツール LLM CLIツールがプラグインを通じてセルフホスト型言語モデルをサポート llm-replicateプラグインを使用してコマンドライ
GitHubレポジトリ HumanLayer HumanLayer: AIエージェントがツールベースおよび非同期ワークフローで人間とコミュニケーションできるようにするPythonツールキット。人間をループに組み込むことで、エージェントツールはより強力で意味のあるツールコールやタスクへのアクセスが可能になります。 あなたのLLM(OpenAI、Llama、Claudeなど)やフレームワーク(LangChain、CrewAIなど)を持ち込み、AIエージェントに安全に世界へのアクセスを提供しましょう。 なぜHumanLayerなのか? 機能やツールは、エージェントワークフローの重要な要素です。これらは、LLM(大規模言語モデル)が外部の世界と意味のある形でやり取りし、広範囲にわたる重要な作業を自動化することを可能にします。正確で正しい機能呼び出しは、AIエージェントがアポイントメントを予約したり
フリーランスのインフラ系エンジニア。LLM関連でいろいろ試してみた内容とかその時思ったことを、メモ・覚書的に書いてます。 LLM/Voiceflow/Alexa/AWS/Kubernetes/Terraformとか。競馬が好き。
こいつの何がすごいかというと、gitをcloneしてくると、ソースコード読ませて「これにこういう機能を追加しろ」と言うと勝手に追加してgit commitしてしまう。良きところで/git push origin mainとやればやってくれる。 このツールのすごいところは、ユーザー(開発者)が完全に受け身になると言うこと。 これまでのAI支援開発ツールは、あくまでも「支援」にとどまっていた。作りたいものをどう作るかイメージするのはプログラマで、AIはそれをサポートする役だった。その方が、開発者は入ってきやすい。 しかしAIderによる開発は、支援ではない。むしろ開発請負ツールと言ってもいい。 AIderに対してユーザーは一切遠慮しなくていい。 「こう言うものを作れ」と言ったらAIderは勝手に作るし、「この機能を作れ」と言ってもAIderは勝手に作る。 AIderの対話環境は「エディタ」では
2024/11/01追記 GraphRAGの実装に、nano-graphragが追加されたようです。 https://x.com/kagamih/status/1852282744694587509 MSのGraphRAGよりもコンパクトに使えると思うので、個人的にはそちらをオススメします(まだ試していませんが) nano-graphragを元にしたLightRAGについては以下にまとめてます。 https://zenn.dev/kun432/scraps/1f28e5d20dfdf5 あと下に書いてる不具合も確かもう直ってると思うけど、実際に試していないのと、nano-graphragのほうがいいかなと思うので、もはや本記事はobsoleteということで。 2024/09/03追記 ちょっとX経由で見に来ていただいた方が増えているようなのであらかじめ注意。 kotaemonで普通のRAG
調べてみたら他にもいくつかあった。他にもあるのだけど、比較的開発が継続されてそうなものをピックアップ。 Perplexica 概要 Perplexicaは、オープンソースのAI搭載検索ツール、またはAI搭載検索エンジンであり、インターネットの奥深くまで入り込んで答えを見つける。Perplexity AIにインスパイアされたPerplexicaは、単にウェブを検索するだけでなく、あなたの質問を理解するオープンソースのオプションだ。類似検索や埋め込みなどの高度な機械学習アルゴリズムを使って検索結果を絞り込み、引用元とともに明確な回答を提供する。 SearxNGを使用して常に最新の情報を提供し、完全なオープンソースであるPerplexicaは、あなたのプライバシーを損なうことなく、常に最新の情報を得ることを保証する。 Perplexicaのアーキテクチャと仕組みについてもっと知りたい?こちらで読
Firecrawl 以下で少し触れたFirecrawl。 https://www.firecrawl.dev/ Webサイトをクロールして、JSONやMarkdownなどLLMで使いやすいデータに変換するサービス。 オフィシャルではないけども以下で紹介されている。 https://www.youtube.com/watch?v=fDSM7chMo5E Jina.aiのReader APIと似たような感じかな? https://zenn.dev/kun432/scraps/feec7e2370450c ソースはGitHubで公開(ライセンスはAGPL-3.0)されていて、docker composeでセルフホストできるらしい。 一応READMEには以下とある。 このリポジトリは開発初期段階にある。まだmonoリポジトリのカスタムモジュールをマージしているところだ。完全なセルフホストデプロイの
かなり新し目のフレームワークRAGプラットフォームアプリ RAGFlowとは? RAGFlowは、深い文書理解に基づいたオープンソースのRAG(Retrieval-Augmented Generation)エンジンである。LLM(大規模言語モデル)を組み合わせることで、様々な複雑なフォーマットのデータから根拠のある引用に裏打ちされた、真実味のある質問応答機能を提供し、あらゆる規模のビジネスに合理化されたRAGワークフローを提供する。
GPT-4o テキスト、オーディオ、ビデオの入力を扱い、テキスト、オーディオ、イメージの出力が可能。 GPT-4o以前では、ChatGPTのボイスモードが3つの異なるモデルを使用していた。 GPT-4oはこれらの機能を一つのモデルに統合し、テキスト、ビジュアル、オーディオの各入力を同一のニューラルネットワークで処理する。 現在のAPIの能力 現在のAPIは、テキスト、イメージの入力とテキストの出力をサポート 追加のモダリティ(例えばオーディオ)は現時点(2024/5/14)では使えない。近日導入される予定 Colaboratoryで動かしてみる インストール
ベクトルデータベースに関しては、カリフォルニアのベイエリアで明らかに"多く"の活動が行われている!また、資金調達と評価の額には大きなばらつきがあり、データベースの能力と資金調達額に相関関係がないことは明らかである。 プログラミング言語の選択 高速でレスポンスが良くスケーラブルなデータベースは、近年、GolangやRustのようなモダンな言語で書かれることが一般的である。ベクトル特化ベンダーの中で、Javaで書かれているのはVespaだけである。Chromaは、C++で構築されたOLAPデータベースであるClickhouseとオープンソースのベクトルインデックスであるHNSWLibの上に構築されたPython/TypeScriptラッパーとなっている。 興味深いことに、Pineconeも[2]、LanceDBのベースとなるストレージフォーマットであるLance[3]も、元々はC++で書かれて
whisper.cppとかllama.cppとかのモデルを見てると、GGMLとかGGUFとかGPTQとか色々なフォーマットが出てくる。これまでは適当に雰囲気で選んでいたんだけど、ちゃんとを調べてみた。 GGML ChatGPTやBardなどで利用されているチャットAIは、トレーニングだけでなく動作させるのにも数十~数百GBのVRAMなど非常に高いマシンスペックを要求するのが一般的です。そうした状況を変えるべく、GPU不要でチャットAIを動作させるライブラリ「GGML」の開発が進められています。 ggml.ai http://ggml.ai/ ggerganov/ggml: Tensor library for machine learning https://github.com/ggerganov/ggml GGMLの特徴は下記の通り。 ・Cで記述 ・16bit floatをサポート ・
本家 OSS実装 Multilingual TTS: Speak in three languages - English, Chinese, and Japanese - with natural and expressive speech synthesis. Zero-shot Voice Cloning: Enroll a short 3~10 seconds recording of an unseen speaker, and watch VALL-E X create personalized, high-quality speech that sounds just like them! Speech Emotion Control: Experience the power of emotions! VALL-E X can synthesize speech with
StableDiffusion用のUI ノードベースでパイプラインを作って処理を行う というものらしい。 stable-diffusion-web-uiでのSDXLサポートがまだ足りないようで、こちらが使われている記事などをちらほら見かけたので、試してみた。(ComfyUI自体はSD1.X/2.Xにも対応している) インストール pyenv-virtualenvのpython-3.10.11でやってみる。 $ pyenv virtualenv 3.10.11 ComfyUI $ git clone https://github.com/comfyanonymous/ComfyUI && cd ComfyUI $ pyenv local ComfyUI $ pip install torch torchvision torchaudio --extra-index-url https://d
GPT-3では、APIに対して自然言語で質問することにより得たい回答を得ることができるが、質問にヒントを付け加えることでより回答の精度があがり求めているものに近しいものになる。このときの質問やヒントを「プロンプト」という。 より期待する回答を得やすくするためにはこのプロンプトの与え方が重要で、これを一種のプログラミングと考えて「プロンプトプログラミング」「プロンプトエンジニアリング」というような言い方もされていたりする。 このプロンプトは公式ドキュメントに多くの例がある。 ふわっとよしなにやってくれるぐらいの認識なので、一通り順番に試して理解を深めてみたい。なお、かんたんなスクリプトも添える。 1: Q&A 2: Grammar correction 3: Summarize for a 2nd grader 4: Natural language to OpenAI API 5: Tex
Vagrantを使ってKubernetesを体験してみるためのハンズオンです。 Kubernetes自体の構築ではなく、Kubernetes上でアプリケーションを作成・公開するために、Kubernetesの主要なリソースおよびkubectlコマンドの使い方について説明しています。
このページを最初にブックマークしてみませんか?
『kun432さんの記事一覧』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く