タグ

ブックマーク / acro-engineer.hatenablog.com (25)

  • GraphRAG Toolkit を使って Amazon Bedrock で GraphRAG を構築する - Taste of Tech Topics

    こんにちは、機械学習チーム YAMALEX の駿です。 YAMALEX は Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。 (詳細はリンク先をご覧ください。) 今回は AWS が提供するオープンソースツール GraphRAG Toolkit を使って、 GraphRAG に入門しようと思います。 GraphRAG Toolkit を使うと、 Amazon Neptune と Amazon OpenSearch Serverless を使用した GraphRAG システムをローコードで実装できます。 なお、2024年12月から Bedrock Knowledge Base で使用できるようになった GraphRAG とは別物なので、混同しないようご注意ください。 1. はじめに 1.1. GraphRAG とは 1.2. Gr

    GraphRAG Toolkit を使って Amazon Bedrock で GraphRAG を構築する - Taste of Tech Topics
    cutc-mt
    cutc-mt 2025/03/03
  • PDFドキュメントを画像のまま検索できるColQwen2でマルチモーダル検索を試す - Taste of Tech Topics

    こんにちは。データサイエンスチームYAMALEXの@Ssk1029Takashiです。 完全に年末ですが、最後まで油断せずに年を越したいですね。 このブログは、LLM・LLM活用 Advent Calendar 2024の25日目になります。 qiita.com 今年は1年間RAGを扱う多くの事例に触れさせていただきましたが、どこでも難しいのが図や画像が使われているドキュメントですね。 ただのPDFであれば、pdfminerなどのライブラリを使用して文字を読み取り検索すればよいですが、画像が使われるとそう簡単にもいきません。 画像部分からはOCRを使って文字を取り出すなど、工夫が必要になります。 今回はドキュメントを画像にした状態で検索可能にするColQwen2というモデルを使って日語ドキュメントの検索を試してみます。 ColQwen2とは 実験 環境 PDFドキュメントのEmbeddi

    PDFドキュメントを画像のまま検索できるColQwen2でマルチモーダル検索を試す - Taste of Tech Topics
    cutc-mt
    cutc-mt 2024/12/26
  • Pineconeでハイブリッド検索/リランクは検索精度にどのように寄与するか? - Taste of Tech Topics

    はじめに こんにちは、データ分析エンジニアの木介です。 秋も深まり、肌寒さを感じる季節となりましたが、皆様いかがお過ごしでしょうか。 今回はPineconeを使ったハイブリッド検索とリランクについて紹介していきます。 はじめに 概要 1. Pineconeとは 2. ベクトル検索とは 3. リランクとは 4. ハイブリッド検索とは Pineconeでのベクトル検索+リランクを用いた検索/ハイブリッド検索の検証 1. 検証環境 2. 検索用のインデックス作成 3. ベクトル検索+リランクを用いた検索の利用方法 4. ハイブリッド検索の利用方法 検証結果 まとめ 概要 今回は以下の形でPineconeをベクトルデータベースとして、ベクトル検索にリランクを合わせた検索とハイブリッド検索を行い、検索精度について検証を行っていきます。 1. Pineconeとは Pineconeとは、RAGなどで活

    Pineconeでハイブリッド検索/リランクは検索精度にどのように寄与するか? - Taste of Tech Topics
    cutc-mt
    cutc-mt 2024/12/07
  • MicrosoftのGraphRAG+Neo4jで簡単にKnowledge Graphを可視化する - Taste of Tech Topics

    こんにちは。データサイエンティストチームYAMALEXのSsk1029Takashiです。 LLMが広く使用されるようになってから、RAGに関する研究も増加し、RAGを拡張する手法の研究も多く出ました。 その中でもテキストをグラフデータとして扱いRAGの元データとする手法をGraphRAGと言います。 今回はその中の一つであるMicrosoftが提唱しているGraphRAGの手法を使っていきます。 www.microsoft.com MicrosoftからはGraphRAGを使用できる実装もPythonライブラリとして発表されています。 ライブラリではグラフデータはあくまでRAGの元データとして使用していますが、せっかくテキストからグラフが生成できるのであれば、テキストマイニングしてみたくなるものです。 そこで、記事ではこの手法で作成したグラフをグラフDBの一つであるNeo4jに投入して

    MicrosoftのGraphRAG+Neo4jで簡単にKnowledge Graphを可視化する - Taste of Tech Topics
    cutc-mt
    cutc-mt 2024/11/21
  • RAGの処理で、リランクとベクトル検索でできることの違いを検証/解説してみる - Taste of Tech Topics

    こんにちは。テニスしすぎて日焼けがすごいSsk1029Takashiです。 私は普段、生成AIを活用したRAGソリューションの開発をしているのですが、RAGでは特に検索部分の調整が重要になります。 今回はその検索の中で出てくるリランクに焦点を当てて、ベクトル検索と比較してどのような特徴があるのかというところを、検証を交えて解説していきます。 概要 RAGの検索部分では、よくベクトル検索が利用されます。 理由としては、入力が基的に質問形式になりキーワードで入力されることが多い通常の検索よりも適している、などいくつか考えられます。 ただし、実際にRAGを試してみるとわかりますが、RAGシステムではベクトル検索だけでは検索精度の面で苦労することも多いです。 そこで解決方法の一つとして考えられているのが、ベクトル検索とリランクとの併用になります。 今回は、なぜRAGはベクトル検索だけだと苦労が多

    RAGの処理で、リランクとベクトル検索でできることの違いを検証/解説してみる - Taste of Tech Topics
    cutc-mt
    cutc-mt 2024/10/03
  • PythonでPDFからテキスト/表情報の抽出精度を比較してみた - Taste of Tech Topics

    はじめに こんにちは。ついにジム通いを始めて四六時中筋肉痛を感じながら過ごしているイワツカです。 最近はLLM(大規模言語モデル)とRAG(検索拡張生成)を用いて企業内ドキュメントを活用する取り組みが多く見受けられます。 ドキュメントは基PDFで保存されているため、PDFからテキストを抽出して、検索対象にすることが必要です。 そこで今回は、PythonPDFからテキストを抽出するためのライブラリを比較して、どれが良いのか検証しました。 はじめに 概要 実装 PyMuPDF pdfplumber unstructured 比較結果 テキスト抽出 サンプル1のテキスト抽出結果 サンプル2のテキスト抽出結果 表の抽出 サンプル3の表抽出結果 サンプル4の表抽出結果 検証結果 まとめ 概要 今回はPDF読み取りライブラリとして、PyMuPDFpdfplumber、unstructuredの3

    PythonでPDFからテキスト/表情報の抽出精度を比較してみた - Taste of Tech Topics
    cutc-mt
    cutc-mt 2024/09/12
  • Difyで複数のLLMを切り替えるチャットを実現する - Taste of Tech Topics

    こんにちは、バックエンドエンジニアの前田です。 最近、南海トラフ地震の臨時情報や台風などもあったりして、自衛のための事前準備は欠かせないなと思いました。 さて、今回はDifyを使って複数の大規模言語モデル(LLM)を切り替えるチャットボットを作ってみたいと思います。 なぜ、この内容をやってみようかと思ったかというと、Difyは、複数のLLMを利用できるのですが、 それらは、事前に設定を行って利用するもので、ユーザーが実行時に切り替えて指定ができなかったのですよね。 とはいえ、これもノーコードで実現できるのが、Difyの強みです。 1. 概要 1.1.Difyとは 1.2. この記事で実現すること 2. アプリ作成 2.1. モデルの定義 2.2. モデルの選択 2.3. 変数の集約 3. 作成したアプリを動かしてみる 4. まとめ 1. 概要 1.1.Difyとは Difyは、大規模言語モ

    Difyで複数のLLMを切り替えるチャットを実現する - Taste of Tech Topics
    cutc-mt
    cutc-mt 2024/08/22
  • DifyとKnowledge bases for Amazon Bedrockを連携させてRAGを構築する - Taste of Tech Topics

    こんにちは。ベランダで育てていたバジルが虫にべられてしまいました。ハヤトです。 しかし植物の生命力というのはすごいもので、残った茎から再び葉っぱが成長してきています。次はぜひ私がべたいものです。 さて、成長著しいといえば生成AIアプリ開発の分野はまさに日進月歩ですが、 なかでも「Dify」は、LLMワークフローが特に便利で、注目度が急上昇中です。 今回はそんなDifyとKnowledge bases for Amazon Bedrockを連携させてRAGを構築してみます。 Difyとは? Knowledge bases for Amazon Bedrockとは? 今回作成するチャットボットについて AWS側の設定手順 ナレッジベースの作成 APIの作成 Lambdaの作成 API Gatewayの作成 Dify側の設定手順 カスタムツールの作成 チャットボットの作成 まとめ Difyと

    DifyとKnowledge bases for Amazon Bedrockを連携させてRAGを構築する - Taste of Tech Topics
    cutc-mt
    cutc-mt 2024/07/24
  • Difyを使ってノーコードでAIエージェントを作成する - Taste of Tech Topics

    こんにちは、機械学習チーム YAMALEX の駿です。 YAMALEX は Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。 (詳細はリンク先をご覧ください。) 最近は GPT-4o や Claude 3 を使ったアプリを、せっせと実装したりしていたのですが、Difyの登場により「もう、これでいいじゃん」という気持ちが抑えきれていません。 今回はそんなDifyを使って、「LLM自体の知識が足りないときにGoogle検索を行って回答するチャットボット」を作ってみました。 Google検索して答えてくれる 1. 概要 1.1. Difyとは 2. 環境構築 3. アプリ作成 3.1. 各ブロックの簡単な説明 4. 動かしてみる 5. まとめ 1. 概要 1.1. Difyとは Difyは、大規模言語モデル(LLM)を活用したアプリ

    Difyを使ってノーコードでAIエージェントを作成する - Taste of Tech Topics
    cutc-mt
    cutc-mt 2024/07/10
  • プロンプトエンジニアリングを最適化する為のフレームワークSAMMOを実際に使ってみた - Taste of Tech Topics

    いつの間にか春も過ぎ去りすっかり夏模様の今日この頃皆さんいかがお過ごしでしょうか?菅野です。 生成AIの重要性が高まり、生成AIで利用できるテキスト量が長くなるにつれてにつれて、プロンプトエンジニアリングの重要性が高まってきました。 プロンプトエンジニアリングとは、そのプロンプトにどのような命令、事前情報等を入力すると、より適した応答が返ってくるかを設計する技術です。 そんなプロンプトエンジニアリングを最適化する為のPythonライブラリ、SAMMOMicrosoft社から2024年4月18日にリリースされたので紹介していきます。 www.microsoft.com SAMMOとは? Structure-Aware Multi-objective Metaprompt Optimizationの頭文字をとったフレームワークです。 元来、プロンプトエンジニアリングでは、エンジニアが、様々な

    プロンプトエンジニアリングを最適化する為のフレームワークSAMMOを実際に使ってみた - Taste of Tech Topics
    cutc-mt
    cutc-mt 2024/05/22
  • Sakana.aiが公開した「Evolutionary Model Merge」手法を「mergekit」で実施してみる - Taste of Tech Topics

    皆さんこんにちは 機械学習チームYAMALEXの@tereka114です。 YAMALEXは Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。 (詳細はリンク先をご覧ください。) 日々、LLMが進化していて、画像が職(のはず)の私ですら、ここ数年LLMの勉強をはじめています。 学習してモデル公開しましたといった記事はよく見ますが、今回は今、非常に注目されている日に拠点があるAIスタートアップである「Sakana.ai」が公開した「Evolutionary Model Merge」を使う話をします。 Evolutionary Model Merge 「Evolutionary Model Merge」は「Sakana.ai」から発表された進化的モデルマージと呼ばれる技術です。 端的に言ってしまえば、複数のモデルを利用して新し

    Sakana.aiが公開した「Evolutionary Model Merge」手法を「mergekit」で実施してみる - Taste of Tech Topics
    cutc-mt
    cutc-mt 2024/05/07
  • ChatGPTの Assistants API でPDFを要約 - Taste of Tech Topics

    こんにちは、安部です。 最近急に、暖かさを通り越して暑いぐらいになってきましたが、皆さまいかがお過ごしでしょうか。 季節外れかなとも思いつつ、もう半袖で過ごしたいくらいの気候ですね。 さて、今回は、OpenAIのAssistants APIの使い方を紹介していきます。 題材は「PDFを和訳して要約してもらう」としました。 これはWeb版のChatGPTでも単にPDFファイルを添付して依頼すればできますが、APIの使い方を示すサンプルとしてはちょうどよいと思います。 最新情報については以下の公式ドキュメントをご覧ください。 https://platform.openai.com/docs/assistants/overview https://platform.openai.com/docs/api-reference/assistants それでは早速、Assistants APIの使い方

    ChatGPTの Assistants API でPDFを要約 - Taste of Tech Topics
    cutc-mt
    cutc-mt 2024/04/17
  • 新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics

    最近ソーダストリームを買い、炭酸水を飲むのにはまってます。機械学習エンジニアの@yktm31です。 以前に「AWS Lake Formationでデータレイク体験!」という記事を書いてみて、データ基盤アーキテクチャに興味が湧いてきました。 データレイクハウスは、「データウェアハウス」と「データレイク」を統合したようなアーキテクチャで、 2020年にDatabricks社により提唱され、新しいデータ基盤アーキテクチャとして注目されているようです。 www.databricks.com そこで今回、「データレイクハウス」について調べてみたことをまとめてみたいと思います。 なぜデータレイクハウスが注目されているのか? データウェアハウスの特徴・課題 データレイクの特徴・課題 データレイクハウスの特徴 データレイクハウスのアーキテクチャ Azure Azure Synapse Analyticsを

    新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics
    cutc-mt
    cutc-mt 2023/07/15
  • ChatGPT+Marpで技術勉強会用のプレゼン資料を爆速で作成する - Taste of Tech Topics

    こんにちは、igaです。 ゆっくりペースで実施していた、リングフィット アドベンチャーを先日クリアすることができました。 今回は、ChatGPTに、社内の技術勉強会向けに、ライトニングトーク用のプレゼン資料を作ってもらおうと思います。 私からは、テーマだけを決めて、その内容の検討自体をChatGPTにお願いしてみました。 プレゼン資料の内容 「AWS CloudShell から Amazon ECS で任意のコマンドを実行する方法」という内容を検討してみます。 概要として、以下のようなものを考えています。 「AWS CloudShell から ECS exec を利用して、Amazon ECS上のコンテナで任意のコマンドを実行するために必要な設定方法について説明する。」 ChatGPTに内容の検討を依頼する ChatGPTに内容の検討をお願いするため、以下のようなプロンプトを指定してみます

    ChatGPT+Marpで技術勉強会用のプレゼン資料を爆速で作成する - Taste of Tech Topics
    cutc-mt
    cutc-mt 2023/07/15
  • はてなブログをPython+Elasticsearch+Kibanaで可視化してみる - Taste of Tech Topics

    こんにちは。 普段はデータ分析している新人の佐々木です。 このブログに投稿したいと思いましたが、どんなトピックで書くか悩んでいました。 そこで、この記事ではどのようなトピックが今まで投稿されているのかを見てみたいと思います。 そこで、今回はこの「Taste of Tech Topics」自体をElasticsearch+Kibanaで可視化してみました。 完成画面の一部はこのようになりました。 対象読者ですは次を想定しています。 Elasticsearchを使い始めて、もっと使いこみたい人 日語文書の可視化をしてみたい人 可視化のための手順は次の通りです Elasticsearchの設定 データの解析、投入 可視化 1.Elasticsearchの設定 今回は次のmapping templateを作成し、適用しました。 適用方法はKibanaのDev Toolsを開き以下のリクエストを入

    はてなブログをPython+Elasticsearch+Kibanaで可視化してみる - Taste of Tech Topics
    cutc-mt
    cutc-mt 2017/11/25
  • ElasticStack 6.0 betaがリリースされました! - Taste of Tech Topics

    皆さんこんにちは @tereka114です! 昨日、8/9にElastic Stackの6.0.0-beta1がリリースされました。 Elastic Stack 6.0 alphaを触っていなかったのですが、これを機にbetaを使ってみました。 そこで、Elastic Stack 6.0.0-beta1の機能をピックアップしてご紹介します。 Elastic Stack 6.0.0-beta1の英語での概要であれば、Elastic社のブログで紹介されています。 Elastic Stack 6.0.0-beta1 released | Elastic Elasticsearch X-Packのデフォルトパスワードの変更 Elasticsearchをインストールした後は、X-Packのインストール。ここまでは、これまで通りですね。 bin/elasticsearch-plugin install

    ElasticStack 6.0 betaがリリースされました! - Taste of Tech Topics
    cutc-mt
    cutc-mt 2017/08/17
  • Elasticsearch勉強会でPacketbeatについて発表しました - Taste of Tech Topics

    こんにちは!ツカノ(@snuffkin)です。 先日、Elasticsearch勉強会に参加、発表してきましたので、感想等を書かせて頂きたいと思います。 www.meetup.com Jun Ohtaniさん What's new Elastic Stack 5.4 and 5.5 speakerdeck.com 個人的な目玉はX-Pack Machine Learningです。 このブログでも以前紹介しましたが、機械学習と組み合わせることでElasticsearchのユースケースがさらに広がる感じがします。 acro-engineer.hatenablog.com 谷沢 智史さん Jupyterで手順再現!Elasticsearch構築・運用を実行可能ドキュメントで機械化してみた Jupyterで手順再現!Elasticsearch構築・運用を実行可能ドキュメントで機械化してみた fro

    Elasticsearch勉強会でPacketbeatについて発表しました - Taste of Tech Topics
    cutc-mt
    cutc-mt 2017/08/08
  • X-Pack Machine Learningを試してみました - Taste of Tech Topics

    みなさんこんにちは! @tereka114です。 日、待望のX-Pack Machine Learningがリリースされました。 X-Pack Machine Learning X-Pack Machine Learningとは インストール 実際にやってみた 解析準備 Single Metric Job Multi Metric Job おまけ PrelertとX-Pack Machine Learningの違い より簡単に設定ができる 解析途中や解析後に生データを確認できる モデルが可視化できる 最後に X-Pack Machine Learning X-Pack Machine Learningとは X-Pack Machine LearningはElastic Stackで時系列の異常検知を行える機械学習の製品です。 特徴として、教師なし学習による異常検知モデルの生成や周期、トレ

    X-Pack Machine Learningを試してみました - Taste of Tech Topics
    cutc-mt
    cutc-mt 2017/05/21
  • Apache Flink の耐障害性はどんなもの? ~Exactly once の振る舞い~ - Taste of Tech Topics

    こんにちは、阪です。 IoTやらデータ分析やらに関わる機会が増えて、大量のストリームデータに埋もれる(もとい、処理する^^;)ことが増えてきました。 しかも、関わっている業務的に、大概において、データ欠損は許されないという。。 そんなストリームデータを、高速かつ障害に強いアーキテクチャで処理しれくれるのが、Apache Flinkです。 アーキテクチャはこんな感じになっています↓ Apache Flink 1.2.0 Documentation: Distributed Runtime Environment Flinkの動きをざっくり書くと、 JobManagerはジョブを受け付け、1つ以上のTaskManagerに処理の実行を指示する。 JobManagerは処理中、各TaskManagerにチェックポイントトリガーを発行する。 TaskManagerはチェックポイントトリガーを受信

    Apache Flink の耐障害性はどんなもの? ~Exactly once の振る舞い~ - Taste of Tech Topics
    cutc-mt
    cutc-mt 2017/04/13
  • Prelertでプログラミングレスな異常検知に挑戦! - Taste of Tech Topics

    こんにちは! @tereka114です。 最近、データの中から特異点や異常な箇所を発見したいニーズが高まっています。 そんななか、先日、Elastic社が行動分析技術の大手プロバイダPrelertを買収したとのニュースがありました。 ちなみにPrelert社とは異常検知を自動化するため、データの知識が不要なアプリケーションをエンドユーザーに提供していた企業です。 Prelertのサイトを確認すると、Elasticsearchに入れたデータに対して異常検知することができそうです。 これは面白そう! ということで、Prelertを使って異常検知を行ってみました。 今回は、次の流れで説明していきます。 Prelertとは Prelertのインストール 公式サイトからのダウンロード インストール 起動確認 実際に異常検知をやってみる。 データ投入 マッピング定義 Logstashを使ったデータ投入

    Prelertでプログラミングレスな異常検知に挑戦! - Taste of Tech Topics
    cutc-mt
    cutc-mt 2016/11/04