タグ

ブックマーク / acro-engineer.hatenablog.com (21)

  • RAGの処理で、リランクとベクトル検索でできることの違いを検証/解説してみる - Taste of Tech Topics

    こんにちは。テニスしすぎて日焼けがすごいSsk1029Takashiです。 私は普段、生成AIを活用したRAGソリューションの開発をしているのですが、RAGでは特に検索部分の調整が重要になります。 今回はその検索の中で出てくるリランクに焦点を当てて、ベクトル検索と比較してどのような特徴があるのかというところを、検証を交えて解説していきます。 概要 RAGの検索部分では、よくベクトル検索が利用されます。 理由としては、入力が基的に質問形式になりキーワードで入力されることが多い通常の検索よりも適している、などいくつか考えられます。 ただし、実際にRAGを試してみるとわかりますが、RAGシステムではベクトル検索だけでは検索精度の面で苦労することも多いです。 そこで解決方法の一つとして考えられているのが、ベクトル検索とリランクとの併用になります。 今回は、なぜRAGはベクトル検索だけだと苦労が多

    RAGの処理で、リランクとベクトル検索でできることの違いを検証/解説してみる - Taste of Tech Topics
    cutc-mt
    cutc-mt 2024/10/03
  • PythonでPDFからテキスト/表情報の抽出精度を比較してみた - Taste of Tech Topics

    はじめに こんにちは。ついにジム通いを始めて四六時中筋肉痛を感じながら過ごしているイワツカです。 最近はLLM(大規模言語モデル)とRAG(検索拡張生成)を用いて企業内ドキュメントを活用する取り組みが多く見受けられます。 ドキュメントは基PDFで保存されているため、PDFからテキストを抽出して、検索対象にすることが必要です。 そこで今回は、PythonPDFからテキストを抽出するためのライブラリを比較して、どれが良いのか検証しました。 はじめに 概要 実装 PyMuPDF pdfplumber unstructured 比較結果 テキスト抽出 サンプル1のテキスト抽出結果 サンプル2のテキスト抽出結果 表の抽出 サンプル3の表抽出結果 サンプル4の表抽出結果 検証結果 まとめ 概要 今回はPDF読み取りライブラリとして、PyMuPDFpdfplumber、unstructuredの3

    PythonでPDFからテキスト/表情報の抽出精度を比較してみた - Taste of Tech Topics
    cutc-mt
    cutc-mt 2024/09/12
  • Difyで複数のLLMを切り替えるチャットを実現する - Taste of Tech Topics

    こんにちは、新人エンジニアの前田です。 最近、南海トラフ地震の臨時情報や台風などもあったりして、自衛のための事前準備は欠かせないなと思いました。 さて、今回はDifyを使って複数の大規模言語モデル(LLM)を切り替えるチャットチャットボットを作ってみたいと思います。 なぜ、この内容をやってみようかと思ったかというと、Difyは、複数のLLMを利用できるのですが、 それらは、事前に設定を行って利用するもので、ユーザーが実行時に切り替えて指定ができなかったのですよね。 とはいえ、これもノーコードで実現できるのが、Difyの強みです。 1. 概要 1.1.Difyとは 1.2. この記事で実現すること 2. アプリ作成 2.1. モデルの定義 2.2. モデルの選択 2.3. 変数の集約 3. 作成したアプリを動かしてみる 4. まとめ 1. 概要 1.1.Difyとは Difyは、大規模言語モ

    Difyで複数のLLMを切り替えるチャットを実現する - Taste of Tech Topics
    cutc-mt
    cutc-mt 2024/08/22
  • DifyとKnowledge bases for Amazon Bedrockを連携させてRAGを構築する - Taste of Tech Topics

    こんにちは。ベランダで育てていたバジルが虫にべられてしまいました。ハヤトです。 しかし植物の生命力というのはすごいもので、残った茎から再び葉っぱが成長してきています。次はぜひ私がべたいものです。 さて、成長著しいといえば生成AIアプリ開発の分野はまさに日進月歩ですが、 なかでも「Dify」は、LLMワークフローが特に便利で、注目度が急上昇中です。 今回はそんなDifyとKnowledge bases for Amazon Bedrockを連携させてRAGを構築してみます。 Difyとは? Knowledge bases for Amazon Bedrockとは? 今回作成するチャットボットについて AWS側の設定手順 ナレッジベースの作成 APIの作成 Lambdaの作成 API Gatewayの作成 Dify側の設定手順 カスタムツールの作成 チャットボットの作成 まとめ Difyと

    DifyとKnowledge bases for Amazon Bedrockを連携させてRAGを構築する - Taste of Tech Topics
    cutc-mt
    cutc-mt 2024/07/24
  • Difyを使ってノーコードでAIエージェントを作成する - Taste of Tech Topics

    こんにちは、機械学習チーム YAMALEX の駿です。 YAMALEX は Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。 (詳細はリンク先をご覧ください。) 最近は GPT-4o や Claude 3 を使ったアプリを、せっせと実装したりしていたのですが、Difyの登場により「もう、これでいいじゃん」という気持ちが抑えきれていません。 今回はそんなDifyを使って、「LLM自体の知識が足りないときにGoogle検索を行って回答するチャットボット」を作ってみました。 Google検索して答えてくれる 1. 概要 1.1. Difyとは 2. 環境構築 3. アプリ作成 3.1. 各ブロックの簡単な説明 4. 動かしてみる 5. まとめ 1. 概要 1.1. Difyとは Difyは、大規模言語モデル(LLM)を活用したアプリ

    Difyを使ってノーコードでAIエージェントを作成する - Taste of Tech Topics
    cutc-mt
    cutc-mt 2024/07/10
  • プロンプトエンジニアリングを最適化する為のフレームワークSAMMOを実際に使ってみた - Taste of Tech Topics

    いつの間にか春も過ぎ去りすっかり夏模様の今日この頃皆さんいかがお過ごしでしょうか?菅野です。 生成AIの重要性が高まり、生成AIで利用できるテキスト量が長くなるにつれてにつれて、プロンプトエンジニアリングの重要性が高まってきました。 プロンプトエンジニアリングとは、そのプロンプトにどのような命令、事前情報等を入力すると、より適した応答が返ってくるかを設計する技術です。 そんなプロンプトエンジニアリングを最適化する為のPythonライブラリ、SAMMOMicrosoft社から2024年4月18日にリリースされたので紹介していきます。 www.microsoft.com SAMMOとは? Structure-Aware Multi-objective Metaprompt Optimizationの頭文字をとったフレームワークです。 元来、プロンプトエンジニアリングでは、エンジニアが、様々な

    プロンプトエンジニアリングを最適化する為のフレームワークSAMMOを実際に使ってみた - Taste of Tech Topics
    cutc-mt
    cutc-mt 2024/05/22
  • Sakana.aiが公開した「Evolutionary Model Merge」手法を「mergekit」で実施してみる - Taste of Tech Topics

    皆さんこんにちは 機械学習チームYAMALEXの@tereka114です。 YAMALEXは Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。 (詳細はリンク先をご覧ください。) 日々、LLMが進化していて、画像が職(のはず)の私ですら、ここ数年LLMの勉強をはじめています。 学習してモデル公開しましたといった記事はよく見ますが、今回は今、非常に注目されている日に拠点があるAIスタートアップである「Sakana.ai」が公開した「Evolutionary Model Merge」を使う話をします。 Evolutionary Model Merge 「Evolutionary Model Merge」は「Sakana.ai」から発表された進化的モデルマージと呼ばれる技術です。 端的に言ってしまえば、複数のモデルを利用して新し

    Sakana.aiが公開した「Evolutionary Model Merge」手法を「mergekit」で実施してみる - Taste of Tech Topics
    cutc-mt
    cutc-mt 2024/05/07
  • ChatGPTの Assistants API でPDFを要約 - Taste of Tech Topics

    こんにちは、安部です。 最近急に、暖かさを通り越して暑いぐらいになってきましたが、皆さまいかがお過ごしでしょうか。 季節外れかなとも思いつつ、もう半袖で過ごしたいくらいの気候ですね。 さて、今回は、OpenAIのAssistants APIの使い方を紹介していきます。 題材は「PDFを和訳して要約してもらう」としました。 これはWeb版のChatGPTでも単にPDFファイルを添付して依頼すればできますが、APIの使い方を示すサンプルとしてはちょうどよいと思います。 最新情報については以下の公式ドキュメントをご覧ください。 https://platform.openai.com/docs/assistants/overview https://platform.openai.com/docs/api-reference/assistants それでは早速、Assistants APIの使い方

    ChatGPTの Assistants API でPDFを要約 - Taste of Tech Topics
    cutc-mt
    cutc-mt 2024/04/17
  • 新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics

    最近ソーダストリームを買い、炭酸水を飲むのにはまってます。機械学習エンジニアの@yktm31です。 以前に「AWS Lake Formationでデータレイク体験!」という記事を書いてみて、データ基盤アーキテクチャに興味が湧いてきました。 データレイクハウスは、「データウェアハウス」と「データレイク」を統合したようなアーキテクチャで、 2020年にDatabricks社により提唱され、新しいデータ基盤アーキテクチャとして注目されているようです。 www.databricks.com そこで今回、「データレイクハウス」について調べてみたことをまとめてみたいと思います。 なぜデータレイクハウスが注目されているのか? データウェアハウスの特徴・課題 データレイクの特徴・課題 データレイクハウスの特徴 データレイクハウスのアーキテクチャ Azure Azure Synapse Analyticsを

    新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics
    cutc-mt
    cutc-mt 2023/07/15
  • ChatGPT+Marpで技術勉強会用のプレゼン資料を爆速で作成する - Taste of Tech Topics

    こんにちは、igaです。 ゆっくりペースで実施していた、リングフィット アドベンチャーを先日クリアすることができました。 今回は、ChatGPTに、社内の技術勉強会向けに、ライトニングトーク用のプレゼン資料を作ってもらおうと思います。 私からは、テーマだけを決めて、その内容の検討自体をChatGPTにお願いしてみました。 プレゼン資料の内容 「AWS CloudShell から Amazon ECS で任意のコマンドを実行する方法」という内容を検討してみます。 概要として、以下のようなものを考えています。 「AWS CloudShell から ECS exec を利用して、Amazon ECS上のコンテナで任意のコマンドを実行するために必要な設定方法について説明する。」 ChatGPTに内容の検討を依頼する ChatGPTに内容の検討をお願いするため、以下のようなプロンプトを指定してみます

    ChatGPT+Marpで技術勉強会用のプレゼン資料を爆速で作成する - Taste of Tech Topics
    cutc-mt
    cutc-mt 2023/07/15
  • はてなブログをPython+Elasticsearch+Kibanaで可視化してみる - Taste of Tech Topics

    こんにちは。 普段はデータ分析している新人の佐々木です。 このブログに投稿したいと思いましたが、どんなトピックで書くか悩んでいました。 そこで、この記事ではどのようなトピックが今まで投稿されているのかを見てみたいと思います。 そこで、今回はこの「Taste of Tech Topics」自体をElasticsearch+Kibanaで可視化してみました。 完成画面の一部はこのようになりました。 対象読者ですは次を想定しています。 Elasticsearchを使い始めて、もっと使いこみたい人 日語文書の可視化をしてみたい人 可視化のための手順は次の通りです Elasticsearchの設定 データの解析、投入 可視化 1.Elasticsearchの設定 今回は次のmapping templateを作成し、適用しました。 適用方法はKibanaのDev Toolsを開き以下のリクエストを入

    はてなブログをPython+Elasticsearch+Kibanaで可視化してみる - Taste of Tech Topics
    cutc-mt
    cutc-mt 2017/11/25
  • ElasticStack 6.0 betaがリリースされました! - Taste of Tech Topics

    皆さんこんにちは @tereka114です! 昨日、8/9にElastic Stackの6.0.0-beta1がリリースされました。 Elastic Stack 6.0 alphaを触っていなかったのですが、これを機にbetaを使ってみました。 そこで、Elastic Stack 6.0.0-beta1の機能をピックアップしてご紹介します。 Elastic Stack 6.0.0-beta1の英語での概要であれば、Elastic社のブログで紹介されています。 Elastic Stack 6.0.0-beta1 released | Elastic Elasticsearch X-Packのデフォルトパスワードの変更 Elasticsearchをインストールした後は、X-Packのインストール。ここまでは、これまで通りですね。 bin/elasticsearch-plugin install

    ElasticStack 6.0 betaがリリースされました! - Taste of Tech Topics
    cutc-mt
    cutc-mt 2017/08/17
  • Elasticsearch勉強会でPacketbeatについて発表しました - Taste of Tech Topics

    こんにちは!ツカノ(@snuffkin)です。 先日、Elasticsearch勉強会に参加、発表してきましたので、感想等を書かせて頂きたいと思います。 www.meetup.com Jun Ohtaniさん What's new Elastic Stack 5.4 and 5.5 speakerdeck.com 個人的な目玉はX-Pack Machine Learningです。 このブログでも以前紹介しましたが、機械学習と組み合わせることでElasticsearchのユースケースがさらに広がる感じがします。 acro-engineer.hatenablog.com 谷沢 智史さん Jupyterで手順再現!Elasticsearch構築・運用を実行可能ドキュメントで機械化してみた Jupyterで手順再現!Elasticsearch構築・運用を実行可能ドキュメントで機械化してみた fro

    Elasticsearch勉強会でPacketbeatについて発表しました - Taste of Tech Topics
    cutc-mt
    cutc-mt 2017/08/08
  • X-Pack Machine Learningを試してみました - Taste of Tech Topics

    みなさんこんにちは! @tereka114です。 日、待望のX-Pack Machine Learningがリリースされました。 X-Pack Machine Learning X-Pack Machine Learningとは インストール 実際にやってみた 解析準備 Single Metric Job Multi Metric Job おまけ PrelertとX-Pack Machine Learningの違い より簡単に設定ができる 解析途中や解析後に生データを確認できる モデルが可視化できる 最後に X-Pack Machine Learning X-Pack Machine Learningとは X-Pack Machine LearningはElastic Stackで時系列の異常検知を行える機械学習の製品です。 特徴として、教師なし学習による異常検知モデルの生成や周期、トレ

    X-Pack Machine Learningを試してみました - Taste of Tech Topics
    cutc-mt
    cutc-mt 2017/05/21
  • Apache Flink の耐障害性はどんなもの? ~Exactly once の振る舞い~ - Taste of Tech Topics

    こんにちは、阪です。 IoTやらデータ分析やらに関わる機会が増えて、大量のストリームデータに埋もれる(もとい、処理する^^;)ことが増えてきました。 しかも、関わっている業務的に、大概において、データ欠損は許されないという。。 そんなストリームデータを、高速かつ障害に強いアーキテクチャで処理しれくれるのが、Apache Flinkです。 アーキテクチャはこんな感じになっています↓ Apache Flink 1.2.0 Documentation: Distributed Runtime Environment Flinkの動きをざっくり書くと、 JobManagerはジョブを受け付け、1つ以上のTaskManagerに処理の実行を指示する。 JobManagerは処理中、各TaskManagerにチェックポイントトリガーを発行する。 TaskManagerはチェックポイントトリガーを受信

    Apache Flink の耐障害性はどんなもの? ~Exactly once の振る舞い~ - Taste of Tech Topics
    cutc-mt
    cutc-mt 2017/04/13
  • Prelertでプログラミングレスな異常検知に挑戦! - Taste of Tech Topics

    こんにちは! @tereka114です。 最近、データの中から特異点や異常な箇所を発見したいニーズが高まっています。 そんななか、先日、Elastic社が行動分析技術の大手プロバイダPrelertを買収したとのニュースがありました。 ちなみにPrelert社とは異常検知を自動化するため、データの知識が不要なアプリケーションをエンドユーザーに提供していた企業です。 Prelertのサイトを確認すると、Elasticsearchに入れたデータに対して異常検知することができそうです。 これは面白そう! ということで、Prelertを使って異常検知を行ってみました。 今回は、次の流れで説明していきます。 Prelertとは Prelertのインストール 公式サイトからのダウンロード インストール 起動確認 実際に異常検知をやってみる。 データ投入 マッピング定義 Logstashを使ったデータ投入

    Prelertでプログラミングレスな異常検知に挑戦! - Taste of Tech Topics
    cutc-mt
    cutc-mt 2016/11/04
  • Elastic Stack 5.0.0 GAリリース! 早速インストール!! #elasticsearch - Taste of Tech Topics

    Hello world, @cero_t です。 少し肌寒い日が続きますが、皆さんいかがお過ごしでしょうか。 寒いのは決して僕のせいではないからね、そう周りに言い聞かせながら生き抜く日々です。 さて、 ついにElastic Stack 5.0.0のGA版がリリースされました!! https://www.elastic.co/jp/blog/elastic-stack-5-0-0-released 既にリリースされたalpha版やRC版などを触っていますが、2.x系から新機能が追加されただけでなく、性能や安定性、またユーザビリティが向上している体感があり、積極的にこの新版を使っていきたいと思っているところです。 Elastic Stack 5.0.0の新機能 公式ブログでもいくつか紹介されていますが、2.xから5.0ではピックアップしきれないほどの変更点があります。私なりに重要だと思っている

    Elastic Stack 5.0.0 GAリリース! 早速インストール!! #elasticsearch - Taste of Tech Topics
    cutc-mt
    cutc-mt 2016/10/29
  • PyConJP2016に参加してきました! - Taste of Tech Topics

    こんにちは、@tereka114です。 なんと、私、先日PyConJPに参加してきました! ちなみに、Python歴4年目にして初参加です。 実はこのカンファレンス知ってからずっと参加したいと思っていて やっと参加することができました! そこで参加したセッションや感想を書きました。 セッションについて 今回は全体的にデータを分析するセッションが多かったように感じますが 多種多様ですばらしいセッションの数々です。 今回、私が参加したセッションは次のとおりです。 1日目 Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン たった一ファイルの python スクリプトから始める OSS 開発入門 ニューラルネットワークのフレームワークであるChainerで始める対話Botの作成 複数の言語からなるプロジェクトを作るということ 確率的ニューラルネットの学習と Chaine

    PyConJP2016に参加してきました! - Taste of Tech Topics
  • Kubernetesクラスタ環境を構築してDashboardで見える化を試してみた - Taste of Tech Topics

    こんにちは。 ポケモンGOみなさんやってますか?私は開始1週間くらいで一度止めてしまったのですが、周りが続けているのに触発されて再開。先日ようやくレベル20まで上がりました。 どうも、@kojiisdです。 さて、今回はKubernetesについてです。 最近Kubernetes(以下k8s)を使うと決めて、k8sの環境構築をしています。 その際、公式のドキュメントやさくらのナレッジさんの記事が非常に参考になったのですが、OSやk8sなどのバージョンが一部異なるため、いろいろと試行錯誤を重ねることになりました。 kubernetesによるDockerコンテナ管理入門 - さくらのナレッジ Kubernetes - What is Kubernetes? そこで、同じような環境構築をしている人に、一例として少しでも参考になればと思い、k8sクラスタ環境の構築~Dashboardのインストール

    Kubernetesクラスタ環境を構築してDashboardで見える化を試してみた - Taste of Tech Topics
    cutc-mt
    cutc-mt 2016/10/05
  • ElasticのGraph機能でコンビニ商品を特徴分析 - Taste of Tech Topics

    こんにちは、このブログにデビューしました、@tereka114です。 世の中ではポケットモンスターが流行していますが、 私の中では以前からモンスターエナジーが流行しています。 私は会社の近くのコンビニで、モンスターエナジーを購入することが多いのですが、 海外と日では成分が異なるという話があったり、類似商品も多く出回っていたりするため、 中身が気になります。 (モンスターエナジー好きの私にとって、それ以外はすべて類似商品です) 実際、棚を眺めてみると、売り場面積の関係でコンビニで扱える商品は限られており、 工夫を凝らしたうたい文句の売れ筋商品がしのぎを削っています。 そんな折、@ceto_tさんによるElasticsearchのGraph機能紹介記事もあり、 acro-engineer.hatenablog.com 同じコンビニエンスストアのデータセットを使って、もう少し違う観点から分析を

    ElasticのGraph機能でコンビニ商品を特徴分析 - Taste of Tech Topics
    cutc-mt
    cutc-mt 2016/09/22