並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 188件

新着順 人気順

python if in list of dictの検索結果1 - 40 件 / 188件

  • OpenAI API の ファインチューニングガイド|npaka

    1. ファインチューニングの利点ファインチューニングの利点は、次のとおりです。 (1) プロンプトよりも高品質な応答 (2) プロンプトに収まりきらないより多くの例の適用 (3) プロンプトの短縮によるトークン数 (コスト) の節約 (4) プロンプトの短縮による処理時間の短縮 モデルは膨大な量のテキストで事前学習されており、このモデルを効果的に利用するため、プロンプトに手順や応答の例を指定する手法が使われます。この例を使用してタスクの実行方法を示すことを「Few-Shot」と呼びます。 ファインチューニングで、プロンプトに収まりきらないより多くの例で学習することにより、さまざまなタスクでより良い結果を達成できるようになります。プロンプトに多くの例を指定する必要はなくなります。これによりトークン (コスト) が節約され、処理時間も短縮されます。 2. ファインチューニングの使用料金ファイン

      OpenAI API の ファインチューニングガイド|npaka
    • 技術blogのリンクを投げたらChatGPTが要約して、いい感じに整形してチャンネル投稿してくれるbotを社内Slackに生やしたら捗った話

      こんにちは、株式会社シグマアイのエンジニアの@k_muroです。 今回の記事は最近導入した「技術blogを良い感じに共有してくれるSlack bot」のご紹介を。 はじめに 技術の進化は止まらない。(真面目な話、AI系の進捗がマジですごいて全然追えない) 毎日のように新しい技術、フレームワーク、ライブラリ、ツールが生まれています。そんな中でエンジニアとして働いていると、この情報の波に疲れを感じること、ありませんか? ありますよね?(脅迫) 実際私もその一人で、この小さな疲れが積み重なって大きなストレスとなることに気づきました。 「新しい技術情報、追いつけるかな?」 「あのブログ記事、後で読もうと思ってたのに、どこいったっけ?」 「チーム全員が同じ情報を持ってるか心配だな。」 そんな日常の疑問や不安から逃れるための一歩として、私はあるSlack botを開発しました。このbotは、送られた技

        技術blogのリンクを投げたらChatGPTが要約して、いい感じに整形してチャンネル投稿してくれるbotを社内Slackに生やしたら捗った話
      • Pythonで理解するMCP(Model Context Protocol) | gihyo.jp

        動作環境 Python 3.12 ライブラリの使用バージョン gradio 5.34.2 anthropic 0.54.0 mcp 1.9.4 python-dotenv 1.1.0 仮想環境とライブラリインストール % cd mcp-host-with-gradio % python3 -m venv venv % source venv/bin/activate (venv) % pip install gradio anthropic mcp dotenv .envファイルの設定 AnthropicのAPIキーが必要です。APIキーの作成は以下を参考にしてください。APIの利用には料金がかかりますが、API従量課金であれば5ドルから始めることが可能です。 Claudeを使い始める -Anthropic .env ANTHROPIC_API_KEY=xxxxxxxxxxxxxxxxxx

          Pythonで理解するMCP(Model Context Protocol) | gihyo.jp
        • FastAPI入門 - モダンなPythonフレームワークの特性をチュートリアルで手軽に学ぶ|ハイクラス転職・求人情報サイト アンビ(AMBI)

          FastAPI入門 - モダンなPythonフレームワークの特性をチュートリアルで手軽に学ぶ PythonのWebフレームワークとしていま注目を集めるFastAPIは、シンプルにコードが書けるだけでなく、パフォーマンスが高いWebアプリケーションのバックエンドサーバーが構築可能です。同フレームワークの勘所をPythonスペシャリストの杜世橋さんが、初心者向けのハンズオン、そしてより実践的な画像への自動タグ付けサービス実装をとおして解説します。 FastAPIはいま非常に注目されているPythonのWebフレームワークの1つです。Flaskのようにシンプルに書ける一方でPythonのType Hintの機能をうまく活用し、HTTPのリクエスト/レスポンスをPythonの関数の引数/戻り値とシームレスにマッピングして非常に効率的に開発ができるのが最大の特徴です。非同期処理にも対応していてその名

            FastAPI入門 - モダンなPythonフレームワークの特性をチュートリアルで手軽に学ぶ|ハイクラス転職・求人情報サイト アンビ(AMBI)
          • 再帰的な構造のデータの同値性判定はどうしたらいいか - 貳佰伍拾陸夜日記

            数日前にTwitterで, JavaScriptのオブジェクトに対する===の挙動が初心者には難しいみたいな話を見かけた. 発端や周辺の議論をちゃんと追いかけてないからとくに出典は貼らない. たぶん元々の話は「へぇ, こういう挙動なんだ, 簡単ではないね」くらいの話だったのかもしれない. 自分のタイムラインの観測範囲では「そうだそうだ, (参照の同一性ではなく)同値性にしとけばいいのに」と思っている人もそれなりにいそうに見えた. 個人的にも同値性が簡単に確認できるとよい気はするものの, 「なんでそうしないんだ, オブジェクトの中身を確認していくだけだろ!」みたいな簡単な話ではないことも知っているため, 以下のようなツイートをしたのだった. JavaScriptのオブジェクトの同値性、再帰的な構造とか作るとぜんぜん自明じゃないんだよなぁ。リンクの構造は違うけどプロパティを辿ったときのパスはど

              再帰的な構造のデータの同値性判定はどうしたらいいか - 貳佰伍拾陸夜日記
            • LangChainを使わない - ABEJA Tech Blog

              TL; DR LangChainのメリデメを整理する過程で、今となってはopenai-pythonのうちChatGPTのAPIをを簡単に取り回せる程度のシンプルなライブラリがあるだけでも十分便利なんじゃないかと思ったので、ライブラリを個人で作ってみました。(バージョン0.0.1なのでちょっとお粗末な所もありますが) github.com はじめに こんにちは、データサイエンティストの坂元です。ABEJAアドベントカレンダーの13日目の記事です。世は大LLM時代ということで、ありがたいことにABEJAでも複数のLLMプロジェクトを推進させて頂いています。私自身もいくつかのLLMプロジェクトに参画しています。LLMといえばLangChainが便利ですね。OpenAI APIの利用だけでなく、各種ドキュメントのパースが出来たり、HuggingFaceやインデックスDBを扱う他のライブラリとインテ

                LangChainを使わない - ABEJA Tech Blog
              • みんなのためのLLMアプリケーション開発環境の構築事例

                はじめに こんにちは。Game Platform DevのDong Hun Ryoo、Takenaka、Zhang Youlu(Michael)、Hyungjung Leeです。私たちの組織は、ゲームパブリッシングに必要なさまざまな機能を開発・運用する役割を担っています。 私たちは最近、組織内の業務効率を高めるためにさまざまなLLM(large language model)アプリケーションを開発し、それと連携してLLMOpsシステムの構築プロジェクトを行いました。プロジェクトの主な目標の一つは、参入障壁が高いLLMアプリケーション開発を、職種に関係なく誰でも簡単に作成できる環境を構築することでした。そのため、さまざまなことを考えながら試行錯誤を経た結果、誰でも簡単にアクセスできる開発・デプロイ環境を整えました。 今回の記事では、LLMアプリケーションの一般的な開発方法と開発プロセスで直面

                  みんなのためのLLMアプリケーション開発環境の構築事例
                • 2024年のPythonプログラミング - Uzabase for Engineers

                  ソーシャル経済メディア「NewsPicks」で推薦や検索などのアルゴリズム開発をしている北内です。Pythonは頻繁に新機能や便利なライブラリが登場し、ベストプラクティスの変化が激しい言語です。そこで、2024年2月時点で利用頻度の高そうな新機能、ライブラリ、ツールなどを紹介したいと思います。 この記事では広く浅く紹介することに重点を置き、各トピックについては概要のみを紹介します。詳細な使用方法に関しては各公式サイト等での確認をおすすめします。なお、本記事ではOSとしてmacOSを前提としています。 環境構築 Pythonの環境構築はpyenvとPoetryの組み合わせがもっとも標準的でしょう。 以下の手順でpyenvとPythonをインストールできます。 brew install pyenv # Bashの場合 echo 'eval "$(pyenv init -)"' >> ~/.ba

                    2024年のPythonプログラミング - Uzabase for Engineers
                  • MCP(Model Context Protocol)を活用したJグランツ補助金検索システムの実装例|デジタル庁

                    デジタル庁プロダクトマネージャーユニットの土岐竜一です。事業者の手続システム総括班で、Jグランツを含む事業者向けシステムなどを担当しています。 この記事では、デジタル庁が運用する補助金電子申請システム「Jグランツ」のAPIを、Anthropic社が提唱するModel Context Protocol(MCP) によりラッピングし、LLMから利用可能なシステムのサンプル設計および実装について説明します。 具体的には、Pythonで簡単に実装できるFastMCPフレームワークを利用し、Jグランツの補助金検索や詳細の取得などの実用的な機能を備えたMCPサーバーを例として実装します。なお、本記事におけるコードはGitHubよりダウンロード可能です。 本実装例で実現できること今回紹介するMCPサーバーを利用すると、LLM(Claudeなど)を通じて、以下のような自然言語によるJグランツの補助金検索や

                      MCP(Model Context Protocol)を活用したJグランツ補助金検索システムの実装例|デジタル庁
                    • Python普及しろ協会に入会したい

                      この記事はタナイ氏によるPython滅ぼす協会に入会したいを読んでから執筆したものです。 この記事の趣旨はPython滅ぼす協会に入会したいに対する反論という形をとりながら、タナイ氏により「バカの言語」と揶揄され、「使ってエンジニアを名乗るというのは」「滑稽」とまで言われたPythonの立場を再考することです。 追記 本記事は「Pythonはこれだけ優れた言語だからみんな使おう!」というものではなく「言うほど酷くないと思うよ」程度のものです。 型アノテーションがあるからと言って静的型付けを軽視しているわけでもなければ、map関数をもってmapメソッドを不要だと言っているわけでもありません。 この記法は嫌い〜この記法が好き〜と表明することは個人の自由ですが、同様に「この記法は実はこういう意味があって〜」という意見があればそれを聞いた上で、物事を判断して欲しいです。もちろん、聞いても意見が変わ

                        Python普及しろ協会に入会したい
                      • Writing Python like it’s Rust

                        You can check out a YouTube recording of a talk based on this blog post. I started programming in Rust several years ago, and it has gradually changed the way I design programs in other programming languages, most notably in Python. Before I started using Rust, I was usually writing Python code in a very dynamic and type-loose way, without type hints, passing and returning dictionaries everywhere,

                        • 関数型プログラミングはまずは純粋関数型言語を用いて、考え方から理解しよう

                          この記事は、関数型プログラミングはまず考え方から理解しよう の記事を純粋関数型言語Elmで書き換え、一部の文章について批判的に言及させていただいた記事になります。この記事を書こうと思ったきっかけとしては、今回参考にさせていただきた記事が過去に書かれたものにも関わらず、今に渡っても見られていそうなこと。未だにパラダイムの理解に関する誤解が多く散見されること。改めて純粋関数型言語の実用性・有用性について、見直されるべきだと思い、この記事を執筆させていただきました。 次のステップアップ記事は、[超入門] FizzBuzzで考える関数型プログラミング学習を純粋関数型言語でやる理由です。 はじめに、この記事の主張を結論としてまとめておきます。 対比すべきは、関数型プログラミングとオブジェクト指向プログラミングではなく、関数型プログラミングと手続き型プログラミングである 関数型プログラミングの考えを学

                            関数型プログラミングはまずは純粋関数型言語を用いて、考え方から理解しよう
                          • AWSサービス毎の請求額を毎日LINEに通知してみた | DevelopersIO

                            (追記)本記事で使用しているLINE Notifyが2025/3/31にサービス終了します。今後はLINE Messaging APIへ通知するよう変更した以下記事のツールを代わりにご使用ください。 こんにちは、つくぼし(tsukuboshi0755)です! みなさんは、利用中の AWS 料金を逐一把握されていますでしょうか? リソースの消し忘れ等で、いつのまにか AWS からの請求額がとんでもない事になっていた...という体験談を持つ方もいらっしゃるかと思います。(私もその一人です) 上記の対策として、以下の記事のように、AWS の請求額を毎日通知するシステムを構築し、確認する方法が挙げられます。 こちらのシステムは非常に便利なのですが、 Slack への通知が前提となるため、普段 Slack を利用していない方からすると多少扱いづらいかもしれません。 そこで今回は、上記のシステムを少し

                              AWSサービス毎の請求額を毎日LINEに通知してみた | DevelopersIO
                            • GPT-5 の新パラメータとツール|npaka

                              以下の記事が面白かったので、簡単にまとめました。 ・GPT-5 New Params and Tools - OpenAI Cookbook 1. verbosity1-1. 概要「verbosity」は、出力トークン数を調節できます。 ・low : 簡潔なUX、簡潔な文章 ・medium (デフォルト) : バランスの取れた詳細 ・high : 詳細な情報。監査、教育、引き継ぎに最適 1-2. verbosityの効果の確認プロンプトを一定に保ったまま、「verbosity」を変更することで、効果を確認できます。 response = client.responses.create( model="gpt-5", input="人生、宇宙、そして万物に関する究極の問いに対する答えは何でしょうか?", text={ "verbosity": "low" } ) print(response

                                GPT-5 の新パラメータとツール|npaka
                              • Performance comparison: counting words in Python, Go, C++, C, AWK, Forth, and Rust

                                Performance comparison: counting words in Python, Go, C++, C, AWK, Forth, and Rust March 2021 Summary: I describe a simple interview problem (counting frequencies of unique words), solve it in various languages, and compare performance across them. For each language, I’ve included a simple, idiomatic solution as well as a more optimized approach via profiling. Go to: Constraints | Python Go C++ C

                                • MCP Python SDK のドキュメント|npaka

                                  以下の記事が面白かったので、簡単にまとめました。 ・modelcontextprotocol/python-sdk 1. 概要「MCP」を使用すると、アプリケーションは標準化された方法でLLMにコンテキストを提供できます。これにより、コンテキストの提供とLLMとの実際のやり取りを分離できます。「Python SDK」はMCP仕様を完全に実装しており、以下のことが容易になります。 ・任意のMCPサーバに接続できるMCPクライアントの構築 ・リソース、プロンプト、ツールを公開するMCPサーバの作成 ・stdio、SSE、Streamable HTTPなどの標準トランスポートの使用 ・すべてのMCPプロトコルメッセージとライフサイクルイベントの処理 2. インストール2-1. PythonプロジェクトにMCPを追加Pythonプロジェクトの管理には「uv」が推奨されています。 (1) プロジェク

                                    MCP Python SDK のドキュメント|npaka
                                  • 機械学習で競馬必勝本に勝てるのか? 〜Pythonで実装するランク学習〜 - エニグモ開発者ブログ

                                    こんにちは。データサイエンティストの堀部です。 この記事は Enigmo Advent Calendar 2020 の9日目の記事です。 何か社外のデータを使っていい感じのことができないかなと思っていたところ、3日目の竹本さんの記事がおもしろく、パクリ二次創作しました。 短期間で実装したので汚いコードで見苦しいかもしれないですがご了承ください。ちなみに、私は競馬は簡単なルールを知っているくらいでズブの素人です。 目次 使用したライブラリ データ取得 前処理 学習 予測・評価 VSオッズ低い順 VS競馬必勝本 感想 参考資料 使用したライブラリ import urllib.parse import urllib.request as req from time import sleep import category_encoders as ce import lightgbm as lgb

                                      機械学習で競馬必勝本に勝てるのか? 〜Pythonで実装するランク学習〜 - エニグモ開発者ブログ
                                    • GPT in 60 Lines of NumPy | Jay Mody

                                      January 30, 2023 In this post, we'll implement a GPT from scratch in just 60 lines of numpy. We'll then load the trained GPT-2 model weights released by OpenAI into our implementation and generate some text. Note: This post assumes familiarity with Python, NumPy, and some basic experience with neural networks. This implementation is for educational purposes, so it's missing lots of features/improv

                                      • これぞ革命!?ゼロから大規模言語モデルを学習できるReLORA登場(7/18追記あり)|shi3z

                                        導入 本当に革命的な技術なのか? 「君たちはどう生きるか」で驚いている間にすごい論文が世界の話題を掻っ攫っていた。 その名も「ReLORA」簡単に言えば、「事前学習にLoRAを使う」というものである。 これは本当に革命的な発見かもしれないので、僕の仮説も含めて丁寧に説明する。 まず、大前提として、「LoRA」という技術について LoRAは、「Low Rank Adaptation(日本語で言うとすれば低階適応)」という技術で、これまでは主にファインチューニングに使われてきた。 ファインチューニングとは、あらかじめ学習されたニューラルネットワークに対して追加で学習させ、概念を強調させたり新しく覚えさせたりする。 たとえば、僕の顔でStableDiffusionをファインチューニングすれば、僕みたいな顔の絵がどんどん出てくる。 言語モデルにおけるLoRAも同様で、新しい概念や「こういうやりとり

                                          これぞ革命!?ゼロから大規模言語モデルを学習できるReLORA登場(7/18追記あり)|shi3z
                                        • ClaudeのMCPを徹底解説! & gpt-4o+MCP+YouTube APIの動画推薦チャットAIも作る - Qiita

                                          mcp_server_youtube という名前にしました。 mcp_server_youtube というディレクトリができます。 mcp_server_youtube/src/mcp_server_youtube/server.py にサーバー実装を記述します。 実装 MCPサーバーの実装はほとんどgpt-4oを使って行いました。 ポイント 今回はこのサーバーに登録されたツールが youtube-search のみなので、handle_call_tool に到着したリクエストが youtube-search と一致している場合のみ処理行います YouTube Data API v3 は単純にAPIを実装するだけです これの嬉しさ 普通にfunction callingからAPIを叩くだけなら、MCPサーバーはいりません。ただ、独立したMCPサーバーとして作ることで再利用がしやすい形になり

                                            ClaudeのMCPを徹底解説! & gpt-4o+MCP+YouTube APIの動画推薦チャットAIも作る - Qiita
                                          • 1つの大きなLLM(大規模言語モデル)を複数のGPUで力を合わせて動かそう | IIJ Engineers Blog

                                            地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を経て、ローカルLLMを中心としたAIソリューションを主軸に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、性的違和の治療に一歩足を踏み出しています。 LLM群雄割拠の時代 昨今、ローカルGPUで駆動できるようなLLM(大規模言語モデル)もかなり増えてきて、キャッチコピー的に「ついに我が家にもGPT-4が!」とか言われるようになってまいりました。パラメータ規模で言えば70億~130億(7B-13B)パラメータ、700億(70B)パラメータ、1400億(140B)パラメータあたりのモデルが活発にリリースされているように見受けられます。 大きなモデルをGPU寄せ集めしつつ遊びたい! しかし

                                              1つの大きなLLM(大規模言語モデル)を複数のGPUで力を合わせて動かそう | IIJ Engineers Blog
                                            • ソースコード & ドキュメントに対応したGraph RAGの実装(Tree-sitter + LightRAG)

                                              (module (function_definition (identifier) # ← ここに関数名「sample_func」が含まれます (parameters) (block (expression_statement (call (identifier) (argument_list (string)))))) (expression_statement (call (identifier) (argument_list)))) ノードが色々取れましたが、「function_definition」が関数、その子である「identifier」が関数名を表すため、 function_definition == 子ノード ==> identifier となっている箇所を探索すれば抽出できます(関数ではあっても「lambda」など異なる場合もあります)。 今回は上記のようにTree-si

                                                ソースコード & ドキュメントに対応したGraph RAGの実装(Tree-sitter + LightRAG)
                                              • 【技術選定/OSS編】LLMプロダクト開発にLangSmithを使って評価と実験を効率化した話 - Gaudiy Tech Blog

                                                こんにちは。ファンと共に時代を進める、Web3スタートアップ Gaudiy の seya (@sekikazu01)と申します。 この度 Gaudiy では LangSmith を使った評価の体験をいい感じにするライブラリ、langsmith-evaluation-helper を公開しました。 github.com 大まかな機能としては次のように config と、詳細は後で載せますが、LLMを実行する関数 or プロンプトテンプレートと評価を実行する関数を書いて description: Testing evaluations prompt: entry_function: toxic_example_prompts providers: - id: TURBO config: temperature: 0.7 - id: GEMINI_PRO config: temperature:

                                                  【技術選定/OSS編】LLMプロダクト開発にLangSmithを使って評価と実験を効率化した話 - Gaudiy Tech Blog
                                                • Writing a C compiler in 500 lines of Python

                                                  A few months ago, I set myself the challenge of writing a C compiler in 500 lines of Python1, after writing my SDF donut post. How hard could it be? The answer was, pretty hard, even when dropping quite a few features. But it was also pretty interesting, and the result is surprisingly functional and not too hard to understand! There's too much code for me to comprehensively cover in a single blog

                                                  • RecBole を用いてクックパッドマートのデータに対する50以上のレコメンドモデルの実験をしてみた - クックパッド開発者ブログ

                                                    こんにちは。研究開発部の深澤(@fufufukakaka)です。 本記事では最近面白いなと思って watch しているレコメンド系のプロジェクト RecBole を紹介いたします。また、クックパッドが展開している事業の一つであるクックパッドマートのデータを使って数多くのレコメンドモデルを試す実験も行いました。その結果も合わせて紹介します。 TL;DR: レコメンドモデルは作者実装に安定性がなく、またモデルをどのように評価したかも基準がバラバラで、再現性が難しいとされている(from RecSys 2019 Best Paper) 再現性に取り組むプロジェクトとして 2020年12月に始まった RecBole がある。 RecBole を利用することでなんと 50個以上のレコメンドモデルを大体1コマンドで試せる クックパッドマートでユーザに対してアイテムをレコメンドするシチュエーションを想定

                                                      RecBole を用いてクックパッドマートのデータに対する50以上のレコメンドモデルの実験をしてみた - クックパッド開発者ブログ
                                                    • A search engine in 80 lines of Python

                                                      February 05, 2024 · 9 mins · 1675 words Share on: X · HN Discussion on HackerNews. Last September I hopped on board with Wallapop as a Search Data Scientist and since then part of my work has been working with Solr, an open-source search engine based on Lucene. I’ve got the basics of how a search engine works, but I had this itch to understand it even better. So, I rolled up my sleeves and decided

                                                      • 型安全かつシンプルなAgentフレームワーク「PydanticAI」の実装を解剖する - ABEJA Tech Blog

                                                        はじめに こちらはABEJAアドベントカレンダー2024 12日目の記事です。 こんにちは、ABEJAでデータサイエンティストをしている坂元です。最近はLLMでアプローチしようとしていたことがよくよく検証してみるとLLMでは難しいことが分かり急遽CVのあらゆるモデルとレガシーな画像処理をこれでもかというくらい詰め込んだパイプラインを実装することになった案件を経験して、LLMでは難しそうなことをLLM以外のアプローチでこなせるだけの引き出しとスキルはDSとしてやはり身に付けておくべきだなと思うなどしています(LLMにやらせようとしていることは大抵難しいことなので切り替えはそこそこ大変)。 とはいうものの、Agentの普及によってより複雑かつ高度な推論も出来るようになってきています。弊社の社内外のプロジェクト状況を見ていても最近では単純なRAG案件は減りつつあり、計画からアクションの実行、結果

                                                          型安全かつシンプルなAgentフレームワーク「PydanticAI」の実装を解剖する - ABEJA Tech Blog
                                                        • Security best practices when using ALB authentication | Amazon Web Services

                                                          Networking & Content Delivery Security best practices when using ALB authentication At AWS, security is the top priority, and we are committed to providing you with the necessary guidance to fortify the security posture of your environment. In 2018, we introduced built-in authentication support for Application Load Balancers (ALBs), enabling secure user authentication as they access applications.

                                                            Security best practices when using ALB authentication | Amazon Web Services
                                                          • ChatGPT Retrieval Pluginに任意のベクトル検索エンジンProviderを実装する - エムスリーテックブログ

                                                            Overview エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。検索とGoが好きです。 エムスリーではChatGPTの可能性にいち早く注目して活用を検討している段階ですが、本格的なデータ投入にはまだ懸念もあり、セキュリティチームと検討を進めている段階です。 そんな中で個人または組織のドキュメントのセマンティック検索と取得を可能にするChatGPTプラグイン「ChatGPT Retrieval Plugin」が登場しました。 github.com 情報検索好きとしては黙っていられず、外部公開用のエムスリーAI・機械学習チームのメンバー紹介ドキュメントを使ってローカルで試してみました。 # 用意したドキュメント 中村弘武は東京都在住で、エムスリーという企業で働いでいます。 エムスリーの検索基盤を主に担当しています。また、書

                                                              ChatGPT Retrieval Pluginに任意のベクトル検索エンジンProviderを実装する - エムスリーテックブログ
                                                            • ChatGPT時代に必要かも!? Pythonで実行するファイルパース(PDF編) | DevelopersIO

                                                              こんちには。 データアナリティクス事業本部 インテグレーション部 機械学習チームの中村です。 今回は話題のChatGPTにコンテキストを与える際に必要となるファイルパース処理について見ていきたいと思います。 本記事ではPDFに焦点を絞ってみていきます。既存のライブラリ内の実装も確認していきます。 先行事例の実装 先行事例の実装として、よく話題となる以下のライブラリを見ていきます。 (LlamaIndexとLlamaHubはほぼ同じですが、parserとしては片方にしかないものもあるため) LlamaIndex https://github.com/jerryjliu/llama_index https://gpt-index.readthedocs.io/en/latest/index.html LlamaHub https://github.com/emptycrown/llama-hu

                                                                ChatGPT時代に必要かも!? Pythonで実行するファイルパース(PDF編) | DevelopersIO
                                                              • Document Layout Analysisに物体検出を利用したDocument Object Detectionのすゝめ - LayerX エンジニアブログ

                                                                はじめに こんにちは。バクラク事業部 機械学習チームの機械学習エンジニアの上川(@kamikawa)です。 バクラクではAI-OCRという機能を用いて、請求書や領収書をはじめとする書類にOCRを実行し、書類日付や支払い金額などの項目内容をサジェストすることで、お客様が手入力する手間を省いています。 書類から特定の項目を抽出する方法は、自然言語処理や画像認識、近年はマルチモーダルな手法などたくさんあるのですが、今回は項目抽出のための物体検出モデルを構築するまでの手順について紹介します。 Document Layout Analysisとは Document Layout Analysisとは、文書のレイアウトを解析するタスク(直訳)のことを指します。具体的には、文書内のさまざまな要素(例えば、テキスト、画像、表、見出し、段落など)を抽出し、それぞれの位置や意味などを明らかにすることを目的とし

                                                                  Document Layout Analysisに物体検出を利用したDocument Object Detectionのすゝめ - LayerX エンジニアブログ
                                                                • Sublime Text 4

                                                                  The first stable release of Sublime Text 4 has finally arrived! We've worked hard on providing improvements without losing focus on what makes Sublime Text great. There are some new major features that we hope will significantly improve your workflow and a countless number of minor improvements across the board. A huge thanks goes out to all the beta testers on discord and all the contributors to

                                                                    Sublime Text 4
                                                                  • LangGraph を用いた LLM エージェント、Plan-and-Execute Agents の実装解説 - Algomatic Tech Blog

                                                                    はじめに こんにちは。Algomatic LLM STUDIO 機械学習エンジニアの宮脇(@catshun_)です。 Wang+’23 - A Survey on Large Language Model Based Autonomous Agents ChatGPT が発表されてからおよそ 1 年が経ち、AutoGPT, BabyAGI, HuggingGPT, Generative Agents, ChatDev, Mind2Web, Voyager, MetaGPT, Self-Recovery Prompting, OpenCodeInterpreter, AutoAgents などなど、大規模言語モデル (LLM) の抱負な知識および高度な推論能力を活用した LLM エージェント (AIエージェント) が発表されています。 直近ではコード生成からデバッグ、デプロイまで自律的に行う

                                                                      LangGraph を用いた LLM エージェント、Plan-and-Execute Agents の実装解説 - Algomatic Tech Blog
                                                                    • BERT系モデルで文章をEmbeddingする際のTips - Qiita

                                                                      Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 概要 BERT系のモデルを活用した文章のEmbedding取得について、検証を含めていくつかTipsを紹介します。 Paddingの最適化 tokenの平均化 Embeddingを取得するLayer 上記Tipsを複合した文章Embedding取得classの実装 はじめに 近年は、ChatGPTを始めとしたLLM活用が話題となっています(言語処理と言えば初手LLM(GPT系)の雰囲気も一部感じております)。対話型ChatBotにおいてはGPT系の生成AIが一線を画していますが、文章のEmbedding取得では旧来のBERT系のモデルが

                                                                        BERT系モデルで文章をEmbeddingする際のTips - Qiita
                                                                      • Embedding Model を用いたキーフレーズ抽出の検証といろんな Embedding Model の比較 - ABEJA Tech Blog

                                                                        こんにちは!ABEJAでデータサイエンティストをしている藤原です。ABEJAアドベントカレンダー2024 の11日目のブログになります! キーフレーズ抽出を簡単に試すという機会がよくあるのですが、簡単に検証する範囲だといつも同じツール・モデルを使っているため、他の方法でも上手くキーフレーズ抽出ができないか?ということで今回いくつか検証してみました。やることとしては、まず Embedding Model を使って日本語の長めの文章からキーフレーズを上手く抽出できるか?というのを検証します。その上で、色々な Embedding Model 間で抽出されるフレーズがどのように違うか?も比較してみます。 目次 目次 はじめに キーワード抽出・キーフレーズ抽出とは? キーフレーズ抽出の手法 1. グラフベース・統計ベース 2. LLM ベースのアプローチ 3. Embedding ベースのアプローチ

                                                                          Embedding Model を用いたキーフレーズ抽出の検証といろんな Embedding Model の比較 - ABEJA Tech Blog
                                                                        • 第752回 RISC-VのシングルボードコンピューターであるVisionFive 2を使ってみる | gihyo.jp

                                                                          今回はStarFive Technology製のRISC-Vシングルボードコンピューター(SBC)であるVisionFive 2にDebianをインストールして、その性能を計測してみましょう。 RISC-VとVisionFive 2 RISC-V(りすく・ふぁいぶ)は今もっとも熱い命令セットアーキテクチャーです。2010年頃に生まれたRISC-Vは、オープンな規格という強みを活かしてどんどんエコシステムを構築し、今では様々な企業がRISC-Vに本格的に手を出す状況になっています。AMD64/Intel 64やARMには性能も普及度合いもまだまだ及びませんが、今の勢いを維持できれば近い将来その状況は変わってくるでしょう。 本連載でも2018年ぐらいから、RISC-Vの記事を何度か取り上げていました。 第505回:「オープン規格の新しい命令セットアーキテクチャRISC-V入門 ツールチェインを

                                                                            第752回 RISC-VのシングルボードコンピューターであるVisionFive 2を使ってみる | gihyo.jp
                                                                          • ChatGPT および API統合 のためのMCPサーバ構築|npaka

                                                                            以下の記事が面白かったので、簡単にまとめました。 ・Building MCP servers for ChatGPT and API integrations 1. はじめに「MCP」は、AIモデルに追加ツールや知識を拡張するための業界標準となりつつあるオープンプロトコルです。「リモートMCPサーバ」は、インターネット経由でモデルを新しいデータソースや機能に接続するために使用できます。 このガイドでは、プライベートデータソース (ベクターストア) からデータを読み取り、API経由でChatGPTで利用する「リモートMCPサーバ」の構築方法について説明します。 【注意】開発者モードベータ版では、完全なMCPコネクタを構築して使用できます。ProおよびPlusユーザーは、「設定 → コネクタ → 詳細設定 → 開発者モード」を有効化してください。 2. データソースの設定「リモートMCPサーバ

                                                                              ChatGPT および API統合 のためのMCPサーバ構築|npaka
                                                                            • 複数の AWS アカウントの AWS Security Hub 検出結果を Google BigQuery と Google DataPortal(DataStudio) により可視化した話 - Adwaysエンジニアブログ

                                                                              こんにちは、インフラの天津です。今日は 複数アカウントの AWS Security Hub 検出結果の可視化についてお話したいと思います。 前提 モチベーション AWS Security Hub とは 構想 ツール・サービスの選定 検出結果データのエクスポートについて 可視化用データベース(またはクエリサービス)と可視化ツールについて 構築 全体像 検出結果データエクスポート 検出結果データの S3 -> GCS への転送と BigQuery へのインポート Security Hub からエクスポートしたデータには BigQuery のカラム名に使用できない文字(以下禁則文字)が使用されている件 自動判別で生成されたスキーマでインポートした際に INTEGER 型のカラムに STRING 型のデータが入ってくることがありインポートエラーが発生する件 AWS アカウントデータの S3 ->

                                                                                複数の AWS アカウントの AWS Security Hub 検出結果を Google BigQuery と Google DataPortal(DataStudio) により可視化した話 - Adwaysエンジニアブログ
                                                                              • SuperwhisperとVSCodeのCopilot Agentを使って、音声から素早くブログを書き上げる - yasuhisa's blog

                                                                                3行まとめ アウトプットの速度を上げたいが、記事を書くのは時間がかかる SuperwhisperとVSCodeのCopilot Agentを組み合せて、音声からブログを書き上げるワークフローを組んだ 実際に使っているpromptを含め、真似しやすいように詳しく紹介 3行まとめ 背景: アウトプット速度を上げたい & LLMの急速な進化 利用している技術 Superwhisper: 技術用語も認識する書き起しアプリ VSCode Copilot Agent: 自然言語で校正のワークフローを組み込む 実用例: どれくらい早くアウトプットできるようになるか 実際のワークフロー 工夫した点 過去に自分が執筆したテキストの資産を活用する 依存関係の抽出を自動で行なう 複数のAgentにレビューをさせる タイトル案の自動生成 実装を通して得られた学び 自然言語でワークフローを組み立てることの難しさ エ

                                                                                  SuperwhisperとVSCodeのCopilot Agentを使って、音声から素早くブログを書き上げる - yasuhisa's blog
                                                                                • StrandsAgents+AgentCore Memory で私好みのエージェントを実現する - Taste of Tech Topics

                                                                                  こんにちは、YAMALEXの駿です。 昨今、対話型AIの活用が進む中で、ユーザーごとにパーソナライズされた体験を提供することが、より重要になっています。 単なる一問一答ではなく、「ユーザーが誰で、どんな関心や目的を持っているか」を理解したうえで応答できるエージェントが求められています。 本記事では、Strands AgentsとBedrock AgentCoreを組み合わせて、ユーザーとの対話履歴を記憶・活用するパーソナライズ型エージェントの実装と検証を行います。 1. はじめに 1.1. Strands Agentsとは 1.1.1. Strands Agents Tools 1.2. Bedrock AgentCoreとは 1.2.1. AgentCore Memory 2. 検証 2.1. 構成図 2.2. 実装 2.3. 会話してみた 2.3.1. 好みを理解していない場合 2.3

                                                                                    StrandsAgents+AgentCore Memory で私好みのエージェントを実現する - Taste of Tech Topics