タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

PythonとDuckDBに関するmisshikiのブックマーク (3)

  • DuckDB 50本ノック - 実際に使用した例から抜き出したtips集

    まえがき DuckDBpythonで実際に使用してきて、これ100個くらいTipsを抜き出せるんじゃないかなと過去の自分の使用例を抜き出してみました。(実際は54個でした。そのうち100にしたい。)単純なデータベース利用というよりは圧倒的にデータ分析、ETL処理、可視化よりになるとは思いますが参考になればと思い(あと結構うろ覚えなので)記事を残しておきます。 基操作編 (1-20) 1. インメモリデータベースへの接続 DuckDBはプログラム稼働中のみの一時的にデータベース接続を最初に作ることが多くこのコードを大体最初に書くことが多いです。このconを使ってcon.sql("")のようにし、""の内部でSQLを書くことでSQL文を使用することができます。

    DuckDB 50本ノック - 実際に使用した例から抜き出したtips集
    misshiki
    misshiki 2025/06/10
    “DuckDBをpythonで実際に使用してきて、これ100個くらいTipsを抜き出せるんじゃないかなと過去の自分の使用例を抜き出してみました。”
  • DuckDB でハイブリッド検索

    DuckDB を利用してベクトル検索と日語全文検索の両方を同時に利用できます。さらにこれらの結果をマージして Reranking を行うことでハイブリッド検索をサクサクっと実現する事が​できます。 Rerankerどうやらベクトル検索した結果と日語全文検索した結果をマージして、クエリーとマージ結果を再度ランキング付けする仕組みのようです。 ここでは参考にした記事を共有する程度にしておきます。 日語最高性能のRerankerをリリース / そもそも Reranker とは? - A Day in the Lifeリランキング モデルによる RAG の日語検索精度の向上 - NVIDIA 技術ブログ今回は Reranker に hotchpotch/japanese-reranker-cross-encoder-large-v1 を利用しました。 以下は参考コードです。 [projec

    DuckDB でハイブリッド検索
    misshiki
    misshiki 2025/04/28
    “DuckDB を利用してベクトル検索と日本語全文検索の両方を同時に利用できます。さらにこれらの結果をマージして Reranking を行うことでハイブリッド検索をサクサクっと実現する事が​できます。”
  • DuckDB で日本語全文検索

    DuckDB-VSS と PLaMo-Embedding-1B を利用することで、ベクトル検索を実現できますが、DuckDB-FTS (Full-Text Search) と形態素解析ライブラリである Lindera を組み合わせて日語全文検索を実現できます。 DuckDB-FTS + LinderaDuckDB の全文検索拡張は日語には対応していないないのですが、スペース区切りでトークン化することで、日語の全文検索を利用する事が出来ます。トークン化には Meilisearch にも利用されている信頼と安心の Lindera を利用することにしました。 今回この参考コードを Lindera の作者であり検索の専門家でもある Minoru OSUKA 氏にレビューいただきました。当にありがとうございます。 以下は参考コードです。 [project] name = "duckdb-ft

    DuckDB で日本語全文検索
    misshiki
    misshiki 2025/04/28
    “DuckDB-VSS と PLaMo-Embedding-1B を利用することで、ベクトル検索を実現できますが、DuckDB-FTS (Full-Text Search) と形態素解析ライブラリである Lindera を組み合わせて日本語全文検索を実現できます。”
  • 1