タグ

DuckDBに関するmisshikiのブックマーク (13)

  • DuckDB実践入門 PCで使える高速で快適なデータ分析用DB―基本からエコシステム活用まで - インプレスブックス

    3,740円(体 3,400円+税10%) 品種名書籍 発売日2025/8/20 ページ数408 サイズB5変形判 著者 Mark Needham 著/Michael Hunger 著/Michael Simons 著/設樂 洋爾 訳 ISBN 9784295021988 「分析処理用SQLite」とも言えるデータベースDuckDBの基から解説―コマンドでの操作から始め、Python環境からの活用、SQLでの効率的な分析、データパイプライン構築へとより実践的な内容に進み、さらにクラウド上でDuckDBを提供するMotherDuck、大規模データでの性能、データアプリ構築・展開について説明。DuckDBを最大限に活用するためのノウハウを多数掲載しています。 目次を見る

    DuckDB実践入門 PCで使える高速で快適なデータ分析用DB―基本からエコシステム活用まで - インプレスブックス
    misshiki
    misshiki 2025/06/16
    “発売日2025/8/20”
  • Claude Codeの会話ログをDuckDBで分析して自分の仕事スタイルを改善する方法 - yasuhisa's blog

    3行まとめ はじめに Claude Codeのログ保存機能とその特徴 ログ分析の活用例 音声入力の課題と英語プロンプトの活用 DuckDBを用いた分析アプローチ スキーマ情報の重要性とログ分析の活用 ログの長期保存設定 まとめ 3行まとめ Claude Codeの会話ログはJSONL形式で保存されており、DuckDBを使って日次の利用状況や音声入力の課題などを分析できる 英語プロンプトの学習効率化やエラーパターンの特定など、自分の仕事の仕方を改善するための実践的な活用方法がある JSONLファイルのスキーマ情報を整理することで、Claude Codeがクエリを書く際の精度が向上する はじめに Claude Codeは非常に強力なツールで、これ自体は別のブログで書く予定ですが、もはやこれなしでコードを書けないほど便利に使っています。今回は、そのClaude Codeとの会話ログを分析すること

    Claude Codeの会話ログをDuckDBで分析して自分の仕事スタイルを改善する方法 - yasuhisa's blog
    misshiki
    misshiki 2025/06/16
    “3行まとめ Claude Codeの会話ログはJSONL形式で保存されており、DuckDBを使って日次の利用状況や音声入力の課題などを分析できる”
  • DuckDB 50本ノック - 実際に使用した例から抜き出したtips集

    まえがき DuckDBpythonで実際に使用してきて、これ100個くらいTipsを抜き出せるんじゃないかなと過去の自分の使用例を抜き出してみました。(実際は54個でした。そのうち100にしたい。)単純なデータベース利用というよりは圧倒的にデータ分析、ETL処理、可視化よりになるとは思いますが参考になればと思い(あと結構うろ覚えなので)記事を残しておきます。 基操作編 (1-20) 1. インメモリデータベースへの接続 DuckDBはプログラム稼働中のみの一時的にデータベース接続を最初に作ることが多くこのコードを大体最初に書くことが多いです。このconを使ってcon.sql("")のようにし、""の内部でSQLを書くことでSQL文を使用することができます。

    DuckDB 50本ノック - 実際に使用した例から抜き出したtips集
    misshiki
    misshiki 2025/06/10
    “DuckDBをpythonで実際に使用してきて、これ100個くらいTipsを抜き出せるんじゃないかなと過去の自分の使用例を抜き出してみました。”
  • Docusaurus v3 の全文検索を DuckDB Wasm + FTS 拡張で実装した - ROUTE06 Tech Blog

    こんにちは。ソフトウェアエンジニアの id:masutaka26 です。 ROUTE06 では全社ワークスペースに GitHub を利用しています。 note.route06.co.jp ストック情報としての社内ドキュメントは GitHub Pages で社内限定で公開されており、静的サイトジェネレーターとして Docusaurus を利用しています。 検索精度への課題 DuckDB Wasm で検索フォームを実装した DuckDB とは 検索フォームの実装概要 PoC で検討したこと まとめ 参考 検索精度への課題 今までは Docusaurus の Community plugins でも紹介されている @easyops-cn/docusaurus-search-local を使用していました。 フロントエンドだけで動作し、設定もお手軽なのは良いのですが、検索精度に難があり、一部ではリ

    Docusaurus v3 の全文検索を DuckDB Wasm + FTS 拡張で実装した - ROUTE06 Tech Blog
    misshiki
    misshiki 2025/06/09
    “Docusaurus v3 の全文検索を DuckDB Wasm + FTS 拡張で実装し、検索精度の課題を解決することが出来ました。”
  • DuckDB を用いて日々のストック記事をハイブリッド検索する

    Toggle dark mode DuckDB を用いて日々のストック記事をハイブリッド検索する Apr 30, 2025 今回は、DuckDB を使って、日々ストックしている Web 記事などのハイブリッド検索(全文検索とベクトル類似度検索の組み合わせ)を実現する試みについてまとめます。 モチベーション 自分は普段、情報収集や後で読みたい記事の保存に Readwise Reader というサービスを利用しています。RSS フィードの購読や記事のアーカイブができ、非常に便利なツールです [1] 。 この Readwise Reader にも検索機能(全文検索)はあるのですが、どこか微妙さを感じていました。 特に日語の記事を探す際に意図した記事が見つからないことが多々あり、不満ポイントでした (海外サービスあるある)。 そんな矢先、時雨堂さんの「DuckDB でハイブリッド検索」の記事を拝

    DuckDB を用いて日々のストック記事をハイブリッド検索する
    misshiki
    misshiki 2025/05/07
    “DuckDB を使って、日々ストックしている Web 記事などのハイブリッド検索(全文検索とベクトル類似度検索の組み合わせ)を実現する試みについてまとめ”
  • ブラウザでオフライン日本語インスタント全文検索を実現する

    DuckDB の FTS (Full Text Search) 拡張と Lindera を利用する事で、日語全文検索を実現できますが、DuckDB-Wasm と Lindera-Wasm を利用する事でブラウザで日語全文検索を実現できます。Wasm なので完全オフラインで、利用できます。 さらに、クライアントのリソースということもあり一文字ずつ入力された値に対して Lindera-Wasm形態素解析して、SQL を実行することでインスタント検索も実現できます。 DuckDB-Wasm (FTS 拡張) + Lindera-Wasm技術的には特に難しいことはしておらず、DuckDB-Wasm の FTS 拡張に Lindera-Wasm形態素解析した結果を引数として渡して実行しているだけです。 デモサイトを用意しておきました​、もし良ければ試してみてください。 DuckDB-Wa

    ブラウザでオフライン日本語インスタント全文検索を実現する
    misshiki
    misshiki 2025/04/30
    “DuckDBのFTS (Full Text Search) 拡張と Lindera を利用する事で、日本語全文検索を実現できますが、DuckDB-Wasm と Lindera-Wasm を利用する事でブラウザで日本語全文検索を実現できます。Wasm なので完全オフラインで、利用できます。”
  • DuckDB でハイブリッド検索

    DuckDB を利用してベクトル検索と日語全文検索の両方を同時に利用できます。さらにこれらの結果をマージして Reranking を行うことでハイブリッド検索をサクサクっと実現する事が​できます。 Rerankerどうやらベクトル検索した結果と日語全文検索した結果をマージして、クエリーとマージ結果を再度ランキング付けする仕組みのようです。 ここでは参考にした記事を共有する程度にしておきます。 日語最高性能のRerankerをリリース / そもそも Reranker とは? - A Day in the Lifeリランキング モデルによる RAG の日語検索精度の向上 - NVIDIA 技術ブログ今回は Reranker に hotchpotch/japanese-reranker-cross-encoder-large-v1 を利用しました。 以下は参考コードです。 [projec

    DuckDB でハイブリッド検索
    misshiki
    misshiki 2025/04/28
    “DuckDB を利用してベクトル検索と日本語全文検索の両方を同時に利用できます。さらにこれらの結果をマージして Reranking を行うことでハイブリッド検索をサクサクっと実現する事が​できます。”
  • DuckDB で日本語全文検索

    DuckDB-VSS と PLaMo-Embedding-1B を利用することで、ベクトル検索を実現できますが、DuckDB-FTS (Full-Text Search) と形態素解析ライブラリである Lindera を組み合わせて日語全文検索を実現できます。 DuckDB-FTS + LinderaDuckDB の全文検索拡張は日語には対応していないないのですが、スペース区切りでトークン化することで、日語の全文検索を利用する事が出来ます。トークン化には Meilisearch にも利用されている信頼と安心の Lindera を利用することにしました。 今回この参考コードを Lindera の作者であり検索の専門家でもある Minoru OSUKA 氏にレビューいただきました。当にありがとうございます。 以下は参考コードです。 [project] name = "duckdb-ft

    DuckDB で日本語全文検索
    misshiki
    misshiki 2025/04/28
    “DuckDB-VSS と PLaMo-Embedding-1B を利用することで、ベクトル検索を実現できますが、DuckDB-FTS (Full-Text Search) と形態素解析ライブラリである Lindera を組み合わせて日本語全文検索を実現できます。”
  • PLaMo-Embedding-1B でベクトル検索して MCP で話せるようにする - ちょうげのブログ

    はじめに オレオレ RAG をさくっと作る の記事を読み、簡単そうだったので MCP で話せるようにしてみました。 nananaman/DuckDB-RAG-MCP-Sample Claude Desktop から使う例 仕組み Markdown ファイルをローカルでベクトル化して DuckDB を使って Parquet ファイルで保存します。 ベクトル化には Plamo-Embedding-1B を採用しており、軽量なのでローカルの CPU で十分動作します。 生成した Parquet ファイルを MCP サーバーの起動時に読み込み、クエリに応じてベクトル検索が実行されます。 MCP 対応には MCP Python SDK を使っています。 RAG 周りの詳しい仕組みは参考にさせていただいた オレオレ RAG をさくっと作る の記事を参照してください。 リポジトリ構成 リポジトリは以下の

    PLaMo-Embedding-1B でベクトル検索して MCP で話せるようにする - ちょうげのブログ
    misshiki
    misshiki 2025/04/21
    “DuckDB を使った RAG システムは簡単に構築できるので試してみてください。”
  • The DuckDB Local UI

    TL;DR: The DuckDB team and MotherDuck are excited to announce the release of a local UI for DuckDB shipped as part of the ui extension. The DuckDB project was built to make it simple to leverage modern database technology. DuckDB can be used from many popular languages and runs on a wide variety of platforms. The included Command Line Interface (CLI) provides a convenient way to interactively run

    The DuckDB Local UI
    misshiki
    misshiki 2025/03/13
    “duckdb -ui DuckDB クライアント(CLI、Python、Java など)から次の SQL コマンドを実行することもできます。 CALL start_ui(); どちらの方法でも、ui拡張機能をインストールし、ブラウザで DuckDB UI を開きます。”
  • DuckDB Local UI が公開された

    DuckDB にローカル用に UI が追加されたことが公開されました。duckdb -ui で呼び出せます。既に CLI を起動している場合でも CALL start_ui() で呼び出せます。 ローカルの DuckDB のデータを利用するこの仕組み、今まで CLI で「あれ?ちょっと列が省略されてて見づらいんだけど ...」というのがなくなります。 クエリーなどをノートブックとして DuckDB 自体に保存ができるようになるため、履歴から過去のクエリーを探す作業から解放されるのもとても良いです。 DuckDB を採用する理由が増えた気がします。 ただ、DuckDB UI の仕組みは ui.duckdb.org へのリバプロっぽい仕組みのようなので、オフラインでの利用は現時点ではできなさそうです。残念。 参考The DuckDB Local UI – DuckDBUI Extension

    DuckDB Local UI が公開された
    misshiki
    misshiki 2025/03/13
    “DuckDB にローカル用に UI が追加されたことが公開されました。duckdb -ui で呼び出せます。既に CLI を起動している場合でも CALL start_ui() で呼び出せます。”
  • データエンジニアリング領域におけるDuckDBのユースケース

    「DuckDBの魅力解剖!〜現場から見る活用術とその可能性〜」の登壇資料です。 https://findy.connpass.com/event/343059/

    データエンジニアリング領域におけるDuckDBのユースケース
    misshiki
    misshiki 2025/02/28
    全38ページのスライド資料。
  • スケールアウトはもう要らない?DuckDBが描くシステム設計の新時代 🦆 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 目的 稿では、DuckDBがもたらす新しいシステム設計の可能性を探ります。特に、2024年時点で主流な「スケールアウト」モデルを前提としたデータ処理システムから、よりシンプルで効率的な「スケールアップ」モデルが将来的に主流となり得る理由を説明します。また、DuckDB技術的特性、注目されている理由、具体的なその用途についても詳しく解説します。 対象読者 ソフトウェアアーキテクト:システム設計や運用コストの最適化を検討している人 データエンジニア:アプリケーションデータやログデータなどの様々なデータセットを効率的に処理したい人 システ

    スケールアウトはもう要らない?DuckDBが描くシステム設計の新時代 🦆 - Qiita
    misshiki
    misshiki 2025/02/25
    “DuckDBがもたらす新しいシステム設計の可能性を探ります。...よりシンプルで効率的な「スケールアップ」モデルが将来的に主流となり得る理由。技術的特性、注目されている理由、具体的なその用途についても解説。”
  • 1