タグ

2011年3月11日のブックマーク (3件)

  • 開発メモ: IndexDB: 転置インデックスのためのDB

    大震災の時分に何だが、Kyoto Cabinetベースで検索エンジンの核となる転置インデックスを作るのに適したDBを実装したという話。 転置インデックスとappend操作 多くの検索エンジンの核となる転置インデックスとは、検索語に一致する表現がどこに出てきたかという位置情報のリストを保持するものであり、検索語をキーとして位置情報リストを値とする連想配列である(転置インデックスを使わない検索エンジンもあるが)。この位置情報リストをposting listとか呼んだりするらしい。転置インデックスにもいくつか流儀があり、検索語をどのように切り分けるかで単語(分かち書き)方式とか文字N-gram方式とか呼ばれるものがあったりするが、いずれにせよ、小さいキーと、非常にでかい値を保持する連想配列を作ることには変わりない。 で、素朴に転置インデックスを作ろうとすると、検索対象の文書を解析しながら、得られ

    Muke
    Muke 2011/03/11
  • diffの動作原理を知る~どのようにして差分を導き出すのか | gihyo.jp

    UNIXの基的なコマンドの1つであるdiff。 これに実装されているアルゴリズムは実に興味深い世界が広がっています。 稿では、筆者が開発した独自ライブラリ「dtl」をもとに「diffのしくみ」を解説します。 はじめに diffは2つのファイルやディレクトリの差分を取るのに使用するプログラムです。 ソフトウェア開発を行っている方であれば、SubversionやGitなどのバージョン管理システムを通して利用していることが多いかと思います。稿ではそのdiffの動作原理について解説します。 差分の計算の際に重要な3つの要素 差分を計算するというのは次の3つを計算することに帰結します。 編集距離 2つの要素列の違いを数値化したもの LCS(Longest Common Subsequence) 2つの要素列の最長共通部分列 SES(Shortest Edit Script) ある要素列を別の要

    diffの動作原理を知る~どのようにして差分を導き出すのか | gihyo.jp
  • 入門OpenSSH 新山 祐介 著

    「入門OpenSSH」 (新山 祐介 著) は、 2006年6月に秀和システムから刊行されました (2009年末に絶版)。 秀和システム 「入門OpenSSH」のページ ここで公開している原稿は、最終的な版下になる前のものです。 実際に出版された書籍とは異なっている部分があります。 重大な間違い等がありましたら、新山までお知らせください。 () 注意: 書が刊行された時点での OpenSSH のバージョンは 4.3 でした。 現時点(2011年2月)における OpenSSH のバージョンは 5.8 です。 変更履歴 2010/09/12: 公開。 目次 はじめに 第1章. OpenSSH を導入するにあたって 1.1. OpenSSH とは 1.2. OpenSSH にはできないこと 1.3. OpenSSH ができること 第2章. OpenSSH をインストールする 2.1. 現在イン