タグ

2008年5月4日のブックマーク (2件)

  • 「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記

    Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「下準備があればこその高性能」なわけです。 インデックスを作成するためには、あらかじめWebページの内容を単語に分割する必要があります。英語では単語と単語の間をスペースで区切るため、この作業はさほど難しくありません。しかし日語では、単語の境界はそれほど自明ではないため、日語特有の処理をする必要があります。 日語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合があり、そ

    nihen
    nihen 2008/05/04
  • 「入門Trac」と言う本を書きました

    ■ 「入門Trac」と言うを書きました Trac の解説書を書かせてもらいました。秀和システム さんより、もうすぐ発売されます。どうも7日くらいから店頭に並ぶようです。300ページとちょっと。 まだ Trac を使った事がない方を対象に、インストール方法から各機能の操作方法、設定内容について詳しく解説しています。これから Trac を使い始めるなら、書を手元に置いておけば一通り使いこなせるようになるだろうと思います。細かい内容については 書籍情報 が詳しいです。 運用面まで踏み込む余裕がなかったので、すでにバリバリ活用しているような方には物足りない部分があるかもしれません。ですが、まとまった情報源としては有用な点も多く、リファレンス的な活用も可能です。実際普段の作業で Trac を使っている最中に何度も書籍の内容を見直したりしたので、早く手元に紙として欲しいと願っていました。 実は一つ

    nihen
    nihen 2008/05/04