タグ

workとGoogle Desktopに関するyumingのブックマーク (10)

  • モノマニア: Omnipage15速報その6−SearchX(サーチクロス)ばってん!?

  • 全文検索 - Wikipedia

    順次走査検索、逐次検索ともいう。「grep」とはUNIXにおける文字列検索コマンドであり、複数のテキストファイルの内容を順次走査していくことで、検索対象となる文字列を探し出す。一般に「grep型」と呼ばれる検索手法は、事前に索引ファイル(インデックス)を作成せず、ファイルを順次走査していくために、検索対象の増加に伴って検索速度が低下するのが特徴である。ちなみに「grep型」とは実際にgrepコマンドを使っているという意味ではない。 インデックス作成型全文検索システム 検索対象となる文書数が膨大な場合、grep型では検索を行うたびに1つ1つの文書にアクセスし、該当データを逐次検索するので、検索対象文書の増加に比例して、検索にかかる時間も長くなっていってしまう。そこであらかじめ検索対象となる文書群を走査しておき、高速な検索が可能になるような索引データを準備することで、検索時のパフォーマンスを向

    全文検索 - Wikipedia
  • BYTE LAB「デスクトップ検索」(5)

    検索精度を測る指標は,大きく二つある。検索結果にユーザーの求めるファイルがある割合「適合率」と,全ファイル群の中でユーザーの求めるファイルが検索できた割合「再現率」だ(図7[拡大表示])。 理論的には,ノイズを増やさずに所望のファイルをなるべく多くすれば,適合率と再現率を同時に高められる。ただ万能な検索アルゴリズムがないことから,一般に適合率を上げようとすると,検索を絞り込むため検索漏れが増え再現率は下がる。それとは逆に,再現率を上げようと検索結果を増やすと,ユーザーに適合しないファイルが検索結果に含まれる確率が高まるのが普通だ。 そこで5件のキーワードについて,適合率と再現率をそれぞれ測定した。「ハードディスクの記録密度」と「CPUのベンチマーク」は,2語のクエリーとして一般的なものを想定して,キーワードに入れた。「海外出張」は海外出張と名付けたフォルダにあるファイルを総ざらいできるかを

    BYTE LAB「デスクトップ検索」(5)
  • BYTE LAB「デスクトップ検索」(4)

    図6 インデックスのファイル・サイズ<BR>測定用ファイルのファイルセットを500Mバイトずつ2Gバイトまで増やした時の値。測定機は図3・図4と同じ。 インデックス・サイズで約8倍の差 インデックスの作成時間は,テキストの抽出処理と単語の切り出し,そしてインデックスを生成する一連の処理量で決まる*3。処理量が多いほどCPUの処理時間を長く使い,メモリーを消費して仮想メモリーの読み書きによる性能低下が起こる。先に計測した平均CPU使用率と仮想メモリーに対する読み書きの回数が,作成時間を左右するはずである。 500Mバイトの測定対象ファイル群のインデックス作成時間を見てみると,ConceptSearchとGoogleデスクトップ検索,サーチクロス,そしてSpotlightの4製品が5分前後で並んだ(図5[拡大表示])。圧倒的に高速なのが,QuickSolutionパーソナル体験版。約2分でイン

    BYTE LAB「デスクトップ検索」(4)
  • BYTE LAB「デスクトップ検索」(3)

    図3 インデックス作成時の平均CPU使用率<BR>インデックス作成から終了までのCPU使用率の平均値。 デスクトップ検索は,なるべくユーザーの作業に影響を与えずにインデックスを作成できるかが使い勝手を左右する。インデックス作成では,ファイルを読み込んで単語を抽出してインデックスを更新する作業が生じる。CPU,メモリー,そしてハードディスクの各リソースを消費する。そこでCPU使用率,メモリーの負荷,そしてインデックスの作成時間とその容量を測定した。 測定機はSpotlightを除く製品が1.26 GHz動作のCeleron Mを搭載するノートパソコン。メモリーは256Mバイトである。SpotlightはMac OS X 10.4 Tigerの機能であるため,測定機は米Apple Computer社のPowerBook G4になる。マイクロプロセッサは1.67GHz動作のPowerPC G4で

    BYTE LAB「デスクトップ検索」(3)
  • BYTE LAB「デスクトップ検索」(2)

    関連度によるソートを基に評価 ソートについては,製品によって考え方が分かれる。ファイルの作成・更新日時の新しい順番に並び替えるソートと,関連度によるソートがある。 前者は「長い間アクセスしていないファイルの重要度は低い」という経験則に基づいている。例えばサーチクロスとSpotlightは,関連度を基にソートする機能はない。日時によるソートがデフォルトになっている。 関連度は,一般にファイルの中にあるキーワードの数や位置によって算出する。サーチクロスとSpotlightを除く4製品は,関連度によるソートができる。ただGoogleデスクトップ検索とMSNサーチツールバーwith Windowsデスクトップサーチは,日時によるソートがデフォルト。今回は検索エンジンの傾向を見るのが目的であるため,関連度のソートに切り替えてから両者の精度を評価した。 ConceptSearchとQuickSolu

    BYTE LAB「デスクトップ検索」(2)
  • BYTE LAB「デスクトップ検索」(1)

    図2 測定に用いたファイルの内訳<BR>2004年に筆者が作成・ダウンロードしたファイルを使用。検索対象外の実行ファイルやアプリケーションの設定ファイルを削除して,約500Mバイトの測定用ファイル群を作成した。 パソコンを起動して所望のファイルを開き,編集をして保存する。この誰もが繰り返している一連の作業で,「遅い」と感じる場面は減りつつある。ハードウェアの性能向上のおかげである。ところが目的とするファイルの保存場所が分からなくなると,途端に無駄な時間を過ごすことになる。あらかじめ時間をかけてファイルをフォルダに分類して格納しておく整理術は,所望のファイルを素早く見つけ出す上で欠かせないスキルになっている。 このファイルの分類とそれに頼ったファイルの検索にかかる時間の節約を目的とした,個人向けの検索ソフト,いわゆる「デスクトップ検索」ソフトが注目を集めている。デスクトップ検索の中核は,パソ

    BYTE LAB「デスクトップ検索」(1)
  • ITmedia Biz.ID:Google Desktopをマスターする

    Google Desktopを賢く使えば「ビルがスティーブに宛てた合併関連のメール」なども検索可能。(Lifehacker) 筆者は世界一の整理の達人ではない(その称号は筆者の仲間のほかの編集者たちにこそ与えられるべきだ)。だがフリーのデスクトップ検索ソフトGoogle Desktopのおかげで、紛失した契約書、保存場所を忘れた社会学論文の表紙、チャットのログなどを、なくして困った思いをせずに済んでいる。実際、「コンピュータ上の情報は簡単に検索できるのだからファイルや電子メールやブックマークの管理なんかしなくていい」という整理に無頓着な言い訳を、Google Desktopに正当化してもらっている。無秩序な状態を気にしなくていいのかって? まさにその通り。 しかし、無秩序に山積したファイルの中から情報を正しく引き出すための鍵は、精巧な検索方法にある。今回は、必要なとき、必要なものを正しく見

  • プレビュー表示が快適! Windowsデスクトップサーチ

    デスクトップ検索は「Googleデスクトップ」が有名だが、今回は「Windowsデスクトップサーチ」を紹介する。プレビュー表示に対応し、すぐに目的のファイルやメールを見つけられるのが特徴だ。 PCの中にある大量のファイルから目的のファイルを素早く探したいなら「Windowsデスクトップサーチ」が便利だ。PCの中の文書やメール、画像などのファイルを一括で検索し、Webサイトも含めてプレビュー表示で簡単に中身の確認もできるのが便利だ。 この検索ツールはInternet Explorer、Outlook、タスクバーに表示されるので、いつでも素早く検索が可能だ。検索欄にキーワードを入力して「デスクトップ検索」をクリックすれば、検索結果が左右2つの画面に分割して表示する。 左側は検索結果になっておりファイル名が並ぶ。右側にはその中身がプレビュー表示。例えばグラフや図表、画像フォルダであればプレビュー

    プレビュー表示が快適! Windowsデスクトップサーチ
  • デスクトップ検索アプリケーション比較

    GoogleYahoo!、MSNをはじめとする5種類のデスクトップ検索ツールの長所と短所を端的にまとめる。(Lifehacker) 【この記事は、2006年4月13日付で米ブログメディア「Lifehacker」に掲載された記事を翻訳したものです。】 自分のコンピュータにインストールし、Webではなく、自分のマシンの中にあるファイルを検索できる「デスクトップ検索アプリケーション」の人気がうなぎ上りだ。Googleでdesktop searchと検索すると、結果はなんと7億以上! だが、どのデスクトップ検索アプリケーションが最高なのだろう? 今回は、ダウンロード件数で上位5位のGoogleYahoo!、Copernic、Ask、MSNのアプリケーションについて、長所と短所を簡単にまとめる。 Google Desktop Search 長所 Googleは、最新版でDesktop Searc

    デスクトップ検索アプリケーション比較
  • 1