タグ

2008年1月24日のブックマーク (8件)

  • Lists of the full-text retrieval softwares which can handle japanese properly.

    INDEX このページの目的 全文検索技術について簡単に フリーソフトウェアで日語の通るもの フリーソフトウェアだが日語が通らないもの 商用製品で日語の通るもの どのシステムを選ぶべきか 実際の導入事例の比較一覧 参考文献紹介 掲載ありがとう ページ作者のつぶやき Since: Thu Apr 17 13:43:10 1997 Last Refreshed: Fri Nov 12 00:05:46 JST 2004 時間の都合上、この一年ほどは十分にメンテナンスできていません。 ご利用の際には、その旨、悪しからずご了承下さい。(2002/5/31) ★ (2003/7/1) 拙著『Namazuシステムの構築と活用』を改訂しました。 詳しくは サポートページをご覧ください。 ★ (2003/5/21) MitakeSearch v4.0 リリース。 ★ (2003/4/25) Ver

  • 第6回 N-gramと形態素解析との比較 | gihyo.jp

    これまでに、N-gramと形態素解析の2つの検索エンジンの、見出し語の切り出し方法を説明しました。今回は、2つの見出し語の切り出し方法を比較し、それぞれの得意な点、不得意な点を明らかにしていきます。 2つの手法の概要 はじめに、2つの手法をおさらいしてみます。 形態素解析 検索対象のテキストを形態素解析を行い分かち書きを行う 分かち書きした単位を見出し語として転置インデックスを作成する 転置インデックスを元に検索を行う N-gram 検索対象のテキストをN文字単位の文字列片に分解する 分解した文字列片を見出し語として転置インデックスを作成する 検索語をN文字単位の文字列片に分け検索を行う 文字列の出現位置情報を利用すれば、漏れのない完全一致の検索が可能 大きな違いは、「⁠転置インデックスの見出し語をどのように作るか」というプロセスが異なる点です。形態素解析は構文解析を行って分かち書きを行う

    第6回 N-gramと形態素解析との比較 | gihyo.jp
  • 新しい全文検索エンジンを求めて | Oliverの日記 | スラド

    システムアップグレードの課題として大きく残っているのが検索エンジンの選定だ。MySQLの標準の全文検索エンジンでは日語の単語の切り分けができないので、Slashcodeの標準のものは使えない。現状はSlashcodeとは完全に並行する形でNamazuを使っているが、辞書を鍛えてないこともあり「わかち書き」の不完全さにより、精度が低すぎてほとんど使えないものだ。そこで、新システムでは新しいエンジンを使って、より統合された検索システムを実装したい。ストーリー文だけでなく、コメントや日記も検索対象になる予定だ。 要求仕様はこんな感じだ 精度が高い。index付きgrep並の精度が欲しい。=> n-gram方式?複数のマシンでNFSを使ってindexを共有可能。検索は絶対必要。書き込みのきちんとした排他もできれば。統合できる様、Perl APIが欲しい代案としては、XML-RPCなどの軽いリモ

  • HTML5 における HTML4 からの変更点

    この文書「HTML 5 における HTML 4 からの変更点」は、W3C の HTML ワーキンググループ による「HTML 5 differences from HTML 4 (Working Draft 22 January 2008)」の日語訳です。 規範的な文書は原文のみとなっています。この日語訳は参考情報であり、正式な文書ではないことにご注意ください。また、翻訳において生じた誤りが含まれる可能性があります。 原文が勧告 (Recommendation) ではなく、策定途中の草案 (Working Draft) であることにご注意ください。 原文の最新版 は、この日語訳が参照した版から更新されている可能性があります。また、この日語訳自身も更新されている可能性があります。日語訳の最新版は、W3C 仕様書 日語訳一覧 から参照することができます。 更新日: 2008-09-

  • 組み込み型全文検索エンジン Senna : NDO::Weblog

    naoya.dyndns.org is currently offline. Please try again later. Questions about our services? Learn more at Dyn.com.

  • 全文検索システム Namazu

    Namazuとは? Namazu は手軽に使えることを第一に目指した日語全文検索シス テムです。CGI として動作させることにより小中規模の WWW 全文 検索システムを構築することができるほか、コマンドラインや Emacs上から利用するといった個人用途にも使えます。 目次 新着情報 主な特徴 ライセンス ダウンロード 安定版ソースコード Debian GNU/Linux用debパッケージ Windows版 インストール 検索 チュートリアル 説明書 豆知識 FAQ 関連リンク集 メイリングリスト Wiki/バグ追跡システム セキュリティに関する考察 開発情報 歴史資料 出版物 催し関連 Namazu Projectとは サービス復旧状況 新着情報 2011-07-18: Namazu 2.0.21 を公開 セキュリティフィックスリリース IE6,7のクロスサイト スクリプティング脆弱性

  • 全文検索エンジンSedueベンチマーク

    全文検索エンジン性能評価 (2006/08/19) 概要 弊社が開発致しました圧縮インデックス方式全文検索エンジン「Sedue」(Sedue 24やGenome Sedueで利用されているエンジンSedue コア)とオープンソースな全文検索エンジン(HyperEstraier, Lucene, Senna)との性能比較を行いました。検索サーバーにはマシン1台のみを使用しました。 更新履歴 2006/09/13 インデクシングの作成方法に関して分かりにくい表現を訂正 使用環境 ベンチマークを取るに際しまして以下のようなスペックのマシンを使用致しました。 CPU: AMD Athlon(tm) 64 Processor 3000+ Memory: 2GB OS: Linux pfidev1 2.6.16-1.2111_FC4 #1 Sat May 20 20:00:28 EDT 2006 x8

  • http://www.itarchitect.jp/enterprise/-/25122-1.html