タグ

ブックマーク / uchiuchiyama.hatenadiary.org (2)

  • 全文検索エンジンHyper Estraier導入 - のほほん徒然

    第十九回 さて,先日の続きである.研究室に論文PDFを閲覧できるWebサーバを設置したわけだが,その論文PDFは色々な学会ごとに分けられている.さらに,それぞれの学会のIndexページが存在し,そこから論文PDFへのリンクが張られているといった感じだ.これだと,自分が見たい論文がどの学会で何年に発表されたか分かっている場合は一道で論文までたどり着ける.しかし,論文タイトルだけ分かっているとか,誰々が書いたってことだけは分かっているとか,「検索スコアリング」に関する論文が欲しいといった要求に答えることはなかなか難しい. そこで,今回は大量の論文PDFから全文検索の機能を追加する.検索対象は各論文PDFファイルとして,全文検索エンジンにはHyper Estraierを利用した.これは,N-gram法を拡張したN・M-gram法を用いたindexingにより,もれのない全文検索を実現している.

    全文検索エンジンHyper Estraier導入 - のほほん徒然
  • 聞いてきました:Googleの大規模日本語データ公開に関する特別セッション - のほほん徒然

    第四十七回 写真はGigazineのマネです(笑) 3月に滋賀で行われる言語処理学会全国大会で、グーグルが 特別セッションをやるそうです。大規模日語データについて。 たつをさんのブログで知ったGoogleの特別セッション. グーグル株式会社では、日語の言語処理研究推進のため大規模日語データの公開を検討しています。つきましては仕様を決定するにあたり、実際にデータを御利用頂く研究者 / 技術者の皆様の「生の声」を是非お伺いしたく存じます。今回、言語処理学会様の御好意により、下記のとおりデータ仕様に関する特別セッションを設けて頂ける事になりました。 はてなブックマークでも話題になっているGoogleの大規模日語データ公開に関する特別セッション@NLP2007に,家が近いこともあり参加してきましたので,その詳細を書きます. セッション概要と要旨 Googleは日語の言語処理研究のためにW

    聞いてきました:Googleの大規模日本語データ公開に関する特別セッション - のほほん徒然
  • 1