mizuno_takaakiのブックマーク - はてなブックマーク

全文検索エンジンHyper Estraier導入 - のほほん徒然
第十九回さて，先日の続きである．研究室に論文PDFを閲覧できるWebサーバを設置したわけだが，その論文PDFは色々な学会ごとに分けられている．さらに，それぞれの学会のIndexページが存在し，そこから論文PDFへのリンクが張られているといった感じだ．これだと，自分が見たい論文がどの学会で何年に発表されたか分かっている場合は一本道で論文までたどり着ける．しかし，論文タイトルだけ分かっているとか，誰々が書いたってことだけは分かっているとか，「検索スコアリング」に関する論文が欲しいといった要求に答えることはなかなか難しい．そこで，今回は大量の論文PDFから全文検索の機能を追加する．検索対象は各論文PDFファイルとして，全文検索エンジンにはHyper Estraierを利用した．これは，N-gram法を拡張したN・M-gram法を用いたindexingにより，もれのない全文検索を実現している．
mizuno_takaaki 2007/12/03
リンク
聞いてきました：Googleの大規模日本語データ公開に関する特別セッション - のほほん徒然
第四十七回写真はGigazineのマネです(笑) 3月に滋賀で行われる言語処理学会全国大会で、グーグルが特別セッションをやるそうです。大規模日本語データについて。たつをさんのブログで知ったGoogleの特別セッション．グーグル株式会社では、日本語の言語処理研究推進のため大規模日本語データの公開を検討しています。つきましては仕様を決定するにあたり、実際にデータを御利用頂く研究者 / 技術者の皆様の「生の声」を是非お伺いしたく存じます。今回、言語処理学会様の御好意により、下記のとおりデータ仕様に関する特別セッションを設けて頂ける事になりました。はてなブックマークでも話題になっているGoogleの大規模日本語データ公開に関する特別セッション@NLP2007に，家が近いこともあり参加してきましたので，その詳細を書きます．セッション概要と要旨 Googleは日本語の言語処理研究のためにW
mizuno_takaaki 2007/03/29
google
リンク
1

はてなブックマーク

タグ

ブックマーク / uchiuchiyama.hatenadiary.org (2)

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / uchiuchiyama.hatenadiary.org (2)

全文検索エンジンHyper Estraier導入 - のほほん徒然

聞いてきました：Googleの大規模日本語データ公開に関する特別セッション - のほほん徒然

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス