タグ

これはすごいとresearchに関するstarsky5のブックマーク (2)

  • MOONGIFT: » タイトル・本文抽出クローラー「Webstemmer」:オープンソースを毎日紹介

    これはやばい!凄すぎる。 現在進めようと思っているプロジェクトでは、サイト上の文抽出が重要な技術になっていた。だが、それを一から開発していたのではあまりに時間がかかってしまう。さらに重要な技術ではあるが、それが売りと言う訳ではなかった。 そこで見つけたのがこのソフトウェアだ。まさに理想的な方法かも知れない。 今回紹介するオープンソース・ソフトウェアはWebstemmer、タイトル・文抽出クローラーだ。 WebstemmerはPythonで作られたクローラーで、Webクローラー/レイアウト分析/テキスト抽出/URL DB操作/簡易的なテキスト抽出の5つの機能が提供されている。 動作原理については公式サイトを参考にして欲しいが、個人的にも考えていた(考えていただけ)方法に近い。学習時間が長いのが難点だが、複数台のPCで分散化できれば問題なくなるだろう。 特徴的なのは、特定の言語に左右される

    MOONGIFT: » タイトル・本文抽出クローラー「Webstemmer」:オープンソースを毎日紹介
  • Myrmecoleon in Paradoxical Library. はてな新館 - はてブ指数

    書誌学的方法による研究者評価の方法のひとつとしてh指数(h-index)というものがある。 その定義は 「その研究者が公刊した論文のうち、被引用数がh以上であるものがh以上あることを満たすような数値」 h指数 - Wikipedia というもの。イメージとしてはこのグラフをみるとわかるかなと。 要するにどの程度の質の論文をどれくらいの量書いているのか,というのが一発で分かる感覚的に優れた指標である。単純な被引用数(論文が引用された回数)の総和だと特定の論文が妙に引用されてて他はボロボロ,みたいな研究者も高く評価されてしまうのに対し,h指数を使うと質と量が同時に把握できるので分かりやすくてオススメ。 詳しいところはwikipediaが詳しいのと,あとオリジナルの論文(英文)も公開されてるので読むとよい。っても自分も読んでないが(マテ で,なんでこんなことをわざわざ説明してるのかというと, こ

  • 1