タグ

databaseとdataminingに関するtakadoのブックマーク (7)

  • Webサイトの言語分布

    コンテンツにスキップ ¶ コンテンツ¶ ご案内 構成員 研究内容 研究業績 ローカル情報 リンク¶ マルチメディア工学専攻 情報科学研究科 工学研究科/工学部 大阪大学

  • Web::Scraperが便利すぎて困るの巻 (CodeZine編集部ブログ)

    こんにちは、編集マンの久次です。 なんだかPerlのWeb::Scraperが便利すぎで、やばいです。 これまでWWW::Mechanizeでごにょごにょやっていたのですが、一気にいろんなものが解決しました。 それで、いろいろ書いていたら、HTML::TreeBuilderのlook_downというメソッドも強力なことにいまさらながら、気づいたので勉強がてら、ためしにコードを書いてみました。 Webの自動制御に今日も夢が広がる…。 <参考> Web::Scraper - Web Scraping Toolkit inspired by Scrapi - search.cpan.org naoyaのはてなダイアリー - Web::Scraper ブログが続かないわけ | Web::Scraper 使い方(超入門) Web::Scraper超便利 scrAPI Cheat Sheet

  • 漫画家地図 : ナツ100漫画家相関図

    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

    takado
    takado 2007/09/13
    一緒に言及された数から作家の関係を推定→GraphVisで可視化
  • クローラーも分散型コンピューティング·Grub MOONGIFT

    Open Tech Press | 米Wikia:分散型ウェブ巡回ツールを買収、オープンソース化より。 分散型コンピューティングという手法は面白い。古くはSETI@HOMEやUD Agent等があった。コンピュータが高性能化し、台数が急増している中、利用度はむしろ低くなっている可能性は否めない。 そして、Web巡回を行うクローラーもまた、分散型コンピューティングに名乗りを上げた。 今回紹介するオープンソース・ソフトウェアはGrub、分散型コンピューティングを利用したWebクローラーだ。尚、オープンソース化するとの事だが、現状配布されているバージョンではライセンスはLooksmartのものになっているのでご注意いただきたい。 GrubはWindowsLinux向けに提供されており、インストールするとタスクトレイに常駐する。そして、PCが利用されていない時にクローリングを行うソフトウェアだ。

    クローラーも分散型コンピューティング·Grub MOONGIFT
  • Myrmecoleon in Paradoxical Library. はてな新館 - はてブ指数

    書誌学的方法による研究者評価の方法のひとつとしてh指数(h-index)というものがある。 その定義は 「その研究者が公刊した論文のうち、被引用数がh以上であるものがh以上あることを満たすような数値」 h指数 - Wikipedia というもの。イメージとしてはこのグラフをみるとわかるかなと。 要するにどの程度の質の論文をどれくらいの量書いているのか,というのが一発で分かる感覚的に優れた指標である。単純な被引用数(論文が引用された回数)の総和だと特定の論文が妙に引用されてて他はボロボロ,みたいな研究者も高く評価されてしまうのに対し,h指数を使うと質と量が同時に把握できるので分かりやすくてオススメ。 詳しいところはwikipediaが詳しいのと,あとオリジナルの論文(英文)も公開されてるので読むとよい。っても自分も読んでないが(マテ で,なんでこんなことをわざわざ説明してるのかというと, こ

    takado
    takado 2007/07/20
    H指数をはてブの評価に適用
  • 聞いてきました:Googleの大規模日本語データ公開に関する特別セッション - のほほん徒然

    第四十七回 写真はGigazineのマネです(笑) 3月に滋賀で行われる言語処理学会全国大会で、グーグルが 特別セッションをやるそうです。大規模日語データについて。 たつをさんのブログで知ったGoogleの特別セッション. グーグル株式会社では、日語の言語処理研究推進のため大規模日語データの公開を検討しています。つきましては仕様を決定するにあたり、実際にデータを御利用頂く研究者 / 技術者の皆様の「生の声」を是非お伺いしたく存じます。今回、言語処理学会様の御好意により、下記のとおりデータ仕様に関する特別セッションを設けて頂ける事になりました。 はてなブックマークでも話題になっているGoogleの大規模日語データ公開に関する特別セッション@NLP2007に,家が近いこともあり参加してきましたので,その詳細を書きます. セッション概要と要旨 Googleは日語の言語処理研究のためにW

    聞いてきました:Googleの大規模日本語データ公開に関する特別セッション - のほほん徒然
    takado
    takado 2007/03/24
    「Webデータの著作権はGoogleにはないので,オリジナルの文章を再現できないことという前提条件の下,元の文章を機械的に処理した上で日本語コーパスデータとして公開」
  • GroupLens

    Social Computing Research at the University of Minnesota GroupLens advances the theory and practice of social computing by building and understanding systems used by real people Featured Research We publish research articles in conferences and journals primarily in the field of computer science, but also in other fields including psychology, sociology, and medicine. See our blog for research highl

    GroupLens
    takado
    takado 2007/01/16
    MovieLensなどの様々なデータセットを配布
  • 1