[B! database][datamining] takadoのブックマーク

takado id:takado

databaseとdataminingに関するtakadoのブックマーク (7)

Webサイトの言語分布
コンテンツにスキップ ¶ コンテンツ¶ ご案内構成員研究内容研究業績ローカル情報リンク¶ マルチメディア工学専攻情報科学研究科工学研究科／工学部大阪大学
takado 2008/03/14
academic

paper

datamining

database
リンク
Web::Scraperが便利すぎて困るの巻 (CodeZine編集部ブログ)
こんにちは、編集マンの久次です。なんだかPerlのWeb::Scraperが便利すぎで、やばいです。これまでWWW::Mechanizeでごにょごにょやっていたのですが、一気にいろんなものが解決しました。それで、いろいろ書いていたら、HTML::TreeBuilderのlook_downというメソッドも強力なことにいまさらながら、気づいたので勉強がてら、ためしにコードを書いてみました。 Webの自動制御に今日も夢が広がる…。＜参考＞ Web::Scraper - Web Scraping Toolkit inspired by Scrapi - search.cpan.org naoyaのはてなダイアリー - Web::Scraper ブログが続かないわけ | Web::Scraper 使い方(超入門) Web::Scraper超便利 scrAPI Cheat Sheet
takado 2007/10/12
perl

cpan

web

database

datamining
リンク
漫画家地図 : ナツ100漫画家相関図
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
takado 2007/09/13
一緒に言及された数から作家の関係を推定→GraphVisで可視化

visualization

subculture

database

datamining
リンク
クローラーも分散型コンピューティング·Grub MOONGIFT
Open Tech Press | 米Wikia：分散型ウェブ巡回ツールを買収、オープンソース化より。分散型コンピューティングという手法は面白い。古くはSETI@HOMEやUD Agent等があった。コンピュータが高性能化し、台数が急増している中、利用度はむしろ低くなっている可能性は否めない。そして、Web巡回を行うクローラーもまた、分散型コンピューティングに名乗りを上げた。今回紹介するオープンソース・ソフトウェアはGrub、分散型コンピューティングを利用したWebクローラーだ。尚、オープンソース化するとの事だが、現状配布されているバージョンではライセンスはLooksmartのものになっているのでご注意いただきたい。 GrubはWindows、Linux向けに提供されており、インストールするとタスクトレイに常駐する。そして、PCが利用されていない時にクローリングを行うソフトウェアだ。
takado 2007/08/03
p2p

web

database

datamining
リンク
Myrmecoleon in Paradoxical Library. はてな新館 - はてブ指数
書誌学的方法による研究者評価の方法のひとつとしてh指数(h-index)というものがある。その定義は「その研究者が公刊した論文のうち、被引用数がh以上であるものがh以上あることを満たすような数値」 h指数 - Wikipedia というもの。イメージとしてはこのグラフをみるとわかるかなと。要するにどの程度の質の論文をどれくらいの量書いているのか，というのが一発で分かる感覚的に優れた指標である。単純な被引用数（論文が引用された回数）の総和だと特定の論文が妙に引用されてて他はボロボロ，みたいな研究者も高く評価されてしまうのに対し，h指数を使うと質と量が同時に把握できるので分かりやすくてオススメ。詳しいところはwikipediaが詳しいのと，あとオリジナルの論文（英文）も公開されてるので読むとよい。っても自分も読んでないが（ﾏﾃで，なんでこんなことをわざわざ説明してるのかというと，こ
takado 2007/07/20
Ｈ指数をはてブの評価に適用

hatena

datamining

sbm

recommendation

database
リンク
聞いてきました：Googleの大規模日本語データ公開に関する特別セッション - のほほん徒然
第四十七回写真はGigazineのマネです(笑) 3月に滋賀で行われる言語処理学会全国大会で、グーグルが特別セッションをやるそうです。大規模日本語データについて。たつをさんのブログで知ったGoogleの特別セッション．グーグル株式会社では、日本語の言語処理研究推進のため大規模日本語データの公開を検討しています。つきましては仕様を決定するにあたり、実際にデータを御利用頂く研究者 / 技術者の皆様の「生の声」を是非お伺いしたく存じます。今回、言語処理学会様の御好意により、下記のとおりデータ仕様に関する特別セッションを設けて頂ける事になりました。はてなブックマークでも話題になっているGoogleの大規模日本語データ公開に関する特別セッション@NLP2007に，家が近いこともあり参加してきましたので，その詳細を書きます．セッション概要と要旨 Googleは日本語の言語処理研究のためにW
takado 2007/03/24
「Webデータの著作権はGoogleにはないので，オリジナルの文章を再現できないことという前提条件の下，元の文章を機械的に処理した上で日本語コーパスデータとして公開」

google

japanese

event

database

datamining
リンク
GroupLens
Social Computing Research at the University of Minnesota GroupLens advances the theory and practice of social computing by building and understanding systems used by real people Featured Research We publish research articles in conferences and journals primarily in the field of computer science, but also in other fields including psychology, sociology, and medicine. See our blog for research highl
takado 2007/01/16
MovieLensなどの様々なデータセットを配布

material

academic

recommendation

datamining

database

algorithm
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx