タグ

クローラーに関するgoingerのブックマーク (4)

  • クローラーを作るためのフレームワーク·Anemone MOONGIFT

    RSSフィードやWeb API、Mashupなどの単語が注目を集める中、Webクローラーを通じて外部のWebサイトにあるデータをかき集め、それを解析して別な形にするというのはよく見られるものになってきた。 あるURLを指定し、そこからリンクされているURLを一覧表示できる そうした数々のシステムの中で、クローラーとなる基盤は大きな違いはない。Webサイトのデータを取得し、次のリンクを洗い出して取得していくようなものだ。そうした共通動作部分を切り出したフレームワークがAnemoneだ。 今回紹介するオープンソース・ソフトウェアはAnemone、Webクローラを開発するためのフレームワークだ。 Anemoneは任意のWebサイトにアクセスし、その内容を解析するWebクローラーだ。例えばあるURLに付けられているリンクを一覧で取得するようなことも簡単にできる。外部サイトなのかどうかも区別できるの

    クローラーを作るためのフレームワーク·Anemone MOONGIFT
  • Grub | Help crawl it all

    The Long, Bizarre History Of Beetlejuice 2’s Development

    Grub | Help crawl it all
  • Blog Never Knows: オープンソースのクローラー

    オープンソースのクローラー 日々の巡回先であるセキュリティーホールメモから悪徳商法?マニアックスに関するグーグルによって省かれる問題におけるスラッシュドットの記事を発見、その記事に対するコメントから、オープンソースの検索エンジン Nutch に関する @IT の記事を発見、Nutch はクローラー(WEBを巡回しWEB上のものを集めてくるためのもの)を持たないため、オープンソースのクローラーを利用することを推奨しており、それがオープンソースのクローラーである「Grub」だそうだ。こういうのをちょうど探していた、すばらしい。Windows でも使えるようなので早速一晩動かしてみることにしよう。と、思ったが、どうやらこの Grub とやらはローカルにファイルを落としてくれるようなものではないようだ。みんなで協力して URL を集めましょうというようなもので、SETI@HOME などのソフトと似

  • 東京工業大学 奥村・船越研究室 Okumura-Takamura-Funakoshi Lab

    語/English 奥村・船越研究室では,ことばを計算機で処理する技術(自然言語処理)に関する研究と,その技術を用いた応用システムの開発を行なっています. ことばの理解というテーマでは,難しいとされる,意味,文脈理解に関する研究を中心に行なっています.それと同時に,世の中で役に立つシステムの開発も行なっています.具体的には,テキスト要約,人々の意見,感情を分析する評判分析,ソーシャルメディアを対象としたテキストマイニング,人とテキストや音声でやりとりする対話システムなどに関するシステムを開発しています. 研究室に関心を持ってくださっている方々は,inquiryよりお問い合わせください. zoomなどを使ったオンラインの説明会を御用意します. 4/1(月)午後1時より研究室見学会を行います.ご関心がおありの方は遊びにいらしてください. 主な研究テーマ | 研究室に加わりたい皆さんへ |

  • 1