タグ

2007年4月4日のブックマーク (7件)

  • 長尾のブログ2.0: 次の3年間に向けて

    2002年4月に大学で研究室を設立して、ちょうど5年がたった。 5年間の確かな成果と言えるのは、博士号取得者をようやく一人出すことができたことぐらいだろうか。 研究に関しては、結局、満足のいく成果を出すことができなかった。 もちろん、学生が学位を取るためには研究成果を出して論文を書かなければならないのであるが、僕にとっては、学生たちがどんなに論文を書いても、実装されたものがちゃんと研究室で引き継げる形で共有可能になっていないものは、研究室の成果として認めることができない。 僕のいる研究室では、主に次の4つの研究を行ってきた。 1.コンテンツへのアノテーションの枠組みに関する主に基礎的な研究 2.特にビデオを対象としたアノテーションとその応用の研究 3.特に対面式の会議を対象とした実世界コンテンツの制作と利用の研究 4.個人用の知的な乗り物とその応用、またそれを取り巻くインフラに関する研究

  • 第6回 上手なアルゴリズムの見つけ方

    図1に示すHTML形式のテキスト・データ(以下,HTMLデータ)があります。このHTMLデータをブラウザに表示させたときに「表示される文字列」と「その文字列に対して有効なタグ名」を対応付けるアルゴリズムを考えてください。結果は配列に格納して,画面に表示させるものとします(図2)。 見わたせば,世の中はアルゴリズムだらけです。私のようなプログラマは,日常生活でも「締め切り順に仕事をソートしてごらん」「仕事のスタックがたまっているからてんてこまい」など,いま置かれている状態をアルゴリズムやデータ構造になぞらえて会話することがよくあります。前回紹介した再帰処理と言えば,落語の演目の一つ,「頭山」です。自分の頭に生えた桜の木を引っこ抜いて,その跡にできた池に自分自身が身を投げる,という不思議な話ですが,これこそ再帰処理をよく言い表していると思います。 このように世の中には,ハッシュだってスタックだ

    第6回 上手なアルゴリズムの見つけ方
  • http://piece-framework.com/yaml-editor/

  • http://scrubyt.org/

    emergent
    emergent 2007/04/04
    Webスクレイピングフレームワーク
  • 進化する“Webスクレイピング”技術の世界 ― @IT

    2007/02/20 WebサービスAPIRSSフィードを使って複数サイトのサービスや情報をマッシュアップ――。これはWeb2.0が包含するいくつかの概念のうち、最も重要なものの1つだ。Amazon.comやGoogleYahoo!楽天といった大手Webサイトは、RESTやSOAPを用いたAPIを公開しており、さまざまなサービス提供者や個人がAPIを通して各種サービスを利用している。その一方、世の中のWebサイトの大多数はWeb1.0的なHTMLCGIフォームしか提供していないのが現実だ。こうした背景からWeb1.0サイトから構造化されたデータを引っ張り出す“Webスクレイピング技術が急速に発展してきているようだ。 HTMLをXML化し、XPathで関連データだけを抽出 例えば価格情報サイトでは製品名から価格が簡単に調べられるが、Webサーバから提供されるのは、製品名や価格にレ

    emergent
    emergent 2007/04/04
    Webの世界全体がそうした“フレンドリーな世界”になるのは、楽観的に見てもWeb88.0になるころではないか
  • RubyGems の使い方 - WebOS Goodies

    WebOS Goodies へようこそ! WebOS はインターネットの未来形。あらゆる Web サイトが繋がり、共有し、協力して創り上げる、ひとつの巨大な情報システムです。そこでは、あらゆる情報がネットワーク上に蓄積され、我々はいつでも、どこからでも、多彩なデバイスを使ってそれらにアクセスできます。 WebOS Goodies は、さまざまな情報提供やツール開発を通して、そんな世界の実現に少しでも貢献するべく活動していきます。 日は Ruby の標準パッケージ管理システムである RubyGems のご紹介です。最近ではほとんどの Ruby 用ライブラリが RubyGems を当然のように採用していて、ドキュメントにも RubyGems によるインストール方法しか掲載されないようになってきました。私はこれまで当に必要最低限の知識だけでやり過ごしてきたのですが、だんだんと不都合もでてきた

  • ほとんどの「論理マークアップ」はクローラにとってはクソの役にも立たない : ひろ式めもちょう

    Japan.internet.com Webビジネス - SEO のキホン―なぜ論理構造が必要なのか http://japan.internet.com/busnews/20070402/6.html てなことをあやしげSEO系マーケターが書いてるわけだが。 こういう神話が一人歩きしている状態がイヤだ。いくぶん極論ではあるが、これが「間違っている」ということをネット辺境のきわみであるこのページに、せめてメモっておこう。 ほとんどの場合、クローラにとってHTMLごときの論理マークアップなんてクソの役にも立たない! …だって作ってる人が最初にタグを削除してるって言ってんだから、役に立つわけないじゃん。 フィードリーダや特殊なスパイダーでもない限り、細かい論理マークアップを見たりなんかしないよ。フィードリーダは埋め込まれているフィード情報をチェックするからしかたない。特殊なスパイダーというのは

    ほとんどの「論理マークアップ」はクローラにとってはクソの役にも立たない : ひろ式めもちょう