タグ

ブックマーク / leoclock.blogspot.com (5)

  • 正規表現に見切りをつけるとき

    Perl, Rubyなど手軽に使えるプログラミング言語に慣れてくると、あらゆるテキストデータの処理に正規表現(regular expression)を使ってしまいがちです。 けれど実は、正規表現の処理能力を超えるフォーマットというのが存在します。その典型的な例が、XMLやJSONのように、入れ子になったデータフォーマットです。

    goinger
    goinger 2009/03/13
  • Leo's Chronicle: ぜひ押さえておきたいデータベースの教科書

    先日のエントリで少し話したのですが、僕が在学していたときの東大にはデータベースを学ぶためのコースというものがありませんでした(DB関係の授業は年に1つか2つある程度。現在はどうなんだろう?)。そんなときに役だったのは、やはり教科書。読みやすいものから順に紹介していきます。(とはいってもすべて英語です。あしからず) 一番のお薦めは、Raghu Ramakrishnan先生 (現在は、Yahoo! Research) の「Database Management Systems (3rd Edition)」。初学者から研究者まで幅広く使えます。データベース管理システム(DBMS)の基概念から、問い合わせ最適化、トランザクション管理など、これらを実装・評価するために必要な、「DBの世界での常識」が、丁寧な語り口でふんだんに盛り込まれています。この1冊を読んでおけば、DBの世界で議論するための

  • 論文を書く前に知ってほしい「言葉」の大切さ

    以前のエントリ「知性が失われてはじめて言語が「亡びる」」では敢えて「知性」とは何かを定義しないで話をしています。「丁寧な文体」が「知性」と同一だとは言っておりませんので、あしからず。それゆえ、リンク先での「知性」とは何かという議論に反論する理由はなくて、実際、そのとおりだと思います。 少なくとも、僕ら研究者は「知性」を育て「知性」を見出す仕事をしています。つまりは現場の人間です。言葉がつたなくても、対話的にその人の持っている可能性などの「知性」を見出すのが大学という場であり教師の仕事なら、「知性」を持っていることを自らが外に伝えるのが論文です。論文の場合、表現やプレゼンテーションなど、「知性」を伝える力も含めて「知性」と考えます。 もちろん、中身がからっぽでいいかげんなら、きれいな文章でいくら取り繕ってもだめです。 論文を書くということは、自分の知性を他に認めてもらう行為です。but, b

  • これから研究をはじめる人へのアドバイス

    研究の世界 上の文章はもちろんネタですが、研究を続けていくと当にここに書かれたような、トップジャーナルに通ってなければ…、という世界が待っています。実際、僕自身もいつもこのような心づもりで研究しています。ただ、ひとつ気になったのは、自分自身の経験や、周りの様子を見る限り、Cell, Nature, Science (CNSと俗に言われます)などは、自分一人の実力だけで採録されるわけではありません。この人がいなかったらここまでの成果は出なかった、という貢献は確実にあるけれど、大抵は多くの人の長年の努力の積み重ねの結果acceptされています。 研究のインパクトの大きさ だから結果として、団体で金メダル!くらいには誇れますが、これを個人の功績と考えるのはあまりに決まりが悪いものです。僕が情報と生物の融合分野にいながら、情報系でかつ腕一でできる研究も続けているのは、この決まりの悪さを避けたい

  • [Research] MonetDB/XQuery

    ここ2日で論文をたくさん読みました。 今年に入ってから37PDFをダウンロードしたようです。さすがに全部は読みこなせないですが、一応目を通して、知りたいことがあれば深く読んで。。と。現代人だからこそできる手法。昔の人はどう研究してたんだろう。不思議で仕方がないです。 内容は、Compressed Index, Data Modeling, MonetDB/XQueryに関して。圧縮索引は、うまくブロック化すれば結構XMLに使えるんじゃないかと思うのです。去年の最新の結果だと、括弧木やその変形構造上でのrank/select操作で、木の探索とか、簡単なpathの探索をやってしまおうというもので、コンパクトで検索も速いし十分実用的。ただ、XMLのデータを表現するときに、0/1で表現された括弧以外の情報(タグ名とか、node id, pre, post order, levelなど)もディスク

  • 1