タグ

Perlとitmediaに関するtamaotのブックマーク (3)

  • XML解析の深淵――XML::Simpleの上をゆけ!

    ある特定の状況ではXML::Simpleは機能しない。稿では、ツリー解析とイベント駆動型解析という、Perlを使った2つの高度なXML解析方法を紹介する。 シリーズの第1回で「多くのケースで必要なすべてのものが揃う魔法のツール」として紹介されたXML::Simple(関連記事参照)。別記事においてはてなの伊藤直也氏もお勧めしているように、PerlアプリケーションでXMLツールと言えば、XML::Simpleを挙げることに異論がある方はそう多くないだろう。 万能に見えるXML::Simpleだが、場合によっては意図したように動作しないケースも存在する。例えば、メモリ内に作成されたXML文書表現からの複雑な方法での検索や、XML文書がメモリ内に収まらなかった場合、XML文書の長さが不明なストリームの場合などだ。稿では、そのようなケースでのXML解析方法として、ツリー解析とイベント駆動型パ

    XML解析の深淵――XML::Simpleの上をゆけ!
  • ITmedia エンタープライズ:第1回 何はなくともCPANを知ろう (1/2)

    最近のWebかいわいでは、Webアプリケーション同士が連携してどんどん面白いサービスが生まれています。しかし、Web上のサービスは手元にソフトウェアも何も残らないので、どうしても雲をつかむような分かりにくさがあります。そこで連載では、Webサービスを実際に利用/作成しながら、そういった「今どき」のテクノロジーを学んでみたいと思います。 今どきのWebプログラミング、教えます この連載では今どきのWebプログラミングを解説していきます。Webプログラミングというと一見難しそうに思えますが、ライブラリが豊富な最近のスクリプト言語を使えば、かなり簡単に高機能なWebサービスが実現できます。稿では、特にライブラリが充実しているPerlを使うので、各種Webサービスの開発も「実は結構手軽で簡単なもんだ」と理解していただけるかと思います。 今回から数回はその足がかりとして、Perlのライブラリ群C

    ITmedia エンタープライズ:第1回 何はなくともCPANを知ろう (1/2)
  • 2008年、Webは文字列解析で変わっていく

    前回は、Perlモジュールである「Web::Scraper」を使ったスクレイピングについて説明した。Webページ(HTML)は、「構造」と「デザイン」面で比較的分離が進んできたため、CSSセレクタによるスクレイピングが有効であることが分かったはずだ。 今回の最終回では、コンテンツの自動収集と統計手法について考えてみよう。 記事内で扱っていくのは、幾つかのコンテンツをたどって、「利用頻度の高い語句を集め、話題となっているキーワードを見つけよう」というものだ。 話題のキーワードを集める手法 近年ブログのポータル上などでは、話題となっているキーワードを「利用頻度に応じたフォントサイズ」で示し、クリックすると該当の記事一覧が表示されるという仕組みが実装されているものが多い。 オルタナティブ・ブログにも似たようなものとして「話題のキーワード」が見られる。キーワードをクリックすると、Googleによる

    2008年、Webは文字列解析で変わっていく
    tamaot
    tamaot 2007/12/29
    [Web::Scraper][スクレイピング][タグクラウド]
  • 1