タグ

2010年10月26日のブックマーク (3件)

  • PHPでWEBページのタイトルを抜き出すサンプル | Creazy!

    いきなりPHPなネタですが。 マッシュアップ系のサービスを作っていると、指定されたURLのページタイトルを取得したい時が頻繁にあります。そんな時、いわゆるスクレイピングしてタイトルを抜き出すんですが、近頃たくさんでまわっているスクレイピングツールやら、ライブラリやら使わなくてもページタイトルくらいは抜き出せるんで、簡単なサンプルを書いてみる。 <?php /** * ページタイトルを取得する関数 */ function getPageTitle( $url ) { $html = file_get_contents($url); //(1) $html = mb_convert_encoding($html, mb_internal_encoding(), "auto" ); //(2) if ( preg_match( "/<title>(.*?)<\/title>/i", $html,

    PHPでWEBページのタイトルを抜き出すサンプル | Creazy!
  • PHPで外部HTMLから指定した文字列(タグ)だけを取り出してみる。

    があり、その中の<a href="link">文字列</a>だけを抜き出したかったのですが、 如何せん正規表現が調べても調べてもイマイチよくわからなくて、 preg_match('/<h2 class=\"leadContentTitle\">(.*)<\/h2>/i',$line, $match);とか preg_match_all関数とか,ereg関数とか色々やってみたんですが、 5時間くらい悩んだあげく、自分の望んでいるものが取得できなかった。 そこで、一度DOMにしたら、もしかしていけるんじゃないかと思い、 調べていたら、 PHP Simple HTML DOM Parser という優れものがありました!! 上記のサイトからsimplehtmldomのソースをダウンロードしてきて フォルダ内のsimple_html_dom.phpをサーバーにいれます。 んで、phpで //sim

  • Spidering Hacks

    毎日欠かさずチェックしているウェブページがありますか?ウェブ上のデータを二次利用したくありませんか?ウェブサービスを駆使してみたくないですか?そう思ったことがあるのなら、このを読むべきです。書は、ウェブを横断して情報を自動収集するプログラム、スパイダを自由自在に操り、目的の情報を取り出す方法を詳しく解説しています。また、各Hackを積極的に日語化し、訳書版独自のHackや日語処理の注意点(付録)を収録するなど、至れり尽くせりの内容です。スパイダ通のテクニックが満載! 関連ファイル サンプルコード 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書籍を印刷した月です。お手持ちの書籍では、すでに修正が施されている場合がありますので、書籍最終ページの奥付でお手持ちの書籍の刷版、刷り年月日をご確認の

    Spidering Hacks
    wackey
    wackey 2010/10/26