wackeyのブックマーク / 2010年10月26日

wackey id:wackey

2010年10月26日のブックマーク (3件)

PHPでWEBページのタイトルを抜き出すサンプル | Creazy!
いきなりPHPなネタですが。マッシュアップ系のサービスを作っていると、指定されたURLのページタイトルを取得したい時が頻繁にあります。そんな時、いわゆるスクレイピングしてタイトルを抜き出すんですが、近頃たくさんでまわっているスクレイピングツールやら、ライブラリやら使わなくてもページタイトルくらいは抜き出せるんで、簡単なサンプルを書いてみる。 <?php /** * ページタイトルを取得する関数 */ function getPageTitle( $url ) { $html = file_get_contents($url); //(1) $html = mb_convert_encoding($html, mb_internal_encoding(), "auto" ); //(2) if ( preg_match( "/<title>(.*?)<\/title>/i", $html,
wackey 2010/10/26
HTML

スクレイピング
リンク
PHPで外部HTMLから指定した文字列(タグ)だけを取り出してみる。
があり、その中の<a href="link">文字列</a>だけを抜き出したかったのですが、如何せん正規表現が調べても調べてもイマイチよくわからなくて、 preg_match('/<h2 class=\"leadContentT itle\">(.*)<\/h2>/i',$line, $match);とか preg_match_all関数とか,ereg関数とか色々やってみたんですが、 5時間くらい悩んだあげく、自分の望んでいるものが取得できなかった。そこで、一度DOMにしたら、もしかしていけるんじゃないかと思い、調べていたら、 PHP Simple HTML DOM Parser という優れものがありました！！上記のサイトからsimplehtmldomのソースをダウンロードしてきてフォルダ内のsimple_html_dom.phpをサーバーにいれます。んで、phpで //sim
wackey 2010/10/26
HTML

スクレイピング
リンク
Spidering Hacks
毎日欠かさずチェックしているウェブページがありますか？ウェブ上のデータを二次利用したくありませんか？ウェブサービスを駆使してみたくないですか？そう思ったことがあるのなら、この本を読むべきです。本書は、ウェブを横断して情報を自動収集するプログラム、スパイダを自由自在に操り、目的の情報を取り出す方法を詳しく解説しています。また、各Hackを積極的に日本語化し、訳書版独自のHackや日本語処理の注意点（付録）を収録するなど、至れり尽くせりの内容です。スパイダ通のテクニックが満載！関連ファイルサンプルコード正誤表ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書籍を印刷した月です。お手持ちの書籍では、すでに修正が施されている場合がありますので、書籍最終ページの奥付でお手持ちの書籍の刷版、刷り年月日をご確認の
wackey 2010/10/26
HTML
リンク
- 2010年10月28日
- 2010年10月26日
- 2010年10月25日