タグ

2012年3月4日のブックマーク (3件)

  • リニューアルを効率化するスクレイピング処理をPHPで実行する方法【URL変更】

    大規模webサイトをリニューアルする際に、コンテンツは書き換えず新テンプレートに当てはめたいという場合があります。 この作業を手動でやるとかなり時間を取られてしまう上、ミスも考えられます。そういったとき、一括して処理する方法として「スクレイピング」という手法があります。 今回はその方法についてまとめて見ました。 スクレイピングとは とりあえず用語の定義は以下のようになっています。 スクレイピング 英語で"scrape"とは「削ること」。 特に、ウェブサイトのデータを必要な部分だけ抽出して利用すること。 "ウェブサイトのデータを必要な部分だけ抽出して利用"がまさにそれです。 例えばbodyタグの中、id="contents"、aタグのhref属性の中身のみなどいろいろな使い方ができます。 準備するもの 準備するものは以下の3つです。 ・CUI上でのphp環境 ・Simple HTM

  • PHP 携帯サイトなんかで便利再帰的に日本語変換関数 mb_convert_variables

    ソースやDBUTF-8でSJISサイトを構築する場合、リクエストされたパラーメータ値がSJISとなる。 この時$_POSTの値の文字コードを変換するんだけど、再帰的に対応する必要がある。 そこで自分で再帰的にやってもいいんだけど、そんな事しなくても関数があたった。。。 知らなかった。。。w ズバリその関数はこれ mb_convert_variables この関数返値に変換された配列等が返ってくるのかと思ったら違う。。。 ハマったので、下記にサンプルを。。。 ×誤: $_POST = mb_convert_variables('UTF-8', 'SJIS-win', $_POST); var_dump($_POST); ○正: mb_convert_variables('UTF-8', 'SJIS-win', $_POST); var_dump($_POST);

    snaflot
    snaflot 2012/03/04
  • 文字コードの解析、変換(エンコード、デコード) / SEO、セキュリティ、調査ツール

    文字コードの変換や解析を行います。 文字化けを起こしたメッセージを読みたいときなどに効果があります。 文字種によってはHTMLで表記できない場合や、このページソースで取得しないといけない場合など、正しく変換できない場合があります。 デコードの場合、変換前文字種を指定し、変換後文字種は通常「sjis」を指定する。 エンコードの場合、変換前文字種「なし」で変換後文字種を指定する。 正しく変換されない場合のみ、変換前文字種を変更する。 デコードの場合、最大入力文字数は 1000 字です。 ただしエンコードの場合の最大入力文字数は 80 字です。 よく使われる文字コードの特徴を説明しておきます。 【デコード時の設定方法】 jisコード→「�$B$"$$$&$($*�(B」 →変換前文字種:「jis」 →変換後文字種:「sjis」 eucコード→「、「、、、ヲ、ィ、ェ」 →変換前文字種:「euc-j