タグ

2010年8月24日のブックマーク (3件)

  • [PHP]file_get_contents で UserAgent を指定 | ぷにじぃの備忘録

    PHPのfile_get_contents()関数をそのまま使用すると、 『PHP/x.x.x』という素直なユーザエージェントが相手に通知されます。 それが気になる時もあって良いじゃないですか。 ということで、ユーザエージェントを変更できるようにしてみた。 (ついでにリファラーも。。。) stream_context_create()がポイントになるのだけど、考えてみたらPOST版もさっくり出来そうな気が・・・。 それはさておき、今回はGET版でのテンプレートです。 function _file_get_contents( $url , $referer = "" , $useragent = "Mozilla/5.0 (Windows; U; Windows NT 5.1; ja; rv:1.9.1.7) Gecko/20091221 Firefox/3.5.7" ){ # Us

    red_snow
    red_snow 2010/08/24
  • 1-byte.jp - PHPでテキストの類似度を求める

    テキストを扱うサービスでは表現の揺れが問題になることが多いですね。 Web上にあるテキストコンテンツは全て人間が入力したものと言っても過言ではありません。 人間が入力する、ということは必ず表現の揺れが発生します。 単純な入力ミスや、複数存在する表現などによるものです。 お知らせメールでもこの例に漏れず、表現の揺れが問題になりました。 ユーザが登録したアーティストや著者に関する情報は、漏れなくユーザに届ける必要があります。 届かなければサイトの信頼に関わりますからね。 内部の処理として文字列の類似度を計算している部分があります。 類似度をプログラムで計算し、登録したアーティストや著者に関連する情報か否か、をフィルタリングしています。 ここで言う文字列の類似度とは、”田中太郎”と”田中次郎”の文字列としての近さを言います。 “田中太郎”と”田中次郎”では”太”と”次”が違うだけなの

    red_snow
    red_snow 2010/08/24
  • http://www.machu.jp/posts/20090307/p01/

    http://www.machu.jp/posts/20090307/p01/
    red_snow
    red_snow 2010/08/24
    そのうち試そう