タグ

programmingに関するSriVidyutのブックマーク (172)

  • HTMLをスクレイピングして解析(パース)する - まるさんかくしかく Tech学習と入門ログ

    Twitter Facebook B! Bookmark LINE Pocket Feedly HTMLスクレイピング(scraping)してあれこれとするとき、僕はずっと正規表現に頼っていたのですが、 ページの構造が変化するとすぐに使えなくなってしまうし、時間がかかる割りに退屈な作業なので何とかならないかなと思っていました。 PHPで探していたのですが、XML(とかRSS)をパースする関数やライブラリは、良く目にするものの、HTMLを処理できるものはなかなか見つかりませんでした。 以下は、PHP(とかRubyPerl)でHTMLスクレイピングしたりパースするための方法。 PHPスクレイピング&パース HTMLを整形式のXML文書に修正するPHPクラス HTMLを、整形式のXMLに変換してくれるライブラリ。PEARのXML_HTMLSax3が同梱されているので、これだけでちゃんと動

    HTMLをスクレイピングして解析(パース)する - まるさんかくしかく Tech学習と入門ログ
  • phpによるスクレイピング処理入門:6. 例1.はてなフォトライフ

    前章まででスクレイピングについての殆ど一通りの内容を理解できたかと思います。あまり難しくないと思いますのですんなり入っていけると思います。 このあとは、いろいろ自分で好きにやってもらえばよいのですが、どういう勉強でも、例題を幾つかこなしていくことが大事だと思うので、ここからは、スクレイピング処理に関する幾つかのサンプルを用意して解説を進めていくことにしてみます。 何れにしろ、基は前章までで学んだ事柄の応用です。いくつも作っていくうちに自分自身のプログラミングパターンを見つけることができると思います。 今回は「はてなフォトライフの画像を動的にスクレイピング処理」について解説していきます。 はてなフォトライフ はユーザがサーバに画像をアップロードし、それをみんなで見たりすることができる写真共有サイトです。なので、画像がいくつも表示されます。 今回は画像情報をハンドリングする方法を中心に進めて

  • phpによるスクレイピング処理入門:5. TIDY関数について

    前章まででHTMLファイルの取得ができました。この章ではいよいよ、実際のスクレイピング処理のプログラムを作り始めます なお、スクレイピング処理は、「ある規則性を持ったHTMLファイルを、その規則性を解析し、必要な部分を抜き出すプログラミングを作成し、実行すること」です。規則性はサイトごとに違うので、自分の取得したいサイトに合わせたプログラミングが必要です。 このサイトでは、幾つかの例を実際に試してみることにより、自分で自分の取得したいサイトのスクレイピング処理ができることを目的としています。サイトが違えば、当然規則性も違いますので、取得したいサイトにあわせてプログラムを工夫する必要があります。 今回のターゲットは「はてなブックマークのトップページの最近の人気エントリー」の情報を取得することにします。はてなブックマークのトップページの情報を取得するプログラムは前の章で書きましたので、このha

  • HTML Tidy Configuration Options Quick Reference

    HTML Tidy Legacy Website Welcome to the HTML Tidy Legacy Website! For the current, goto HTML Tidy at http://www.html-tidy.org, or the github source repository, and later quick references and API documentation at https://api.html-tidy.org/. This old 2008 quickref.html is kept for historic reasons only, and does not contain the current up-to-date information.

  • あのサイトがどの技術で作られているのかがわかる『BuiltWith』 | 100SHIKI

    あのサイトがどの技術で作られているのかがわかる『BuiltWith』 August 14th, 2007 Posted in 未分類 Write comment エンジニアにとって、これはなかなか素敵なサイトではないだろうか。 あのサイトってどんな技術で作られているのだろう?という疑問に答えてくれるのがBuiltWithだ。 試しにTechcrunchを調べてみると、アクセス解析にはGoogle AnalyticsとMyBlogLog、ブログにはWordpress、広告にはFederated Media、言語はPHPとFlash、文字コードはUTF-8、サーバーのOSはDebian、といったことを教えてくれる。 またそれぞれの技術が他のサイトでどれぐらい使われているかも教えてくれる。例えばGoogle Analyticsはこのサイトに登録されているサイトのうち、42.89%のサイトが使って

    あのサイトがどの技術で作られているのかがわかる『BuiltWith』 | 100SHIKI
  • masuidrive on rails » Blog Archive » PHPユーザの為のRuby/Rails入門

    [追記] if構文の変数スコープの説明に間違えがあります。新しいスコープは作られません。 お盆のまっただ中8/11(土)に、社内勉強会を開いて、PHPユーザ向けにRuby/Rails入門をやりました。 じつはお盆の土曜日に4時間も勉強会って事で、そんなに人も集まらないだろうと思っていたのですが、ふたを開けてみたら28名も参加があり、びっくりしました。それだけ興味を持ってもらったのは嬉しいけど、これだけ集まるなら資料はちゃんと作らないと・・・・。ということで、作った資料を公開します。なんとRuby編100ページオーバー、Rails編200ページオーバーと、かなり大作です。 RubyKaigiで、発表者のスライドの横でIRCが表示されていたのが面白かったので、勉強会の参加者には、Lingrのチャットルームに全員入ってもらって、質問やパートごとの「終わった!」という書き込みをしてもらいました。今

    masuidrive on rails » Blog Archive » PHPユーザの為のRuby/Rails入門
  • extbody -- Blog&News本文領域抽出ツール

    ダウンロード等 extbody-0.1.1.tar.gz(右クリックで保存) ライセンスは、Apacheライセンスv2.0なので自己責任でご利用ください。 (上記ファイルはMercurialリポジトリのcloneにもなっています。) 動作に必要な環境 Python2.5 feedparser chardet また、内部でppkfを使用しております。(extbodyに内蔵しております。) インストール feedparserと、chardetをインストールしておきます。 以上が準備できれば、extbodyも以下のコマンドでインストールできます。 % python setup.py install 使用法 ayu@~% python Python 2.5.1 (r251:54863, Jun 17 2007, 08:50:55) [GCC 4.0.1 (Apple Computer,

  • 記録: extbody -- PythonによるBlog&News本文領域抽出ツール

    Pythonで、BlogやニュースのWEBページから、文領域のHTMLを抽出するツール extbody -- Blog&News文領域抽出ツール を作りましたので公開します。 いつものごとくα版です。(そろそろいいかげんに、ひとつひとつきっちりと作ったほうがいいよね。) 以前から、他のアプリの一部として使っていたものを分離してモジュールにまとめたものです。 * 正解率8割程度。(2ch抜粋系blogにはめっぽう弱いです。) * 日英対応。 です。 中身は試行錯誤が複雑にからまった呪文のようなソースになっておりますことをご了承ください。 最初はPython標準のHTMLパーサーや、有名なBeautifulSoupを使ってましたが、時折解析できないHTMLがありましたので、結局自筆の正規表現で解析しています。 おおざっぱにtableタグとdivタグぐらいの対応が少なくとも合っているソースで

  • ブログの本文抽出にチャレンジ - Ceekz Logs (Move to y.ceek.jp)

    zuzara.com を読んでいると、ブログの文抽出にチャレンジしているのを見つけました。 tdかdivで囲まれた文字列で、文章と比べてHTMLのタグがあまり多くないもののうち、一番文字数が多いのが文だろう、というアルゴリズム。 PHP で書かれたコードを Perl に移植しながら、もっと効率的なアルゴリズムが無いかを考えていました。 まずは、『タグの数』ではなく、比率をで判定するように改良(?)しました。 スコア = タグ除去後(length) / タグ除去前(length) タグが含まれていないときが最大値になるので、スコアは 1 が最大となります。タグの数よりもこっちの方が良さそうだったのだけど、コメント部分を抽出してしまう可能性が非常に高い。だめぽ。 牛乳を飲みつつ考えていると(カルシウムを摂取して身長を伸ばす)、ひらめきましたよ!要は、長い文章を取り出せればいいのだから、句読

  • PHPで日本語メールを送る – 応用編 (添付ファイル、HTMLメール) - EC studio 技術ブログ

    PHPで日語メールを送る - 基編に引き続き、 今回は応用編をお送りします。 基編で解説したmb_send_mailを使えば シンプルなメールを送るには十分な機能がありますが、 それ以上に複雑なこと、例えばHTMLメールや添付ファイルを 使ったメールにはmb_send_mailは使えません。 mail関数を使ってヘッダにガリガリとメールの仕様に そって書けば送れるのですが、それではあまりに 大変なので、ライブラリを使います。 ライブラリを使った日語メール送信 PHPで複雑なメールを送るのに使えるスタンダードな ライブラリとしては、PEAR::MailとPHPMailerが有名です。 (ただし、両ライブラリとも日語メールには対応していないので、 そのままでは文字化けしてしまいます) PEAR::MailはPHPの公式ライブラリのPEARで採用されていますし、 PHPMailerもX

  • MOONGIFT: � VBScriptを実行ファイルに「Vbs To Exe」:オープンソースを毎日紹介

    VBScriptは意外(失礼!)にも優秀で、DB接続やHTTP接続もでき、かなり色々なことができる。とは言え、拡張子がvbsとなっているため、どうもライトなものしか出来ないというイメージがあった。 VBScriptを活用するために、こうしたソフトウェアを使ってみるのはどうだろう。 今回紹介するフリーウェアはVbs To Exe、VBScriptを実行ファイルに変換するソフトウェアだ。 Vbs To Exeはコマンドプロンプトで動かすソフトウェアで、VBScriptを指定して実行すれば同名のexeファイルができあがるようになっている。非常に手軽だ。 実際はVBScriptを実行するのに必要な環境をそのまま付けた形なので、出来上がったソースから元のコードは簡単に読み取れる。そのために-pオプション(パスワード付与)があるようなのだが、これをつけて実行すると反応が返ってこず、詳細は不明だ。 だが

    MOONGIFT: � VBScriptを実行ファイルに「Vbs To Exe」:オープンソースを毎日紹介
  • ダウンロードファイル一覧 - SimpleC++Libraries - OSDN

    誰にでも使えて、かつ利用価値の高いC++のクラスライブラリを製作していきます。また、読みやすいコードでわかりやすいようにすることも目標としています。現在VC++8に完全対応(他コンパイラは一部対応)。

    ダウンロードファイル一覧 - SimpleC++Libraries - OSDN
  • LL魂(LLSpirit)に行ってきましたよ - sshi.Continual

    奇跡的に遅刻もせず参加。これまた奇跡的に途中眠りこけることもなく、大変楽しめました。ボランティアで支えてるスタッフさん達に感謝感謝。ああいう運営は大変だろうなあ。 忘れないうちに誤解と偏見もそのまま列挙。個人的には振幅の激しい一日だった。 あまりに長いので久し振りにおりたたみ。後で書きたしたりするかもしれません。 和田先生の話 いつもの(っていっても数回しか聞いたことないが)和田節健在。やっぱりおもしろい。 ハック魂なお題でソフトウェアじゃなくてハードウェア的なものを持ってくるのも技有り。 ダヴィンチ展は僕も見にいったけど、その時もダヴィンチが今の時代に生まれてたらハッカーになってたかもな、とは思った。 いつぞやの、計算尺シミュレータも思いだした。 Language Update Perl 、、の話はよくわからない、というか他人事としか聞こえてこない…。 Io やっぱりおもしろそうだ。Jo

    LL魂(LLSpirit)に行ってきましたよ - sshi.Continual
  • Big Sky :: 今さら聞くのは恥ずかしい「microformatsとは何か?」

    The sbox program encountered an error while processing this request. Please note the time of the error, anything you might have been doing at the time to trigger the problem, and forward the information to this site's Webmaster (webmaster@www.ac.cyberhome.ne.jp).Stat failed. /usr/local/apache2/cgi-bin/~mattn: No such file or directory sbox version 1.10 $Id: sbox.c,v 1.16 2005/12/05 14:58:01 lstein

  • codeなにがし

    世界最高峰のブックメーカーでベットしましょう。オンラインベッティングでお気に入りのスポーツをお楽しみください。

  • ウノウラボ Unoh Labs: WEBアプリテストのチェック項目リスト

    こんにちは!やまもと@テスト番長です。 TestingGeekという耳障りの良い名前のサイトをご存知でしょうか? 総合的にテストの話を取り扱っており、それでいて読みやすいサイトです。 そこのTemplatesのコーナーにWeb Application Testing Checklist という便利そうなものがありましたので、日語にしてみました。 ちょっとそのままだと物足りない感がありますが、テストポリシー作成の叩き台に使ってみるのも良さそうですね。 この手のリストを他にもご存知の方がいらっしゃれば、是非ご一報ください。 1. 機能テスト 1.1 リンク 1.1.1 記載された通りの先に遷移するか 1.1.2 どこからもリンクされないページは存在しないか 1.1.3 全ての外部リンク 1.1.4 参照しているサイトおよびメールアドレスはハイパーリンクになっているか? 1.1

  • 矢沢久雄の早わかりGoFデザインパターン 目次:ITpro

    VMware問題でIIJNTTコムなどが大幅値上げ、クラウド料金が2~3倍になる場合も 2024.06.14

    矢沢久雄の早わかりGoFデザインパターン 目次:ITpro
    SriVidyut
    SriVidyut 2007/07/31
    designpattern
  • デザインパターンの骸骨たち

    『デザインパターン』 うんちくできると、かっこよさそうだよね~。でもあんな分厚い読んでもピンとこないし、だいたいオブジェクト指向ってなに?なにが便利なのかよく分からんのだけど。いいじゃんなんでも。できればいいんだよ、できれば。 な~んて、思っていても、なんとなく オブジェクト指向が気になっている システム開発者は、多いのではないでしょうか?かくいう 私もそんな者の一人でした。 しかし、これだけ もてはやされているオブジェクト指向です。 なんか、便利なはずです。 そこで、私は、GOFのデザインパターン[1]を、できるだけシンプルに表現した、小さな小さなプログラム ~デザインパターンの骸骨たち~ を作ってみました。骸骨達 を骨の髄までしゃぶり尽くつくすせば、オブジェクト指向の真髄まで味わうことができるかも。!? 『デザインパターンの骸骨たち(RE-BONE)』 では、内容を大幅に見直し、Ja

    SriVidyut
    SriVidyut 2007/07/31
    designpattern
  • デザインパターン[モデリング] -TECHSCORE-

    オブジェクト指向プログラミングにおいてデザインパターンを利用することは、開発者に様々なメリットを与えてくれます。 ここでは、「デザインパターンとは何か」というようなデザインパターンの基事項と、GoFの23個のデザインパターンをJavaを利用してわかりやすく解説します。 デザインパターン INDEX

    SriVidyut
    SriVidyut 2007/07/31
    designpattern
  • サービス終了のお知らせ

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。