お探しのページは移動、削除もしくはURLの入力間違いの可能性があります。 まぐまぐ!トップページの検索機能でもう一度お探しください。
お探しのページは移動、削除もしくはURLの入力間違いの可能性があります。 まぐまぐ!トップページの検索機能でもう一度お探しください。
マッシュアップで欠かせない技術の一つにスクレイピングが挙げられる。 WebAPIが提供されていないサイトに対して、HTMLから直接情報を取り出す技術だ。 これには大きく分けて2つの方法がある。 HTMLをテキストとみなし、正規表現で処理する方法と、 HTMLをXHTMLに変換し、そのDOMに対してXPathで処理する方法だ。 こういう分野に強いのはPHPやPerlなどの軽量スクリプト言語だろう。 しかしC#使いだってスクレイピングやってみたい。 というわけで、 http://d.hatena.ne.jp/todesking/20061027/1161879777を参考にやってみた。 ちなみにここでやってるのは上記2つの方法のうちの後者。 ・・・うまくいかない。 つかTidyマンドクセー! HTMLをXHTMLに変換したいだけなのに、オプションがありすぎて意味不明です。 もっと手軽なコンバー
C#でスクレイピング - DENKENを参考にやってみた。 元ネタはGoogleが吐いたHTMLを処理してたので(比較的キレイなHTMLなんだろう)、HTMLtoXHTMLは無事にXHTMLに変換できていたが、とある有名なブログのページを変換しようとしたら、XHTMLの宣言部が下記のように見事に壊れて、XDocument.Parse(xhtml)でXmlExceptionで落ちる。 <?xml version="1.0" encoding="Shift_JIS"="=" ?> <!DOCTYPE html="html" PUBLIC="PUBLIC" -="-" xmlns="http://www.w3.org/1999/xhtml" /> <html xmlns="http://www.w3.org/1999/xhtml" xml:lang="ja" lang="ja" xmlns:xm
2009/12/23 追記 最下段に参考文献として、ここで紹介した以外の方法へのリンクが有ります。 C#でHTMLを読み込んで、HTMLから有益な情報を取り出したいときってありますよね。 でも正規表現とかで抜き出すのってカッコ悪い、と思います。 そこで、「InfoPath SDKについてるHTMLtoXHTMLというCOMコンポーネント」を使ってXPath式で情報を取得します。 インストール方法は↓のURLを参照してください。 C#でスクレイピング - DENKEN 以下に実際に動くソースコードを貼っておきます。LINQとか使わない.Net Framework 2.0対応です。 using System.Xml; using HTML2XHTMLLib; namespace hogehoge { public class Hoge { /// <summary>コンストラクタ</summa
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く