tyamamotoのブックマーク / 2015年5月20日

tyamamoto id:tyamamoto

2015年5月20日のブックマーク (3件)

簡単にhtmlファイルの取得解析を行う方法 (.net)
tyamamoto 2015/05/20
.net

c#

スクレイピング
リンク
neue cc - C#でスクレイピング:HTMLパース(Linq to Html)のためのSGMLReader利用法
Linq to XmlがあるならLinq to Htmlもあればいいのに！と思った皆様こんばんは。まあ、DOMでしょ？ツリーでしょ？XHTMLならそのままXDocument.Loadで行けるよね？XDocument.Parseで行けるよね？ええ、ええ、行けますとも。XHTMLなら、ね、ValidなXHTMLならね。世の中のXHTML詐称の99.99%がそのまま解析出来るわけがなく普通に落ちてくれるので、XDocumentにそのまま流しこむことは出来ないわけです(もちろん、うちのサイトも詐称ですよ！ていうかこのサイトのHTMLは酷すぎるのでそのうち何とかしたい……)。そこでHtmlを整形してXmlに変換するツールの出番なわけですが、まず名前が上がるのがTidy、の.NET移植であるTidy.NETで、これは論外。とにかく面倒くさい上に、パースしきれてなくてXDocumentに流すと平然と
tyamamoto 2015/05/20
.net

c#

スクレイピング
リンク
Html Agility Packを使ってWebページをスクレイピングするには？［C#、VB］
Webページの内容をどのようにして解析すればよいだろうか？例えば、記事の一覧が掲載されているWebページの内容を取得してきて、そこから記事のタイトルとURLだけを全て取り出したいといった場合だ。正規表現（System.Text.RegularExpressions名前空間のRegexクラス）を使えば可能ではあるが、かなり面倒である。WebページがXHTMLで記述されているならXDocumentクラス（System.Xml.Linq名前空間）で楽に解析できるはずなのだが、しかし現実のWebページにはXHTMLであると宣言してあってもXMLとしては不完全な記述のものが少なくない（＝XDocumentクラスで解析できない）。そこで本稿では、オープンソースのライブラリ「Html Agility Pack」を使ってWebページを解析する方法を解説する。事前準備本稿では、文字コードがシフトJIS
tyamamoto 2015/05/20
.net

c#

スクレイピング
リンク
- 2015年5月21日
- 2015年5月20日
- 2015年5月19日