C#でスクレイピング - DENKENを参考にやってみた。 元ネタはGoogleが吐いたHTMLを処理してたので(比較的キレイなHTMLなんだろう)、HTMLtoXHTMLは無事にXHTMLに変換できていたが、とある有名なブログのページを変換しようとしたら、XHTMLの宣言部が下記のように見事に壊れて、XDocument.Parse(xhtml)でXmlExceptionで落ちる。 <?xml version="1.0" encoding="Shift_JIS"="=" ?> <!DOCTYPE html="html" PUBLIC="PUBLIC" -="-" xmlns="http://www.w3.org/1999/xhtml" /> <html xmlns="http://www.w3.org/1999/xhtml" xml:lang="ja" lang="ja" xmlns:xm