タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

スクレイピングとpowershellに関するmyfirmのブックマーク (2)

  • HttpClientクラスでWebページを取得するには?[C#、VB]

    HttpClientクラスでWebページの内容を文字列として取得する端的なコード例(上:C#、下:VB) 端的にはこの1行だけで、Webページの内容を文字列として取得できる。 HttpClientクラスを利用する前に、プロジェクトの参照設定にSystem.Net.Httpアセンブリを追加し、ソースコードの先頭でSystem.Net.Http名前空間をインポートしておく。 HttpClientクラスのGetStringAsyncメソッドは非同期に実行されるメソッドであり、この例のようにawait(C#)/Await(VB)キーワードが必要だ。また、このコードを含むメソッドのシグネチャにはasync/Asyncキーワードを付ける必要がある*1。これまでのWebClientクラスなどを使った実装では、UIをフリーズさせないために非同期処理を書くのは少々面倒だった。非同期対応したことも、HttpC

    HttpClientクラスでWebページを取得するには?[C#、VB]
  • neue cc - C#でスクレイピング:HTMLパース(Linq to Html)のためのSGMLReader利用法

    Linq to XmlがあるならLinq to Htmlもあればいいのに!と思った皆様こんばんは。まあ、DOMでしょ?ツリーでしょ?XHTMLならそのままXDocument.Loadで行けるよね?XDocument.Parseで行けるよね? ええ、ええ、行けますとも。XHTMLなら、ね、ValidなXHTMLならね。世の中のXHTML詐称の99.99%がそのまま解析出来るわけがなく普通に落ちてくれるので、XDocumentにそのまま流しこむことは出来ないわけです(もちろん、うちのサイトも詐称ですよ!ていうかこのサイトのHTMLは酷すぎるのでそのうち何とかしたい……)。 そこでHtmlを整形してXmlに変換するツールの出番なわけですが、まず名前が上がるのがTidy、の.NET移植であるTidy.NETで、これは論外。とにかく面倒くさい上に、パースしきれてなくてXDocumentに流すと平然と

  • 1