タグ

SeleniumとAngleSharpに関するled-centipedeのブックマーク (3)

  • 非同期処理(C# によるプログラミング入門)

    概要 注意: 2010年10月時点での CTP (community technology preview)版を元にした記事になっています。 製品版までに変更の可能性があります。 (async や await というキーワードも変更される可能性あり。) Ver. 5.0 スレッドを使った非同期処理を行いたい動機としては、以下の2つが挙げられます。 非ブロッキング処理: I/O 待ちとかで UI スレッドをフリーズさせないようにする 並列処理: マルチコアを活かした並列処理でパフォーマンス向上 このうち、並列処理に関しては、Parallel クラスや Parallel LINQ で簡単に対応可能 (ラムダ式や LINQ を使えば、並列じゃない場合とほとんど変わらず書けます。 参考: 「[雑記] スレッド プールとタスク」)。 一方の、非ブロッキング処理は、今までは結構面倒だったものの、 as

    非同期処理(C# によるプログラミング入門)
  • AngleSharpでスクレイピングする - Qiita

    はじめに Web関連のお仕事中ですが、なぜかC#を使うことになりネットで検索しながら対応しました。 ですが、案外と古い情報ばかりで答えに到達できずに少し苦労しましたので、最新の情報に更新したいと思います。 目的 C#で特定のWebサイトをスクレイピングして、サイト内のURLを取得し、そのリンク先にあるzipファイルをダウンロード。。。 月次、日次や週次処理として自動化することが目的です。 使っていること C# (.Net 4.7.x) Visual Studio 2017を使用 AngleSharp 0.13.0.0 (2019/10現在の最新を使用) System.IO.Compression.FileSystem (Zipファイルを解凍するのに使用) インストールなど Visual Studio 2017の NuGetからインストールします。 ※ 詳細は割愛します。 System.IO

    AngleSharpでスクレイピングする - Qiita
  • C#でモダンにスクレイピングするならAngleSharp - Qiita

    C#やVB.NETでWebページをスクレイピングする方法をWeb検索するとHtml Agility Packが見つかることが多いですが、APIはXHTMLXPATHといったXML技術をベースにしているので、今これを使うのは少々やぼったい印象があります。 じゃあ何がいいのか?ということですが、私はAngleSharpを強くお勧めします。 AngleSharpの利点 AngleSharpのどこがいいのか?は、改めて別の記事を書くつもりですが、ここでは簡単にまとめます。 HTMLだけでなく、SVG、MathML、CSSもパース可能です。 HTMLをパースするとW3CのWeb標準に従ったDOMが構築されます。HTML5ベースのため、閉じる必要のないタグ(<br>や<img>など)や閉じタグを省略可能なタグ(<li>、<dt>や<dd>、<tr>や<td>など)も正しく理解します。 Selecto

    C#でモダンにスクレイピングするならAngleSharp - Qiita
  • 1