ブックマーク / zenn.dev/ryuichit (1)

  • Rust+WASMでWebクローラーのXMLパースを高速化

    記事はストックマークAdvent Calendarの21日目の記事です。 はじめに こんにちは、ストックマークの谷です。 ストックマークでは、ビジネス情報に特化したデータプラットフォームを独自に構築しています。 記事では、そのデータプラットフォームの中核であるWebクローラーのパフォーマンスを、Rust+WASMでコスパ良く改善できたという事例を紹介したいと思います。 何が問題だったか Webクローラーは、国内外のニュースサイトや企業サイト、ブログを回覧してビジネス情報をデータ化します。 そのさい、読み込むSitemapやRSS(これらはXML形式で配信されています[1])のサイズが大きいと解析にかなり時間がかかり、想定していた処理時間を超えてタイムアウトエラーを起こすケースがありました[2]。それが少数のサイトであればまだインパクトは小さいですが、回覧するサイトは日々増えており、W

    Rust+WASMでWebクローラーのXMLパースを高速化
    toshikish
    toshikish 2021/12/22
  • 1