Stockmarkのプロダクトは、5,000万件を超えるビジネス記事を基盤として提供されています。これらのデータがプロダクトの根幹の1つであり、記事を収集するクローリングは要といえます。 本記事では、1) 現在のクローリングの仕組み、2) 現在抱えている課題、 3) 未来へのアプローチ(新規チーム立ち上げ) の3点をご紹介いたします。 クローリングの仕組み そもそもクローリングという言葉に耳慣れない方もいらっしゃるかもしれません。非常に簡単に説明すると、クローリングとは "WebページのHTMLを保存し、HTMLからURLを抽出すること" です。クローリングするプログラムは、一般に "クローラー" と呼ばれます。(詳細は英語版の Wikipedia 記事を参照ください。) Stockmarkのプロダクトは、日々発生する膨大なビジネス記事(10万件以上)を常にクローリングし続けています。クロ