こんにちは。エンジニアのKです。 先日、自社サイト上にて静的HTMLで公開している100ページ近くあるコンテンツを、 改めてDBに登録したいという要望がありました。 幸い、対象のページはHTML的に似た構造をしていたので、スクレイピングで上手いことデータを抽出できないかと調べていたところ、 Node.jsで動く「cheerio-httpcli」を見つけ、とても便利だったので紹介したいと思います。 作者様のGitHubとか GitHub - ktty1220/cheerio-httpcli Node.js用のスクレイピングモジュール「cheerio-httpcli」の紹介 スクレイピングって? ウェブスクレイピング - Wikipedia ひとことで言うと、「ウェブサイトのHTMLを取得して、その中から必要な情報を取り出す」処理になるでしょうか。 再帰的にリンクを辿って行く場合、大量のリクエ