こんにちは、株式会社FP16で結構コードを書いている二宮です。 最近Webスクレイピングのコードを色々な方法で書いているので、そこで得た知見をここに残しておこうと思います。 ほぼ毎日なにかのWebスクレイピングコードを書いています。 Webスクレイピング手段 Webスクレイピングには色々な方法があります。 私が最近主に使っているのはこの5つの手段です。 cheerioでHTMLを解析 Playwrightなどで要素指定でデータを取得する APIを見つけて叩く(バックエンドとの通信を再現してデータを取得) LLMでサイト構造を解析してデータを取得する Next.jsからのレスポンスに含まれているデータを解析して取得する これが令和のWebスクレイピングのベストプラクティスだと思っています。 これらの方法を、目標に合わせて使い分けています。 使い分け方 CheerioでHTML解析 JavaS
cheerioThe fast, flexible & elegant library for parsing and manipulating HTML and XML. Get Started! Proven syntaxCheerio implements a subset of core jQuery. Cheerio removes all the DOM inconsistencies and browser cruft from the jQuery library, revealing its truly gorgeous API. Blazingly fastCheerio works with a very simple, consistent DOM model. As a result parsing, manipulating, and rendering are
Astral is a Puppeteer/Playwright-like library designed with Deno in mind. What can I do? Most things that you can do manually in the browser can be done using Astral! Here are a few examples to get you started: Generate screenshots and PDFs of pages. Crawl a SPA (Single-Page Application) and generate pre-rendered content (i.e. "SSR" (Server-Side Rendering)). Automate form submission, UI testing, k
GWにdenoで何か作るという目標を立てていたので簡単ですが、slack botを作成しました。 denoのセットアップ azukiazusaさんの記事を参考にHello World!がサーバーで返せれば問題無いです。 完成品 slackのチャンネルにテキストを飛ばす slackのTokenの作成、botの招待 まずはtokenをとってきます こちらの記事の通りにすればとってこれるはずです。 きちんとTokenが使えるかまで確認し、チャンネルにbotを招待してください。 コード こちらのコードを参考にしました。 あんまり依存したく無いので書き換えました。 export const sendMessage = async(token: string, channel: string, text: string) => { const response = await fetch('https
#概要 私的な理由で Yahoo! カレンダーから情報をとってきたいのですが、Yahoo! カレンダーには API がありません。 そこで本記事では、認証の確認コード入力以外を自動化してヘッドレスブラウザで Yahoo! カレンダーにログインする方法を提案します。 ログインさえできればあとは Yahoo! カレンダーに迷惑のかからない範囲で情報を取ってくることができます。 #Yahoo! へのログインフロー(カレンダーへログインする場合) 記事を執筆している2022年3月14日現在、Yahoo! へログインする方法として、パスワード認証、確認コードによる認証(SMS)、確認コードによる認証(メール)の3種類の方法があります。 本記事では、このうちのパスワード認証を使いません。なぜなら、Yahoo! は確認コードによる認証の利用を推奨している上、パスワード認証には日常生活を送る上で不便な点が
Trafilatura is a cutting-edge Python package and command-line tool designed to gather text on the Web and simplify the process of turning raw HTML into structured, meaningful data. It includes all necessary discovery and text processing components to perform web crawling, downloads, scraping, and extraction of main texts, metadata and comments. It aims at staying handy and modular: no database is
ようこそ NHKラジオ語学講座ダウンローダ NHK.hta 公開ぺーじです 主にインストールと使い方とタイマー起動について説明します 最新版は、NHK.hta ver-3.2.10 2022/04/19です。2022年度前期版 お知らせ ●NHK.hta 最新版 ver-3.2.10 (NHK.hta のインストールに在り)と ver-3.2.10a (過去のバージョンに在り)を公開しました。 今週分(放送後1週間)⇒ ver-3.2.10 先週分(放送の翌月曜日から1週間)⇒ ver-3.2.10a となっています。 大抵の講座は、ver-3.2.10 ver-3.2.10a の両方で落とせますが、一部分片方でしか落とせないものもあります。 <例外> ・ニュースで学ぶ「現代英語」、ポルトガル語、アラビア語:今週分のみ ・基礎0:先週分のみ ●おそらくWindowsによるチェックではな
This is the first post of “THE LAB”: in this series, we'll cover real-world use cases, with code and an explanation of the methodology used. The Web Scraping Club is a reader-supported publication. To receive new posts and support my work, consider becoming a free or paid subscriber. I usually write in this newsletter about how to extract data from websites but what if our target is an app with no
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く