[B! scraping] kaorunのブックマーク

kaorun id:kaorun

scrapingに関するkaorunのブックマーク (13)

Reader API
Our world-class embeddings for search, RAG, agent systems.
kaorun 2024/05/17
scraping

markdown
リンク
Happyou Final Scraper
Toggle navigation About Help Japanese English Happyou Final Scraper Generate RSS feed from any web page analyze twitter Zaisoft all rights reserved. Photograph from Gratisography
kaorun 2021/07/19
rss

scraping
リンク
C# でお手軽スクレイピング 2020 年夏よりちょっと未来 - Qiita
@otchy さんの Node でお手軽スクレイピング 2020 年夏を見て自分も C# でやってみようと思いました。 HTML パーサー C#でモダンにスクレイピングするならAngleSharp で紹介されている AngleSharp を使ってみようと思います。 C# 9.0 でやろう node.js とかのお手軽なところとして CLI でサクッと作れてファイルにおもむろに console.log('xxx'); のように書き始められるところがあると思います。 C# 9.0 (現時点ではまだプレビュー) でもトップレベルステートメントという機能が追加されて、同じ要領で書けるようになります。素敵。 CLI でさくっと .NET 5 のプレビュー SDK を入れます。VSCode の C# の拡張機能も入れておきましょう。私が試した .NET の SDK のバージョンは以下の通り
kaorun 2020/07/21
c#

scraping
リンク
Node.js でお手軽スクレイピング 2020 年夏 - Qiita
皆さんは Web ページのスクレイピングって書いた事ありますか？私はあります。だってどんなに平和で平穏な生活を送っていても数年に一度はスクレイピングってしたくなりますよね。「うわーまじか！API ないのかよ…。」的な。そうしたら HTTP クライアントと HTML パーサのライブラリを探してきてインストールした上でごりごり書くことになると思います。でも実際に書いてみると、そうやってライブラリのインストールをしたりサンプルコードで動作確認している時間よりも、HTML を解析して実際にパースしたところから対象の要素を取得して欲しい値を取り出す試行錯誤の時間の方が長かったっていう事はないですか？今日ご紹介する Node.js でお手軽スクレイピングは、その辺の試行錯誤の手間を極力減らすことが出来る方法です。2020 年夏の最新版です。まずは環境から。特に古いものを使う理由もないので 202
kaorun 2020/07/21
javascript

scraping

node.js
リンク
食べログ3.8問題に終止符を打つ
import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import json import glob import math from pathlib import Path from collections import Counter from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score from sklearn.metrics import confusion_matrix from sklearn.metrics import roc_auc_score from sklearn.model_selection imp
kaorun 2019/10/16
tabelog

trouble

statistics

scraping
リンク
Amazon 購入履歴ダウンローダ
Tweet @jin1016をフォローダウンロード Amazon Logger.zip 解説 Amazon の購入履歴を取得し、Excelファイルに保存するツールです。使用方法使用するには.Net Framework 4.5が必要です(Windows 8/8.1には標準で入っています)。起動し上部の取得する期間などを指定します。期間は、どの範囲の注文履歴から取得するかです。指定注文番号が選ばれた場合は、注文番号に入力された注文番号の履歴のみ取得します。ページ数は、注文履歴の何ページ目まで取得するかです。全てを選ぶと前ページが取得されます。注文番号は、期間で指定注文番号が選ばれた時に取得される注文の履歴です。上述の期間などを指定した後、開始ボタンを押すと真ん中にAmazonのログイン画面が出るのでログインします。ログインすると注文履歴ページが順次読み込まれて行きます。
kaorun 2017/03/08
amazon

scraping
リンク
URLを入力するだけ！コンテンツをスクレイピングしてデータ化してくれる無料ツール「import.io」
import.ioとは import.ioは、データ化したいページのURLを入力するだけで、自動でデータ箇所を判断して情報を集めてくれるスクレイピングサービスです。無料で利用することができ、セットアップも、データ収集用のトレーニングなども必要ありません。 URLを入力して、ボタンを押すだけという簡単さから、誰にでも利用できるデータ収集ツールだと思います。以下では、その簡単な使い方や、利用例などを紹介したいと思います。定期的なサイトへのスクレイピングは相手サイトの負荷になるので、一日に何度も何度も同一サイトに使用するのはやめましょう。加えて、取得したデータを、そのまま何かに利用すると著作権違反になる恐れもあります。基本的な使い方 import.ioの最大の特徴は、使い方の簡単さです。以下では、その使い方の例として、IKEAのソファー検索結果ページのデータを取得してみたいと思います。
kaorun 2016/01/26
scraping

webservice

csv
リンク
まだmechanizeで消耗してるの? WebDriverで銀行をスクレイピング（ProtractorとWebdriverIOを例に） - 詩と創作・思索のひろば
今日はスクレイピングの話をします。今回のターゲットは三菱東京UFJダイレクト。金融機関もウェブサービスを提供するようになり、金にまつわる情報を電子化しやすくなりましたが、かれらが API を提供しているわけではないので、私たちのほうで取得・加工をしてやる必要があります。今やウェブサイトであれば当然のように JavaScript を使っているわけなので、いわゆる mechanize、つまり HTML の解釈をおこない、リンクのクリックやフォームの送信をシンプルに実装するようなやり方でのスクレイピングはすでに無理筋だといえます。もちろん今日においてはブラウザオートメーションという方法がすでにありますので、これを利用してやれば、なんの憂いもなく実際に人間が使うようなブラウザをプログラマティックに操作することができます。現在は Selenium WebDriver がデファクトで、これが使用す
kaorun 2015/04/03
scraping

WebDriver

mechanize

selenium
リンク
utahta/jpstock · GitHub
README.rdoc JpStock JpStock is a Ruby library for extracting information about Japan stocks. 日本の株価情報を取得するためのRubyライブラリ。 Installing gem install jpstock dependencies: nokogiri Using 現在の株価を取得 JpStock.price(:code=>"4689") JpStock.price(:code=>["4689", "2702"]) 過去の株価を取得 JpStock.historical_prices(:code=>"4689", :start_date=>'2012/01/01', :end_date=>'2012/3/31') JpStock.historical_prices(:code=>"4689", :s
kaorun 2015/01/29
stock

scraping

yahoofinance

ruby
リンク
C#でHtml Agility Packを使ってYahoo!ファイナンスの現在の株価を取得する - 酢ろぐ！
Html Agility Packという.NET Framework向けに書かれたHTMLパーサーライブラリがあります。このライブラリはC#から利用することができ、簡単にウェブスクレイピングすることができます。株価を調べる際に「Yahoo!ファイナンスは20分遅れの株価を表示しているので、株価を見たいなら証券会社のサイトを開く」という習慣がついてしまったのですが、先日たまたまTwitterで株価に関する話題が出たので調べると株価がリアルタイム表示されていました。@bird982000さんによると今年4月に株価のリアルタイム表示についての規制(?)が緩和されていたようです。 …ということで、Yahoo!ファイナンスからコクヨ(7984.T)の株価を取得してみましょう。もちろんタイトルの通りHtml Agility Packを使用します。今回はXPathを使っているので、前回のようにHTM
kaorun 2014/12/03
.net

HtmlAgilityPack

scraping

ch3cooh
リンク
HtmlAgilityPackよりSgmlReaderがいいと思う - ものがたり
最近、仕事で他のメンバーが書いたHTMLスクレイパーみたいなコードの大幅な手直しをしているのだけど、ちょっとこれは書いておこうと思ったネタを公開しようと思う。それは.NETでHTMLを解析する、より真っ当な方法のことだ。一言で言うなら、HtmlAgilityPackを使うより、SgmlReaderを使ったほうが良い。理由も簡潔に言うなら、HTMLはSGMLに準拠して設計された仕様だから、SGMLの流儀に従ってロジカルにマークアップを解析できるパーサーを使った方が適切に処理できるし、実際HtmlAgilityPackの解析はSgmlReaderより雑だ。ちょっと待った。何が「雑」なんだろう? 雑というのはちょっといい加減な物言いだ。HTMLを解析するというのは、そんなに雑だったり厳密だったりするものだろうか? 厳密すぎるHTMLパーサーというのはかえって実用性が低かったりするんじゃないの
kaorun 2013/09/08
.net

html

HtmlAgilityPack

SGML

SgmlReader

scraping
リンク
Webクローリング＆スクレイピングの最前線公開用
MySQLとPostgreSQLと日本語全文検索 - Azure DatabaseでMroonga・PGroongaを使いたいですよね！？Kouhei Sutou
kaorun 2013/06/28
scraping

crawler

spider

robot
リンク
neue cc - C#でスクレイピング:HTMLパース(Linq to Html)のためのSGMLReader利用法
Linq to XmlがあるならLinq to Htmlもあればいいのに！と思った皆様こんばんは。まあ、DOMでしょ？ツリーでしょ？XHTMLならそのままXDocument.Loadで行けるよね？XDocument.Parseで行けるよね？ええ、ええ、行けますとも。XHTMLなら、ね、ValidなXHTMLならね。世の中のXHTML詐称の99.99%がそのまま解析出来るわけがなく普通に落ちてくれるので、XDocumentにそのまま流しこむことは出来ないわけです(もちろん、うちのサイトも詐称ですよ！ていうかこのサイトのHTMLは酷すぎるのでそのうち何とかしたい……)。そこでHtmlを整形してXmlに変換するツールの出番なわけですが、まず名前が上がるのがTidy、の.NET移植であるTidy.NETで、これは論外。とにかく面倒くさい上に、パースしきれてなくてXDocumentに流すと平然と
kaorun 2010/03/03
c#

linq

html

SgmlReader

.net

scraping
リンク
1