Our world-class embeddings for search, RAG, agent systems.
![Reader API](https://cdn-ak-scissors.b.st-hatena.com/image/square/2c51cc4ad3cf8cbdcd72afb641c609be7d299fa2/height=288;version=1;width=512/https%3A%2F%2Fjina.ai%2Fbanner-reader-api.png)
@otchy さんの Node でお手軽スクレイピング 2020 年夏 を見て自分も C# でやってみようと思いました。 HTML パーサー C#でモダンにスクレイピングするならAngleSharp で紹介されている AngleSharp を使ってみようと思います。 C# 9.0 でやろう node.js とかのお手軽なところとして CLI でサクッと作れてファイルにおもむろに console.log('xxx'); のように書き始められるところがあると思います。 C# 9.0 (現時点ではまだプレビュー) でも トップ レベル ステートメント という機能が追加されて、同じ要領で書けるようになります。素敵。 CLI でさくっと .NET 5 のプレビュー SDK を入れます。VSCode の C# の拡張機能も入れておきましょう。 私が試した .NET の SDK のバージョンは以下の通り
皆さんは Web ページのスクレイピングって書いた事ありますか?私はあります。だってどんなに平和で平穏な生活を送っていても数年に一度はスクレイピングってしたくなりますよね。「うわーまじか!API ないのかよ…。」的な。 そうしたら HTTP クライアントと HTML パーサのライブラリを探してきてインストールした上でごりごり書くことになると思います。でも実際に書いてみると、そうやってライブラリのインストールをしたりサンプルコードで動作確認している時間よりも、HTML を解析して実際にパースしたところから対象の要素を取得して欲しい値を取り出す試行錯誤の時間の方が長かったっていう事はないですか? 今日ご紹介する Node.js でお手軽スクレイピングは、その辺の試行錯誤の手間を極力減らすことが出来る方法です。2020 年夏の最新版です。 まずは環境から。特に古いものを使う理由もないので 202
import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import json import glob import math from pathlib import Path from collections import Counter from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score from sklearn.metrics import confusion_matrix from sklearn.metrics import roc_auc_score from sklearn.model_selection imp
Tweet @jin1016をフォロー ダウンロード AmazonLogger.zip 解説 Amazon の購入履歴を取得し、Excelファイルに保存するツールです。 使用方法 使用するには.Net Framework 4.5が必要です(Windows 8/8.1には標準で入っています)。 起動し上部の取得する期間などを指定します。 期間は、どの範囲の注文履歴から取得するかです。 指定注文番号が選ばれた場合は、注文番号に入力された注文番号の履歴のみ取得します。 ページ数は、注文履歴の何ページ目まで取得するかです。全てを選ぶと前ページが取得されます。 注文番号は、期間で指定注文番号が選ばれた時に取得される注文の履歴です。 上述の期間などを指定した後、開始ボタンを押すと真ん中にAmazonのログイン画面が出るのでログインします。 ログインすると注文履歴ページが順次読み込まれて行きます。
import.ioとは import.ioは、データ化したいページのURLを入力するだけで、自動でデータ箇所を判断して情報を集めてくれるスクレイピングサービスです。 無料で利用することができ、セットアップも、データ収集用のトレーニングなども必要ありません。 URLを入力して、ボタンを押すだけという簡単さから、誰にでも利用できるデータ収集ツールだと思います。 以下では、その簡単な使い方や、利用例などを紹介したいと思います。 定期的なサイトへのスクレイピングは相手サイトの負荷になるので、一日に何度も何度も同一サイトに使用するのはやめましょう。加えて、取得したデータを、そのまま何かに利用すると著作権違反になる恐れもあります。 基本的な使い方 import.ioの最大の特徴は、使い方の簡単さです。 以下では、その使い方の例として、IKEAのソファー検索結果ページのデータを取得してみたいと思います。
今日はスクレイピングの話をします。 今回のターゲットは三菱東京UFJダイレクト。金融機関もウェブサービスを提供するようになり、金にまつわる情報を電子化しやすくなりましたが、かれらが API を提供しているわけではないので、私たちのほうで取得・加工をしてやる必要があります。今やウェブサイトであれば当然のように JavaScript を使っているわけなので、いわゆる mechanize、つまり HTML の解釈をおこない、リンクのクリックやフォームの送信をシンプルに実装するようなやり方でのスクレイピングはすでに無理筋だといえます。 もちろん今日においてはブラウザオートメーションという方法がすでにありますので、これを利用してやれば、なんの憂いもなく実際に人間が使うようなブラウザをプログラマティックに操作することができます。現在は Selenium WebDriver がデファクトで、これが使用す
README.rdoc JpStock JpStock is a Ruby library for extracting information about Japan stocks. 日本の株価情報を取得するためのRubyライブラリ。 Installing gem install jpstock dependencies: nokogiri Using 現在の株価を取得 JpStock.price(:code=>"4689") JpStock.price(:code=>["4689", "2702"]) 過去の株価を取得 JpStock.historical_prices(:code=>"4689", :start_date=>'2012/01/01', :end_date=>'2012/3/31') JpStock.historical_prices(:code=>"4689", :s
Html Agility Packという.NET Framework向けに書かれたHTMLパーサーライブラリがあります。このライブラリはC#から利用することができ、簡単にウェブスクレイピングすることができます。 株価を調べる際に「Yahoo!ファイナンスは20分遅れの株価を表示しているので、株価を見たいなら証券会社のサイトを開く」という習慣がついてしまったのですが、先日たまたまTwitterで株価に関する話題が出たので調べると株価がリアルタイム表示されていました。@bird982000さんによると今年4月に株価のリアルタイム表示についての規制(?)が緩和されていたようです。 …ということで、Yahoo!ファイナンスからコクヨ(7984.T)の株価を取得してみましょう。 もちろんタイトルの通りHtml Agility Packを使用します。今回はXPathを使っているので、前回のようにHTM
最近、仕事で他のメンバーが書いたHTMLスクレイパーみたいなコードの大幅な手直しをしているのだけど、ちょっとこれは書いておこうと思ったネタを公開しようと思う。それは.NETでHTMLを解析する、より真っ当な方法のことだ。 一言で言うなら、HtmlAgilityPackを使うより、SgmlReaderを使ったほうが良い。理由も簡潔に言うなら、HTMLはSGMLに準拠して設計された仕様だから、SGMLの流儀に従ってロジカルにマークアップを解析できるパーサーを使った方が適切に処理できるし、実際HtmlAgilityPackの解析はSgmlReaderより雑だ。 ちょっと待った。何が「雑」なんだろう? 雑というのはちょっといい加減な物言いだ。HTMLを解析するというのは、そんなに雑だったり厳密だったりするものだろうか? 厳密すぎるHTMLパーサーというのはかえって実用性が低かったりするんじゃないの
Linq to XmlがあるならLinq to Htmlもあればいいのに!と思った皆様こんばんは。まあ、DOMでしょ?ツリーでしょ?XHTMLならそのままXDocument.Loadで行けるよね?XDocument.Parseで行けるよね? ええ、ええ、行けますとも。XHTMLなら、ね、ValidなXHTMLならね。世の中のXHTML詐称の99.99%がそのまま解析出来るわけがなく普通に落ちてくれるので、XDocumentにそのまま流しこむことは出来ないわけです(もちろん、うちのサイトも詐称ですよ!ていうかこのサイトのHTMLは酷すぎるのでそのうち何とかしたい……)。 そこでHtmlを整形してXmlに変換するツールの出番なわけですが、まず名前が上がるのがTidy、の.NET移植であるTidy.NETで、これは論外。とにかく面倒くさい上に、パースしきれてなくてXDocumentに流すと平然と
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く