[B! スクレイピング] kana321のブックマーク

kana321 id:kana321

スクレイピングに関するkana321のブックマーク (35)

Html Agility Packを使ってWebページをスクレイピングするには？［C#、VB］
Webページの内容をどのようにして解析すればよいだろうか？例えば、記事の一覧が掲載されているWebページの内容を取得してきて、そこから記事のタイトルとURLだけを全て取り出したいといった場合だ。正規表現（System.Text.RegularExpressions名前空間のRegexクラス）を使えば可能ではあるが、かなり面倒である。WebページがXHTMLで記述されているならXDocumentクラス（System.Xml.Linq名前空間）で楽に解析できるはずなのだが、しかし現実のWebページにはXHTMLであると宣言してあってもXMLとしては不完全な記述のものが少なくない（＝XDocumentクラスで解析できない）。そこで本稿では、オープンソースのライブラリ「Html Agility Pack」を使ってWebページを解析する方法を解説する。事前準備本稿では、文字コードがシフトJIS
kana321 2015/01/29
スクレイピング

c#
リンク
Rubyのgemで株価取得が超簡単だった。 | Project name
株とサイバーって相性良いすよね。こんにちは。マツコ・デラックスの面白さに最近はまっているvsannaです。あの超ニッチなおすすめ商品紹介する番組めっちゃ面白くないすか? 前回記事(【スクレイピングのやり方#1】周りに勧められてスクレイピングなるものをしてみたいけど何すればいいのかわからなかったあの日の自分へ)作成のためのスクレイピングの勉強中に面白いgemを発見したので、今回はそのご紹介です。対象は、 Rubyの環境がある。(読み書き実行がある程度できる) ドットインストールのRubyを通し見でOK 株価分析に興味がある。という方です。でははりきって参りましょう。今回やってみることご紹介するのはyahooファイナンスをスクレピングしてくれるgemのjostock。なお株についてあまり詳しくないので、数字の理解や扱いについては深く突っ込まないていただけると嬉しいです… あ
kana321 2015/01/29
プログラミング

ruby

Ruby

スクレイピング

scraping

株価取得

あとで読む

株

gem

jpstock
リンク
キトー君の悪い口コミ・失敗談と効果・販売店舗情報・安全と危険性・代用自作方法
キトー君で真性包茎対策ができてしまいます。包皮を引っ張ることで矯正できてしまうんですよ。包皮輪狭窄の方も皮を伸ばすことでだんだんと広がっていきます。テレビや雑誌でも紹介され多くの方が悩みを解決していますのでおすすめです。そんなキトー君なのですが本当に真性包茎・カントン包茎に効果があるのでしょうか？矯正できるのでしょうか、使い心地や評判が気になりませんか？そこで口コミを調べたら失敗談などの口コミが見つかりました。
kana321 2015/01/27
programming

"Web制作

ruby

nokogiri

スクレイピング

anemone

あとで読む

xpath

プログラミング

webサービス
リンク
クローラー／スクレイピングのカレンダー | Advent Calendar 2014 - Qiita
クローラー／スクレイピングに関する話題ならなんでも誰でも OK な Advent Calendar です。 Webからどうやって情報を集めるか、いろいろな方法を共有しましょう。例: 言語別のクローラー／スクレイピング方法ノンプログラムで使えるサービスやっぱりExcel最高！！情報収集に関する注意点（著作権法、岡崎図書館事件）
kana321 2014/12/29
あとで読む

スクレイピング

scraping

web

Advent Calendar 2014

crawler

Advent Calendar

calendar

2014

AdventCalendar
リンク
Excel VBA+IEでのスクレイピング - プログラマでありたい
書くと宣言しながら、すっぽかしていたクローラー／スクレイピング Advent Calendar 2014の11日目です。ExcelのVBAで、IEの操作が出来ます。またその中の機能にDOM操作があります。この二つがあれば、Excelだけでスクレイピングできますよという話です。何を隠そう、私が初めてスクレイピングに手を染めたのはこのExcel VBA スクレイピングでした。毎月定期的に所定のデータを観測するという仕事があって、面倒くさくて仕方がない私は記録用のExcelを魔改造して勝手に取得するようにしました。1時間くらい掛かってた作業も、ボタンポチになったので随分楽になったと記憶しています。（結局、ボタンを押すのも面倒くさくなって、毎日サーバサイドで動かすようにしましたが）スクレイピングの手始めにピッタリのExcel VBA スクレイピングです。環境の用意が簡単なので、ノンプログラマーでも
kana321 2014/12/29
excel

crawler

VBA

プログラミング

スクレイピング

programming

Windows

scraping

あとで読む

IE
リンク
【総計５万はてブ！】QiitaのAdvent Calendarのはてブ数をNode.jsで集計してRactive.jsで表示する
【総計５万はてブ！】QiitaのAdvent Calendarのはてブ数をNode.jsで集計してRactive.jsで表示するNode.jsRactiveJS 総はてブ数: 50,681 総記事数: 3,818/5,350 テーマ数214 【完走✕】1位 Git はてブ数合計: 2018, 記事数: 22 【完走○】2位 Vim はてブ数合計: 1887, 記事数: 25 【完走✕】3位クローラー／スクレイピングはてブ数合計: 1759, 記事数: 24 【完走✕】4位 Yahoo! JAPAN Tech はてブ数合計: 1700, 記事数: 22 【完走○】5位 Pepabo はてブ数合計: 1622, 記事数: 25 【完走○】6位 Webアプリエンジニア養成読本はてブ数合計: 1413, 記事数: 25 【完走✕】7位 VirtualDOM はてブ数合計: 1370, 記事数
kana321 2014/12/27
ruby

スクレイピング

MySQL

js

japan

*あとで

node.js

adventcalendar

qiita

development
リンク
人間にはわかるのに、なぜ機械にはそれがわからないのか。A.I.とスクレイピング - かれ4
この投稿はクローラー／スクレイピング Advent Calendar 2014の12月23日用です。はじめに人間って凄い。まずはこの画像を御覧ください。図1 各国のECサイトの画像 Eコマースのサイトで、商品の詳細のページを見るだけですぐに商品名、価格を判断出来ましたよね？それが英語のサイトでも中国語のサイトでも、韓国語のページでも分かりましたよね？凄いですね。人間のスクレイピング能力人間は恐ろしいほどのスクレイピング能力を持っている事が分かりました。ソースも見ない、タグも見ないで、なんとなく雰囲気だけでスクレイピングしています。もしこの能力をコンピュータに移植できたら凄いことですね。もし、先ほどの画像を身の回りのインターネットに一番疎い人に見せてみて下さい。きちんとスクレイピング出来たでしょうか？おそらく出来なかった事が多いのではないかと思います。こんな事させて
kana321 2014/12/24
スクレイピング

development

インターネット

機械学習

あとで読む

machinelearning

人工知能

AI

scraping

コンピュータ
リンク
Pythonでクローリング・スクレイピングに使えるライブラリいろいろ - orangain flavor
2016-12-09追記「Pythonクローリング&スクレイピング」という本を書きました！ Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド- 作者: 加藤耕太出版社/メーカー: 技術評論社発売日: 2016/12/16メディア: 大型本この商品を含むブログを見るこれはクローラー／スクレイピング Advent Calendar 2014の7日目の記事です。 Pythonでクローリング・スクレイピングするにあたって、いろいろなライブラリがあるので一覧でまとめてみます。以下の4つのカテゴリにわけて紹介します。 Webページを取得する Webページからデータを抜き出す Webページの自動操作総合的なフレームワークなんでこれが載ってないの？この説明はおかしい！などありましたらお気軽にお知らせください。なお、この記事はいろいろなライブラリを紹介することを目
kana321 2014/12/08
crawler

HTML

web

クローラ

スクレイピング

あとで読む

ライブラリ

Programming

Python

()
リンク
普及して欲しくないアンチスクレイピングサービス - happyou.infoのブログ
スクレイピングとは、ウェブページから情報を取り出す処理を指します。そのためのプログラムやツールが存在します。さて、ここで立場を変えて、情報を取り出されてしまうウェブサイト側の立場になって考えてみますと、スクレイピングはあまりうれしくない存在であることがわかります。ニュースサイトは、コストと時間をかけて書いた記事をコピーされ転載されてしまう。オンラインショップは、ライバルの他社に商品リスト、価格、在庫の変化、顧客の評価等を把握されてしまう。インターネット広告は、自社が出している/仲介している広告の種類と量をライバルに把握されてしまう。他社の情報は把握したいが、自社の情報は把握されたくないと考えるのは自然なことのようです。その証拠として、スクレイピングの普及に合わせて、自分のサイトがスクレイピングされることを防ぐための「アンチスクレイピングサービス」なるものが世に広まりつつある点を挙
kana321 2014/12/04
measure

app

*

スクレイピング

scraping

あとで読む

web

internet

考え方

仕事
リンク
Pythonでつくる検索エンジン(Webクローラ, Mecab, MongoDB, Flask) - c-bata web
検索エンジン自作入門 ~手を動かしながら見渡す検索の舞台裏作者:山田浩之,末永匡発売日: 2014/09/25メディア: 単行本（ソフトカバー） (この記事で紹介しているのはTF-IDFとかの計算もない簡素なものです。) はじめに Webサービスのプログラミングに必要なことのだいたいは、スクレイピングに学んだ - Line 1: Error: Invalid Blog('by Esehara' ) この前↑の記事をみかけました。クローリングやスクレイピングは、色々と応用が効きそうなのでしっかり勉強したい。 PythonではScrapyという有名なクローリング・スクレイピング用のライブラリがありますが、今回は勉強としてScrapyを使わずに実装してみる。流れとしては以下のとおり Webクローラの構築 Mecabで日本語の形態素解析検索エンジンの構築データをMongo DBに格納 Fl
kana321 2014/11/13
python

crawler

flask

検索エンジン

IT

mecab

スクレイピング

あとで読む

web

mongodb
リンク
話題のクローラー・スクレイピング！PythonならScrapyが超優秀な件
Rubyによるクローラー開発技法読書会第2回(兵庫県)に参加しました Nov 1st, 2014 1:05 pm | Comments 11月1日 Rubyによるクローラー開発技法　読... [amazonjs asin="4797380357" locale="JP" tmpl="Small" title="Rubyによるクローラー開発技法巡回・解析機能の実装と21の運用例"] こういう会に参加すると、自分の知識の狭さを痛感してもっと勉強しなきゃなぁという気になります。また次回も参加させてもらいたいです。参加者の皆さん、色々ご教示いただき、ありがとうございました。読書会では本の内容から広がった話がとても面白かったです。個人的には、Rubyのクローラー本の中身を実際に使うということは少ない気がしましたが、他の人がどのようにスクレイピングをしているのかということを知ることができたのは
kana321 2014/11/05
ruby

クローラー

python

2014年

スクレイピング

言語｜Python

scrapy

scraping

crawler

あとで読む
リンク
クローラーとAWSが出会ったら？第3回Webスクレイピング勉強会@東京 - プログラマでありたい
2014/10/26に開催された第3回Webスクレイピング勉強会@東京に参加して、発表してきました。今回は、スクレイピングと少し離れてAWSを使ってクローリングするという話です。クローラー／スクレイピングとAWSは相性が良いというのは、昔から思っていたのでテーマとして扱うことは早めに決めていました。しかし、話の構成を、具体的なテクニックの話にするか、概念的な話にするか、少し悩みました。なるべき多くの人に伝わるように、概念的な話をしたつもりです。具体的な部分についてはRubyによるクローラー開発技法を読んで頂ければと思いますw 発表資料 Scraping withaws AWSを利用してスクレイピングの悩みを解決するチップス from Takuro Sasaki Scraping withaws AWSを利用してスクレイピングの悩みを解決するチップス資料の構成としては、クローリングする際の悩み
kana321 2014/10/28
ソーシャル

テクノロジー

slide

スクレイピング

AWS

crawler

scraping

web

あとで読む

slides
リンク
エンジョイ☆スクレイピング
12. コード（一部） from mechanize import Browser from pyquery import PyQuery as pq br = Browser() br.set_handle_robots(False) br.addheaders = [('User-‐agent', 'Mozilla/5.0 (X11; U; Linux i686; en-‐US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-‐1.fc9 Firefox/3.0.1')] br.open(amazon_url) br.select_form(name="sign_in") br["em ail"] = em ail br["password"] = password response = br.submit() d = pq(response.g
kana321 2014/10/21
エンジョイ☆スクレイピング

スクレイピング

content

from mikutter

python

scraping

ruby

プログラミング

rss

development

英語
リンク
まだmechanizeで消耗してるの? WebDriverで銀行をスクレイピング（ProtractorとWebdriverIOを例に） - 詩と創作・思索のひろば
今日はスクレイピングの話をします。今回のターゲットは三菱東京UFJダイレクト。金融機関もウェブサービスを提供するようになり、金にまつわる情報を電子化しやすくなりましたが、かれらが API を提供しているわけではないので、私たちのほうで取得・加工をしてやる必要があります。今やウェブサイトであれば当然のように JavaScript を使っているわけなので、いわゆる mechanize、つまり HTML の解釈をおこない、リンクのクリックやフォームの送信をシンプルに実装するようなやり方でのスクレイピングはすでに無理筋だといえます。もちろん今日においてはブラウザオートメーションという方法がすでにありますので、これを利用してやれば、なんの憂いもなく実際に人間が使うようなブラウザをプログラマティックに操作することができます。現在は Selenium WebDriver がデファクトで、これが使用す
kana321 2014/10/01
web制作

selenium

phantomjs

スクレイピング

ライブラリ

javascript

webdriver

selenium

scraping

crawler
リンク
Webスクレイピングが捗るGoutteを使ってみる
<?php // first.php require_once './vendor/autoload.php'; $client = new Goutte\Client(); $crawler = $client->request('GET', 'http://blog.asial.co.jp/'); // 抽出 $targetSelector = 'h2.lh1_2em'; // アシアルブログの見出しのセレクター $crawler->filter($target)->each(function ($node) { echo $node->text() . "\n"; }); ~/Sites/prac/goutte php first.php 外部コンテンツをiframeサイズで拡大縮小させたり、固定幅コンテンツをウィンドウサイズでピッタリ表示させる方法「Monaca for Hyb
kana321 2014/09/29
ホットエントリ

#テクノロジー

()

*あとで読む

スクレイピング

web

php

crawler

ライブラリ

scraping
リンク
PythonによるWebスクレイピング入門
2. 自己紹介 • 関根裕紀（せきねひろのり） • アライドアーキテクツ株式会社 • ソフトウェア・エンジニア • PyCon JP 2014 スタッフ • Twitter（@checkpoint ) 3. • 前職まで • RSSリーダー、SNS • WebMail • 写真共有サービス • 現在（アライドアーキテクツ） • モニプラFacebook、Social-IN • Webアプリケーション開発全般を担当経歴
kana321 2014/08/30
twitter

crawler

お役立ち

python

スクレイピング

slide

programming

web

development

scraping
リンク
Webサービスのプログラミングに必要なことのだいたいは、スクレイピングに学んだ - Line 1: Error: Invalid Blog('by Esehara' )
この記事を読み始める前に Rubyでやるんだったら、ちょうどそういう本が出ているから、その本買えばいいのではないでしょうか。 Rubyによるクローラー開発技法巡回・解析機能の実装と21の運用例作者: るびきち,佐々木拓郎出版社/メーカー: SBクリエイティブ発売日: 2014/08/25メディア: 大型本この商品を含むブログ (1件) を見るはじめにプログラミングを勉強し始めて、だいたい基礎的な文法を覚えたあとに、次に何をしようかな、と悩む人も結構多いみたいで、明確に「これを作りたい」という場合は、それを作ればいいとは思うんですけど、場合によっては、別段作りたいものが無く、漠然としたプログラミングをしたい、という熱意によって勉強しているという人もいるのではないかと思います。で、もちろん「作りたいものがないのに、プログラミング勉強してどうするの」という意見もあるかとは思いますが、往
kana321 2014/08/30
*あとで読む

プログラミング

スクレイピング

勉強

あとで読む

ruby

html

webサービス

programming

web
リンク
第2回Webスクレイピング勉強会@東京に参加してきた #東京スクラッパー | DevelopersIO
第2回Webスクレイピング勉強会@東京（全3回） - connpass 2014/08/17 第2回Webスクレイピング勉強会@東京 #東京スクラッパー - Togetterまとめお仕事の都合上、ビッグデータ周りの『環境』については割と頻繁に作成したり関連する情報を調べたりしているのですが、環境に取り込む『データ』についてはお客様の要件によって様々。お客様個別のデータに絡める場合然り、また業務とは別に、個別に何か独自のネタを使ってビッグデータ的な取り組みを行いたいとなった際には、選択肢のひとつとして『Webからデータを収集して分析に使う』というものも考えられるかと思います。では、そのデータはどうやって取得してくる？となった時にひとつの案として浮上してくるのが、今回のブログテーマにもなっている『Webスクレイピング』。イベントについては情報を把握していたものの前回は都合により参加出来ず、
kana321 2014/08/18
東京スクラッパー

togetter

スクレイピング

api

データ

web

scraping

webスクレイピング

勉強会

scrape
リンク
プログラミング・レスで5分でサックリWebスクレイピング「kimonolabs」 - プログラマでありたい
「Rubyによるクローラー開発技法」で付録か何かで書こうか悩んだ末に書かなかったのが、kimonolabsの話です。kimonolabsは、クローラー／スクレイピングをオンラインで実行できるWebサービス（SaaS）です。クローラー本を書いておいて何ですが、９割の人は自分でクローラーを作らずに、この手のサービスを利用すれば事足りると思います。（書かなかった理由は、Ruby縛りサービスの継続性とスケジュールの問題です。主に最後） kimonolabsとは？ kimonolabsは、先述のとおりWebスクレイピングをしてくれるSaaSです。会員登録してChromeの拡張をいれれば、すぐに使えるようになります。一般的に、Webスクレイピングする場合は、次のような手順が必要です。対象ページのダウンロードダウンロードしたページから、特定の箇所を抜き出す抜き出したデータの保存対象ページのダウン
kana321 2014/08/14
スクレイピング

api

scraping

html

webサービス

ruby

crawler

web

programming

プログラミング
リンク
Webスクレイピングの注意事項一覧 - Qiita
[2020/09/09追記] 本記事の内容は著作権法改正より前に記載されたものです。最新の情報をご確認下さい。 * 著作権法の一部を改正する法律（平成30年法律第30号）について | 文化庁 * 令和2年通常国会著作権法改正について | 文化庁上記に関連して、次の記事を記載致しました。 * 【2020年度版】個人用クローラーの開発手順とその注意点 - Qiita はじめに Webスクレイピングで誰も嫌な思いをしなくて済むように、注意事項一覧を作りました。ただ、法律の専門家による解釈ではないので責任は取れません。この記事は、クリエイティブ・コモンズのCC-BYで公開致しますので、ご自由にご改修下さい。データをダウンロードする時目的は下記のものに限る。 * 個人や家族間で使用する * Web検索サービスを提供する * 情報解析をする ※参考：著作権法第30条・著作権法第47条(6
kana321 2014/07/28
画像

Web制作

スクレイピング

検索

web

プログラミング

scraping

ライセンス

著作権

データ
リンク
1 2 次のページ