
平素よりQA@ITをご利用いただき、誠にありがとうございます。 QA@ITは「質問や回答を『共有』し『編集』していくことでベストなQAを蓄積できる、ITエンジニアのための問題解決コミュニティー」として約7年間運営をしてきました。これまでサービスを続けることができたのは、QA@ITのコンセプトに共感をいただき、適切な質問や回答をお寄せいただいた皆さまのご支援があったからこそと考えております。重ねて御礼申し上げます。 しかしながら、エンジニアの情報入手方法の多様化やQAサービス市場の状況、@ITの今後のメディア運営方針などを検討した結果、2020年2月28日(金)15:00をもちましてQA@ITのサービスを終了することにしました。 これまでご利用をいただきました皆さまには残念なお知らせとなり、誠に心苦しく思っております。何とぞ、ご理解をいただけますと幸いです。 QA@ITの7年間で皆さまの知識
Nicovideo DownloaderをRubyへポーティングしたはずなのに、なぜか正しくダウンロード出来ない。 ということで、今日はその調査と解決。 Cookieの確認 Forbiddenが出てるということは、認証で何か失敗しているということ。 そうなると、怪しいのはCookie。 とはいうものの、動画情報の取得とかは出来ているわけで、user_sessionの送信自体は問題なさそう。 なので、おそらく送信するCookieが足りないのかな、と。 実際、ログイン画面にアクセスしたとき、および、動画情報にアクセスしたときに送られてくるCookieを見てみると、nicosidというキーのCookieも送られてきてた。 そこで、試しにこのnicosidも送信。 ・・・が、やっぱりうまくいかない。 何がダメなんだろう? 動画ページへのアクセス あと、元のNicovideo Downloaderと
公開しているサーバーの負荷状況を仕事してる時にも知りたいと 思ってNotificationの出し方なんかを調べてたら何かが降りてきて数分毎にNotificationだそうとか考えた。 使ったGemとか Nokogiri スクレイピングの大御所 Menchanize Nokogiriを使いやすくしてくれる Clockwork Cronの代替。時間が来ると実行してくれる。 コード require 'clockwork' require 'mechanize' module Clockwork handler do |job| job.call end every( 1.minutes, lambda do url = 'http://path/to/site' items = [] agent = Mechanize.new page = agent.get(url) node = page.
昨日ラーメン屋に行ってから,ずっと下痢気味&頭痛い状態だったけど,今は割りと腹痛いだけで済んでいる. なんかRubyでHTML解析しようぜっという話が出てきたから,今日はその実装をしてみました. RubyのNokogiriというライブラリを使うと本当に簡単.超余裕です. んで,解析する対象となるページはこれ「http://umie.jp/news/event/」.神戸のイベント一覧が表示されたページ. イベント取得して,旅行者に提示してみるとかを今後やるつもり.(イベント数が多くないことは考えない) っというわけで以下は手順. 手順 1.このブログを読む. http://morizyun.github.io/blog/ruby-nokogiri-scraping-tutorial/#7 これ以上わかりやすい記事があるか,というぐらいわかりやすい良記事. ぶっちゃけこれだけ読めばHTMLの解
base_domain = MODE.get('production') url_base = 'https://{}/v1/candles?'.format(base_domain) url = url_base + 'instrument={}&'.format(currency_pair.name) + \ 'count=5000&' +\ 'candleFormat=midpoint&' +\ 'granularity={}&'.format(granularity.name) +\ 'dailyAlignment=0&' +\ 'alignmentTimezone=Asia%2FTokyo&' +\ 'start={}T00%3A00%3A00Z'.format(start) response = requests_api(url) def requests_api(url, p
【Ruby】4gifsのRSS取得、gifのURLを取り出す - ハイパーニートプログラマーへの道 この記事ではRSSのdescriptionからgifのURLを取り出した・・・つもりが動かないものだぞ!? どうやらそのURLと、実際の個別記事のgifのURLは違うようだ。 要はRSSで表示された時のサムネイル的な画像なのかな? (や、tumblrに投稿した時に動かないようだ。tumblr側で容量を圧縮しすぎてるからなのかな? わからんですが) とにかく各個別記事にアクセスしてゲットせねばなるまい。ということで nokogiriインストール前の準備 OSX - Mac OS X Mavericksで”gem i nokogiri”失敗の解決方法 - Qiita こちらを見ていただくのが良いかと。 いざインストール、だが・・・ $ gem install nokogiri ERROR: Er
ちょっとダルいポイントが有ったのでメモ程度に。 スクレイピング対象サイトとスクレイピングの流れは ページャで何ページか一覧ページがある 一覧ページのタイトルをクリックすると詳細ページが見れる 詳細ページの一部を使用 また他のタイトルをクリックしていく CSVで出力(別にいらないけどメモ代わりに。。) みたいな感じです。mechanizeだけでやります。 require 'mechanize' require 'csv' class ScrapingPages def initialize @agent = Mechanize.new @data = [] end def retrieve # 1ページ目から10ページ目までスクレイピングする (1..10).each do |i| page = @agent.get(url(i) each_section(page) do |section
黒川仁の文具堂ブログ三昧 このブログでは、金沢市在住のプログラマ/サーバエンジニア 黒川 仁がWeb技術っぽい記事を書いています。 Mac + OpenSSL (homebrew) + rbenvという環境でNet::HTTP使ってSSLでの通信をしようと思ったらエラーがでた。 net/http.rb:917:in `connect': SSL_connect returned=1 errno=0 state=SSLv3 read server certificate B: certificate verify failed (OpenSSL::SSL::SSLError) たとえば、こんな感じのコードでhttpsなURLにアクセスする場合。 require 'net/https' require 'uri' url = URI.parse('https://www.google.co.j
Rubyのライブラリ「Nokogiri」を使ってみました。 Nokogiriとは HTMLやXMLをパースするためのRubyライブラリ XPathやCSSセレクタを使ったパースが可能 公式:http://nokogiri.org/ 試した環境 ruby 1.9.3 簡単なサンプル Qiitaにあがっていたものを拝借 - Nokogiriで文字化けを防ぐ - Qiita sample.rb # -- coding: utf-8 require "open-uri" require "rubygems" require "nokogiri" # スクレイピングするURL url = "https://www.walmart.com.br/" charset = nil html = open(url) do |f| charset = f.charset f.read end doc = No
Rubyで画像収集ソフト的な物を作ってみた - チラシ裏日記上等!!を見て 面白そうだなぁと思い僕なりに少し書き換えてみた。 以下のスクリプトはまだ書きかけというか挙動があやしいのだけど とりあえず貼り付けておく。 最後の画像保存するところ (save_image_file) でなんか止まるんだよなぁ (´▽`;) どうして止まっちゃうのかよく分からない。。 require 'rubygems' require 'hpricot' require 'open-uri' require 'kconv' require 'pp' def save_image_file(url, path) puts url puts path open(path, 'wb') do |file| open(url) do |data| file.write(data.read) end end end url
割とどうでもいいことも記事に起こすって目標があった記憶があるから 割とどうでもいい記事書きます。 最近仕事でPHPしているので プライベートでちょろっとだけRuby書いて遊んでます。 今日はその中のひとつであるURL収集用スクリプト。 ぶっちゃけ、あるサイトをスクレイビングしているだけなので超簡単。 #!/usr/bin/env ruby # スクレイビング用にMechanizeさんにお世話になる require 'mechanize' agent = Mechanize.new url = 'http://***********/' # 趣味がバレるのでURLは伏せる:p # get_urls.rb 20140404 # と実行したら # http://***********/20140404.html を取得するように url += ARGV[0] + ".html" if ARGV[
import.ioとは import.ioは、データ化したいページのURLを入力するだけで、自動でデータ箇所を判断して情報を集めてくれるスクレイピングサービスです。 無料で利用することができ、セットアップも、データ収集用のトレーニングなども必要ありません。 URLを入力して、ボタンを押すだけという簡単さから、誰にでも利用できるデータ収集ツールだと思います。 以下では、その簡単な使い方や、利用例などを紹介したいと思います。 定期的なサイトへのスクレイピングは相手サイトの負荷になるので、一日に何度も何度も同一サイトに使用するのはやめましょう。加えて、取得したデータを、そのまま何かに利用すると著作権違反になる恐れもあります。 基本的な使い方import.ioの最大の特徴は、使い方の簡単さです。 以下では、その使い方の例として、IKEAのソファー検索結果ページのデータを取得してみたいと思います。
知らなかったので備忘録。 APIを使ったりしてちょっと面倒なんだろうと思っていたんですが、こんなに簡単に取得できるんですね。 YouTubeで公開されている動画のサムネイルを取得するには、基本的に下記のように記述します。 <img src="http://img.youtube.com/vi/{Video ID}/{xxx}.jpg" alt="alt here..." /> img要素のsrcに直接指定して画像を取得し、サンプルコード内で{Video ID}としている箇所に動画コードを指定し、.jpgの前の{xxx}の部分で画像のサイズを指定します。 動画コードはURLでhttp://www.youtube.com/watch?v=の後に書かれている部分を指定し、サンプルとしてhttp://www.youtube.com/watch?v=hTWKbfoikegというURLの動画から取得し
今まで何度もスクレイピングとかクローリングをしてきたので、マエショリストの端くれとしてコツを公開すべきかなあ、と思い、公開します。 今日の題材は、CNET Newsです。私はウェブ文書にタグ付けをするという研究をしているのですが、そのための教師データとしてクローリングをします。 photo by Sean MacEntee 要件定義 CNET Newsから全ニュースを保存し、その本文をデータベースに保存します。これは、次のようなフローに書き下すことができます。 全URLを取得し、データベースに保存 データベースにある全URLをダウンロードする 保存した全ページを解析して、本文をデータベースに保存する という流れです。これらは独立していますから、それぞれどの言語で解析しても構いません。しかし後述しますが、「あとから追いやすくする」「適材適所」といったあたりを気をつけて、言語選択をするべきだと
サイトを作成する際に、外部のサイトから情報を取得したい!という時に、phpだとfile_get_contentsを利用して取得すると言うのが、手段として思いつきますが・・・ 今回は、file_get_contentsではなく、curlを利用して外部のサイトから情報を取得してみたいと思います。 前置きはなしで、接続するための準備をしましょう。 まずは、接続を行うためのcurlオブジェクトを作成します。 [php] $conn = curl_init(); [/php] 次に接続に利用する内容を設定します。 SSLを利用する場合には、下記の2行を設定します。 [php] curl_setopt($conn, CURLOPT_SSL_VERIFYPEER, true); curl_setopt($conn, CURLOPT_SSL_VERIFYHOST, true); [/php] ただし、証明
Add to Cart Produk ini tidak dapat dibeli karena bermasalah. Silahkan hubungi kami. Dalam dunia perjudian online, slot gacor menjadi salah satu permainan paling populer yang digemari oleh berbagai kalangan. Dengan mekanisme sederhana dan peluang menang besar, slot kerap menjadi pilihan utama bagi pemain baru maupun berpengalaman. Salah satu platform yang sedang naik daun dan menarik perhatian para
YAHOO! 知恵袋に(どなたか本当にお願いします!phpのcurlに関して教えて頂きたいです。)というPHPのcURLを使って、Googleにログインする方法が聞かれていたのでちょっと組んでみた。 実はこういうのは意外と面倒くさくて、 POSTデータでIDとパスワードを飛ばせばいいというものではない。 もちろんそれでログインできる(できてしまう)サイトもあるのだが、 セキュリティポリシーの高いサイトではそうはいかない。 不正なログインを防ぐためにフォーム内にトークンを埋め込み、 かつCookieにもそのトークンを埋め込んでおき、 サブミットされた際にフォームから飛んできたPOSTとCookieを比較しているのだ。 ちなみにGoogleとPixivはこの方式を採用している(2012/08/27現在)。 とりあえず早速ソースを見ていこう。 //URLを指定する $url='https://a
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く