atnd.org
今まで何度もスクレイピングとかクローリングをしてきたので、マエショリストの端くれとしてコツを公開すべきかなあ、と思い、公開します。 今日の題材は、CNET Newsです。私はウェブ文書にタグ付けをするという研究をしているのですが、そのための教師データとしてクローリングをします。 photo by Sean MacEntee 要件定義 CNET Newsから全ニュースを保存し、その本文をデータベースに保存します。これは、次のようなフローに書き下すことができます。 全URLを取得し、データベースに保存 データベースにある全URLをダウンロードする 保存した全ページを解析して、本文をデータベースに保存する という流れです。これらは独立していますから、それぞれどの言語で解析しても構いません。しかし後述しますが、「あとから追いやすくする」「適材適所」といったあたりを気をつけて、言語選択をするべきだと
そろそろ軽くRubyをやってみたいけどなんか情報多すぎてどこから手を付けたらいいかわからない、リファレンス的なものとか言語論的なものとかコミュニティー的なものとかの情報は結構あるけど、もっとカジュアルでかと言ってどの言語でも使いまわせる的な説明じゃなくRubyらしさが浮き出てるようなもので、しかもちょっとしたCLIツールとかWebアプリとかを作れる程度に理解の手助けをしてくれるものがほしいけど、今の段階で大枚叩きたくないしという人向けに僕がRubyの道案内を致します。 ステップ1(所要時間:0〜10分、投資額:0円) あなたのコンピュータでRuby2系を使えるようにします。 Macなひと => Mavericksをインストールする。 Windowsなひと => RubyInstaller for WindowsでRuby2系をインストールする。 Linuxなひと => ご自由に。 ターミナ
FINDJOB! 終了のお知らせ 2023年9月29日にFINDJOB!を終了いたしました。 これまでFINDJOB!をご利用いただいた企業様、求職者様、様々なご関係者様。 大変長らくFINDJOB!をご愛顧いただき、誠にありがとうございました。 IT/Web系の仕事や求人がまだ広く普及していない頃にFind Job!をリリースしてから 約26年間、多くの方々に支えていただき、運営を続けてまいりました。 転職成功のお声、採用成功のお声など、嬉しい言葉もたくさんいただきました。 またFINDJOB!経由で入社された方が人事担当になり、 FINDJOB!を通じて、新たな人材に出会うことができたなど、 たくさんのご縁をつくることができたのではないかと思っております。 2023年9月29日をもって、FINDJOB!はその歴史の幕を下ろすこととなりましたが、 今後も、IT/Web業界やクリエイティブ
Rubyソースコード完全解説 という本があります。 その名の通り Ruby 処理系のソースコードについて解説もので、 Ruby Hacking Guide (略して RHG) という名称でも知られています。 他に類を見ない日本語で書かれた言語処理系ソースコード解説ということで非常に貴重な本です。 さて、この本は2002年に出版され、残念ながらすでに絶版となっているこの本ですが、ありがたいことに2004年に著者の青木峰郎さんが HTML 形式で本文を公開*1されていて、今でも全文を読むことができます。 でもやっぱり Kindle で読みたいので Kindle 用の .mobi ファイルをつくることにしました。 基本的には、以下の流れで .mobi ファイルを生成します。 RHG の HTML 版のアーカイブをサポートページからダウンロードする .mobi ファイル生成のためのコマンドラインツ
$Id: index.html,v 1.6 2004/07/20 23:08:12 aamine Exp $ この文書は書籍『Rubyソースコード完全解説』のHTML版です。 ただし初校段階の原稿をベースにしているため、 書籍では修正されている間違いが残っている場合があります。 予め御了承ください。 2004-02-16 に全章を公開しました。 目次 まえがき 序章 第 1 部「オブジェクト」 第 1 章「Ruby言語ミニマム」 第 2 章「オブジェクト」 第 3 章「名前と名前表」 第 4 章「クラス」 第 5 章「ガーベージコレクション」 第 6 章「変数と定数」 第 7 章「セキュリティ」 第 2 部「構文解析」 第 8 章「Ruby言語の詳細」 第 9 章「速習yacc」 第 10 章「パーサ」 第 11 章「状態付きスキャナ」 第 12 章「構文木の構築」 第 3 部「評価」 第
平素よりQA@ITをご利用いただき、誠にありがとうございます。 QA@ITは「質問や回答を『共有』し『編集』していくことでベストなQAを蓄積できる、ITエンジニアのための問題解決コミュニティー」として約7年間運営をしてきました。これまでサービスを続けることができたのは、QA@ITのコンセプトに共感をいただき、適切な質問や回答をお寄せいただいた皆さまのご支援があったからこそと考えております。重ねて御礼申し上げます。 しかしながら、エンジニアの情報入手方法の多様化やQAサービス市場の状況、@ITの今後のメディア運営方針などを検討した結果、2020年2月28日(金)15:00をもちましてQA@ITのサービスを終了することにしました。 これまでご利用をいただきました皆さまには残念なお知らせとなり、誠に心苦しく思っております。何とぞ、ご理解をいただけますと幸いです。 QA@ITの7年間で皆さまの知識
ニコニコ動画を保存してitunesに転送しようかなと。 インストール パッケージは、sora_hの物を使うことにした。 gem install niconicoドキュメントには書いてないけど、ruby1.9でしか動かない。1.9が好きになれない僕には、ちょっと不満。 ダウンロードする。 require 'niconico' nico = Niconico.new('takuya@example.com','*****') #ログインメアド、パスワード nico.login $stdout = open("out.flv", "w") puts nico.video("sm12345456").get_video $stdout.flush 一覧を取り込む 初音ミクなどのボカロランキングをまとめてダウンロードする。 これはMechanizeでさくっと。 require 'mechanize'
Ruby Mechanize wiki (ja) Ruby の Mechanize の wiki のよてい トップページページ一覧メンバー編集 × トップページ 最終更新: kitamomonga 2010年08月24日(火) 14:48:32履歴 Tweet Ruby の Mechanize のクラスとメソッドのせつめいの Wiki 自作外部リンク RubyのMechanizeを解説 for 1.0.0 インストールとか使い始めさん用のせつめいとかあります Wiki だけど編集は管理人のみです きゃっほー 現在 Mechanize 1.0.0 の通常使用範囲のクラスとメソッドをそれなりに書いた時点で力尽きましたです 管理は kitamomonga が行っております ブログはこちら http://d.hatena.ne.jp/kitamomonga/ 指摘連絡は今のところ手段がないので念力
README.rdoc JpStock JpStock is a Ruby library for extracting information about Japan stocks. 日本の株価情報を取得するためのRubyライブラリ。 Installing gem install jpstock dependencies: nokogiri Using 現在の株価を取得 JpStock.price(:code=>"4689") JpStock.price(:code=>["4689", "2702"]) 過去の株価を取得 JpStock.historical_prices(:code=>"4689", :start_date=>'2012/01/01', :end_date=>'2012/3/31') JpStock.historical_prices(:code=>"4689", :s
注意:Twitter gemのバージョンが5未満の設定ですので、5以上だと以下の手順の一部(Twitter.configure周辺)は無効ですゴメンナサイとても簡単なのだけどメモ。 gemを入れる $ gem install twitter だけ。 twitterに登録 Twitter Application Management からapplicationを登録。 Create an application Application Details Name: * Description: * Website: * の3項目をてきとーに入力。 そうするとDetailタブの画面にConsumer keyとConsumer secretとが表示される。Access tokenとAccess token secretが発行されていないので、一番下のボタンを押して生成。 OAuth setting
症状 ruby で任意のwebサーバーに対してHTTPS接続を行おうとするとエラーが発生した。 エラーの内容は次の通り。 OpenSSL::SSL::SSLError SSL_connect returned=1 errno=0 state=SSLv3 read server certificate B: certificate verify failed問題となった ruby のコードは以下のような感じになっていた。 # ... https = Net::HTTP.new('example.com', 443) https.open_timeout = SYSTEM_TIMEOUT_SEC https.read_timeout = SYSTEM_TIMEOUT_SEC https.use_ssl = true https.verify_mode = OpenSSL::SSL::VERIF
open-uri の HTTPS リクエストで、証明書の検証に失敗する場合の対処方法です。 SSL_connect returned=1 errno=0 state=SSLv3 read server certificate B: certificate verify failed ##### 方法1 ##### 証明書を検証をしない(乱暴な方法) require 'open-uri' require 'openssl' OpenSSL::SSL::VERIFY_PEER = OpenSSL::SSL::VERIFY_NONE puts open('https://www.google.co.jp/').read ただ、定数を変更すると警告が出ます。 warning: already initialized constant VERIFY_PEER この警告を抑えるには、事前に remov
『るびま』は、Ruby に関する技術記事はもちろんのこと、Rubyist へのインタビューやエッセイ、その他をお届けするウェブ雑誌です。 Rubyist Magazine について 『Rubyist Magazine』、略して『るびま』は、Rubyist の Rubyist による、Rubyist とそうでない人のためのウェブ雑誌です。 最新号 Rubyist Magazine 0064 号 バックナンバー Rubyist Magazine 0064 号 Rubyist Magazine 0063 号 Rubyist Magazine 0062 号 Kaigi on Rails 特集号 RubyKaigi Takeout 2020 特集号 Rubyist Magazine 0061 号 Rubyist Magazine 0060 号 RubyKaigi 2019 直前特集号 Rubyist
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く