タグ

ブックマーク / tumiki.hatenablog.jp (8)

  • 子育て情報アプリを作れるように vol11 ~タグを自動生成する~ - 1人でアプリを作れるように

    今回は、 クローラーで収集したデータにタグ情報を追加していきます。 で、前々から使ってみたいと思っていた Mecabという形態素解析器を使いたいと思います。 形態素解析というのは、 簡単に言うと文章を品詞単位に分解してくれるものです。 詳しく言うと・・・ 知りません!グーグルで検索して下さい笑 今回の目標 Mecabの使い方を学ぶ Mecabを使ってタグを生成する TF-IDFを使う 自力でタグを生成する 今回の修正点 1. Mecabの使い方を学ぶ mecabに限らず、使い方を学ぶ際は 「ruby ○○○」で検索すると、大抵ヒットします。 今回も同様に「ruby mecab」で検索して、調べました。 で、まずは以下を実行 (1) brew install mecab (2) brew install mecab-ipadic ※ 下記はmecab-ipadic-neologdをインストー

    子育て情報アプリを作れるように vol11 ~タグを自動生成する~ - 1人でアプリを作れるように
    dkfj
    dkfj 2015/10/19
    形態素解析ではなく特徴語/キーワード抽出的なアプローチ+αが必要ですね。かなり深いテーマになりますが、まずは形容詞+名詞の結合でやってみるとか http://blog.takuros.net/entry/2014/04/28/180829
  • 子育て情報アプリを作れるように vol4 ~Youtubeのクローラー~ - 1人でアプリを作れるように

    前回からかなり時間が経ってしまいました。 言い訳すると、 仕事が忙しかったり、 子育てでいっぱいいっぱいだったり、 お盆休みだったからです。 すみません… 今回は、Youtubeから子育て動画を取得してみたいと思います。 今回の目標 簡単に全体を設計する Youtubeから動画情報を取得する 1. 簡単に全体を設計する 今回は、YouTubeのサイトをクローリングしますが、 今後YouTubeのサイト以外もクローリングしていくことになるので、 サイトが増えても簡単に追加できる設計にしておきたいと思います。 とは言っても全体がまだ見えていないので、 雰囲気で作ります笑 作りながらメンテしていけば良いかなと思います。 (1) サイトを決める まず、子育て情報どういうサイトから取得するか考えました。 パッと思いついたのが以下。 そして、具体的なサイトも考えます。 動画サイト YouTube 料理

    子育て情報アプリを作れるように vol4 ~Youtubeのクローラー~ - 1人でアプリを作れるように
    dkfj
    dkfj 2015/08/20
    クローラーを使った実践アプリ
  • Rubyによるクローラー開発技法 vol7 ~一気に読んじゃった~ - 1人でアプリを作れるように

    前回でchapter2まで終わりました。 今回からchapter3 と言いたいところなんですが、 実は クロが面白すぎて 最後まで一気に読んでしまいました。 (ちょっとだけ飛ばしたところもあります) 一気に読んだ時の私の脳内を解説すると chapter3 チャプター3は「収集したデータを分析する」というテーマか。 えーっと、内容は、 正規表現、RSS、Nokogiri、形態素解析か。 どの内容も今後役に立ちそうだけど、 実際に何か作るタイミングでもう一度読めばいいかなぁ。 ここはサラッと読んで次に行こう。 chapter4 チャプター4は「高度な利用方法」というテーマか。 難しそうだけど、ちょっとだけ読んでみよう・・・。 あ、データベースの利用方法か。 これは、絶対に必要な知識! あとは、 デバッグ方法、 プロキシの使い方、 クローリングとスクレイピングの分離、 クローラの並列処理、 タ

    Rubyによるクローラー開発技法 vol7 ~一気に読んじゃった~ - 1人でアプリを作れるように
    dkfj
    dkfj 2015/07/28
    最後まで読んで頂き、ありがたい限りです。是非、独自のクローラー作って頂ければと思います
  • Rubyによるクローラー開発技法 vol6 ~自動巡回とページの取得~ - 1人でアプリを作れるように

    今回は、 chapter2のリンク抽出機能を勉強していきます。 やる事は ヤフーのトップページを開く ページ内のAタグを抽出する Aタグのhref属性からURLを取得する 取得したURLを使ってページ遷移を行う スクリーンショットを撮って保存する です。 とりあえず、クロの通りに書き写して 上手くいかないところを修正して動くようになりました。 どこが上手くいかなかったかというと、 クロには 抽出したURLがターゲットのホスト名と一致した場合のみ つまりwww.yahoo.co.jpと一致した場合のみ スクリーンショットを撮る と書いてあるのですが、 ヤフーのサイトが変わったせいか、 取得するURLがすべてrdsig.yahoo.co.jpになってて ホスト名と1件も一致しなくなっていました。 やっぱりWebサイトって結構頻繁に変わるんですね。 何はともあれ、上手く動くようになったんです

    Rubyによるクローラー開発技法 vol6 ~自動巡回とページの取得~ - 1人でアプリを作れるように
    dkfj
    dkfj 2015/07/27
    サイトのHTMLの構造はどんどん変わるので、このようにエッセンスを汲み取って頂ければありがたいです。
  • Rubyによるクローラー開発技法 vol5 ~カピバラさんと出会う~ - 1人でアプリを作れるように

    今回は勉強に入る前に一つ。 今まで読み進めてきた 「Rubyによるクローラー開発技法」 なんですが、 「」と書いたり 「書籍」と書いたりと、 統一感がなかったので わかりやすい呼び名を考える事にしました。 できるだけ短い方が良いので Rubyによるクローラー開発技法 ↓ Rubyクローラー開発 ↓ ルビクロ ↓ クロ でいきたいと思います。 では、題に戻ります。 今回は、 クロ通りに進めると(まだchapter2です)、 ログインが必要なサイトをクローリングする方法について 勉強していく事になるのですが、 題材が、 「Amazonアソシエイトのウェブサイトにログインして、売上情報を抜き出す」 という内容なんです。 ここで問題が発生。 Amazonアソシエイトのアカウントを持ってない・・・ こりゃまずいと思って、 急いでAmazonアソシエイトのアカウントを作って申請したのですが

    Rubyによるクローラー開発技法 vol5 ~カピバラさんと出会う~ - 1人でアプリを作れるように
    dkfj
    dkfj 2015/07/27
    Capybaraさん。この辺、楽しいですよね
  • Rubyによるクローラー開発技法 vol4 ~nokogiri~ - 1人でアプリを作れるように

    前回はWebサイトをクロールするところまで書いたので、 次は取得したページを解析して、必要な情報を抜き出します。 必要な情報を抜き出すには、 nokogiriというライブラリを使えばいいみたいです。 使い方は簡単で、 nokogiriライブラリを使えるようにする require 'nokogiri' anemoneで取ってきたpageのHTMLデータをnokogiriオブジェクトに変換する doc = Nokogiri::HTML.parse(page.body.toutf8) doc.xpathメソッドで欲しい情報を抜き出す rank = item.xpath("//div[1]").text これだけです。 これならすぐできると思い、 さっそくに書かれた内容を写して実行してみたんですが、 実行結果がに載っているものと違う・・・。 どうやらamazonのWebサイトが少し変わったよう

    Rubyによるクローラー開発技法 vol4 ~nokogiri~ - 1人でアプリを作れるように
    dkfj
    dkfj 2015/07/16
    クローラー/スクレイピングする人が増えてくるのが嬉しい
  • Rubyによるクローラー開発技法 vol2 ~基本的な書き方を学ぶ~ - 1人でアプリを作れるように

    chapter1の続きを読み進めます。 chapter1では最終的に、 あるサイトのトピックス情報を取得し、 RSS配信するところまでやります。 完成するとこんな感じ 通りに書き写しただけと言われればそこまでなんですが、 自分の手で書いたものが動くとちょっと感動。 しかも親切な事に、 に書かれていたサイト以外に、 自分が情報を取得したいサイトがあれば、 簡単に実装できるようなプログラムになっていて、 解説もされている。 なので、簡単に自分専用のRSSがつくれます。 今回学んだ事 CGI.unescapeHTML HTML等の文字列内の文字コードになった部分を文字列に変換する。 p CGI.unescapeHTML("a > b") => "a > b" 当然、逆もあります。 CGI.escapeHTMLです。 p CGI.escapeHTML("a > b") => "a &gt

    Rubyによるクローラー開発技法 vol2 ~基本的な書き方を学ぶ~ - 1人でアプリを作れるように
  • Rubyによるクローラー開発技法 - 1人でアプリを作れるように

    RubyWarriorを攻略してから はや5日。 次は何をやろうか考えてました。 何をやろうか考えてる時って こーゆー事したい。とか こんな事できたら面白そう。とか 色々考えて、夢(妄想)がふくらみますね。 この時間って当楽しいです。 ただ、残念な事に自身のスキルが追いついていないので、 やりたい事ができない自分に凹む事も多いですが・・。 まぁでもこれから ひとつずつ覚えていけばいいだけの話なので、 あまり気にしていません。 という事で今日から Rubyを使ったクローラー開発を勉強していきます。 勉強の方法は、今回のタイトルにもなっている 「Rubyによるクローラー開発技法」というを進めていくやり方で考えてます。 Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例 作者: るびきち,佐々木拓郎出版社/メーカー: SBクリエイティブ発売日: 2014/08/25メディア

    Rubyによるクローラー開発技法 - 1人でアプリを作れるように
  • 1