2015年6月12日のブックマーク (4件)

  • Chrome拡張「Scraper」でWEBページ情報を手軽にスクレイピングしてデータ化する方法

    Scraperとは Scraperは、WEBページ上の規則性のあるデータを手軽に取得することができるChrome拡張です。 例えば、テーブルデータや、Aリンクデータ、のような特定のHTML要素に入っている情報を、片っ端から取得してテーブルデータ化することができます。 また、その取得したデータをワンクリックでGoogleスプレッドシートに保存することができます。 テーブルデータのスクレイピングは以下の動画を見た方が分かりやすいかも。 以下では、その使い道などをいくつか考えてみました。 テーブルデータの取得 最もオーソドックスな使い方と言えば、動画にも出てきたテーブルデータの取得です。 例えば、信長の野望の以下のような武将データテーブルがあったとします。 これを、以下のように選択して、Chromeの右クリックメニューから「Scrape similar(似たものをスクレイプ)」を選択します。 す

    Chrome拡張「Scraper」でWEBページ情報を手軽にスクレイピングしてデータ化する方法
  • R-Source 10. オブジェクトの表示

    オブジェクト名(変数名)だけを入力してもオブジェクトの中身は表示されるが,以下に紹介する関数を用いることで,出力形式をカスタマイズすることが出来る. オブジェクトを表示する:print() オブジェクトを表示する基的な関数は print() である. x <- "one" print(x) # "" ありで出力 [1] "one" print(x, quote=F) # "" なしで出力 [1] one 関数 page() で別ウインドウにオブジェクトの値を表示することも出来る.これは長いデータなどを表示する場合に有用である. 文字列を表示する:cat() 文字列を表示する基的な関数は cat() である.関数 print() で文字列を表示すると前後にダブルクオート "" がつけられるが,cat() で表示すれはダブルクオート "" はつかない.文字列中で \\ ,\t ,\n ,\

  • [R]DBから日本語データを読み込んだ際の文字コードの変更 - データ分析がしたい

    Rにおいて、「DBI」と「RPostgreSQL」を使ってデータを読み込む方法を以前紹介しました。 http://overlap.hatenablog.jp/entry/2013/05/16/224030 上記の方法は基的に問題はないのですが、日語データを読み込む時に文字化けするという問題があります。 (ファイルから読み込む場合は読み込み時に文字コードを指定ますが、DBIパッケージでDBからデータを取得する際に文字コードは指定できないと思われるので。) この問題は、データをR上に読み込んだ後に文字コードを変更することで解決できます。 以下、具体的な方法について述べます。 ある文字列の文字コードはiconv関数で変換できます。 使い方は iconv(文字列,from="変換前の文字コード",to="変換後の文字コード")となります。文字列はvector型で大丈夫です。またfromとtoで

    [R]DBから日本語データを読み込んだ際の文字コードの変更 - データ分析がしたい
  • rvest で声優の男女データをスクレイピング #rstatsj - Qiita

    こういう話がある。 声優のプロフィール - 驚異のアニヲタ社会復帰への道 しかし、この記事でスクレイピングしている声優のプロフィールページには男女のデータが載っていないようだ。 なんかもういろいろめんどくさいので声優の男女のアノテーションデータ持ってる人いないですか — YF (@Med_KU) 2015, 5月 17 ただし、同じサイトの声優一覧ページを見るとアイコンの色により男女が判定できる。 声優一覧(あ行) - 声優データベース こいつをスクレイピングして男女データを作ってみよう。 library(rvest) library(pforeach) npforeach(i=1:10, .c=rbind)({ cat(i, "\n") url <- sprintf("http://lain.gr.jp/voicedb/profile/list/cid/%d", i) Sys.sleep

    rvest で声優の男女データをスクレイピング #rstatsj - Qiita