タグ

readxlに関するishideoのブックマーク (4)

  • Excelからデータを読み込むR関数(2)readxl::read_excel - 一所懸命に手抜きする

    Rは標準ではExcelファイルを読み込めないらしい まずはサンプルを RでExcelデータを読み込む(2) readxlパッケージを使う方法 read_excel実行例1 read_excel実行例2 read_excel実行例3 Rは標準ではExcelファイルを読み込めないらしい 企業では多くのデータがExcelファイルとして存在しますがRの標準ではExcelファイルを読み込めないのでした。 RODBCパッケージの関数を使うことで読み込めることを紹介しました。 最近ではreadxlという新しいパッケージが発表され、これがなかなか良いという評判です。 まずはサンプルを 例えば、Excelファイル「RTest.xls」の「社員名簿」シートがあります。 社員名簿サンプルExcelファイル作成コード RでExcelデータを読み込む(2) readxlパッケージを使う方法 比較的新しいパッケージに

    Excelからデータを読み込むR関数(2)readxl::read_excel - 一所懸命に手抜きする
  • 「Rによるデータクリーニング実践」をやってみた - Qiita

    はじめに 一般に分析対象となるデータは、欠損やフォーマットの違いなどがあり、そのまま使用することができません。そこで分析の前にはデータを分析可能なデータに変換するクレンジング作業が必要となります。以下のブログでは、クレンジング作業が工数の9割を占めるとの意見もあります。 「前処理」のフォーマット共通化やOSS化はできないんだろうか Zansaの会で話した内容は冒頭のslideshareの通りなんですが、改めてその中で口を酸っぱくして訴えたかったポイントの一つに 「データサイエンティスト=マエショリスト」 という現実を見なきゃダメだよねー、というのがありまして。これは冗談でも何でもなくて、冒頭の>slideshareでも書いてるようにうっかりすると全工数の9割が前処理*1、なんてこともあったりします。 そこで今回はこちらの参考サイトのクレンジング作業を実践してみたいと思います。 Rによるデー

    「Rによるデータクリーニング実践」をやってみた - Qiita
  • readr: 高速で柔軟なテーブル読み込み

    タブ区切りテキストやCSVファイルを読み込んでdata.frameにするツール。 .gz や .xz などの圧縮ファイルも透過的に読み書き可能。 標準でも read.table() や read.csv() があるけど、それらと比べて 場合により数倍高速・省メモリ 列の名前や型を指定しやすい 指定した列だけ読み込むこともできる 生data.frameより安全な tibble として返してくれる 空白行を勝手にスキップする (1.2から skip_empty_rows = TRUE) 勝手に列名を変更しない する (2.0から name_repair = "unique") stringsAsFactors = FALSE とイチイチ書かなくて文字列を読める R 4.0 から標準関数もこの挙動。 tidyverse に含まれているので、 install.packages("tidyverse

    readr: 高速で柔軟なテーブル読み込み
  • RでExcelのデータを読む方法

    今のところXLConnectパッケージが制約や問題点が少ないようである。 openxlsxパッケージについて追記した。xlsxに限ればこれがお薦めである(ただし注意点あり)。 Hadley Wickhamのreadxlパッケージについて書き足した。爆速かつ完璧。 xlsxパッケージ xlsxパッケージはxls/xlsxファイルを読み書きするためのものである。Javaで書かれたApache POIを使っている。インストールはMacでも簡単に行えた(昨今のセキュリティ事情からJavaをアンインストールした人は使えない)。 ワークシートをデータフレームとして読み込む関数は read.xlsx() と read.xlsx2() である。どちらもファイル名とシート番号(1から始まる)を引数とする: data = read.xlsx("test.xls", 1) # または read.xlsx2("t

  • 1