タグ

DataScienceに関するDiomedeidaeのブックマーク (2)

  • tabulizerパッケージによるPDF表データからのデータ取得

    ROpenSciの実験的パッケージリポジトリropenscilabsで、便利そうなパッケージを見つけた。使ってみた感じ、PDFからのデータ取得の決定版となりそうな大変便利なパッケージであることがわかったので、その機能を試しておく。 ROpenSciの実験的パッケージリポジトリropenscilabsで、便利そうなパッケージを見つけた。{tabulizer}というものだ。このパッケージはTabulaというオープンソースツールの機能を利用して、PDF中に含まれる表から、値を取り出すというもの。 政府や企業の報告書はPDFであることが多く(二次利用を想定していないのだろうが)、表としてデータが収められていることがしばしばある。PDFからのデータ取得方法として、Rでは {tm}を使う方法や{pdftools}を利用する方法がそれぞれあるが、{pdftools}ではテキストベースでの抽出となるため、

    tabulizerパッケージによるPDF表データからのデータ取得
    Diomedeidae
    Diomedeidae 2017/07/03
    PDFの表からDataFrameにじかに変換するRパッケージ。今度使ってみよう。
  • Welcome | R for Data Science

    This is the website for the first edition of “R for Data Science”, published January 2017. This book is now out-of-date and instead we recommend the 2nd edition at http://r4ds.hadley.nz/ which was published in June 2023. R4DS teaches you how to do data science with R: You’ll learn how to get your data into R, get it into the most useful structure, transform it, visualise it and model it. In this b

    Welcome | R for Data Science
    Diomedeidae
    Diomedeidae 2017/06/15
    Hadley大明神のありがたいお言葉。
  • 1