並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 7 件 / 7件

新着順 人気順

tabulizerの検索結果1 - 7 件 / 7件

  • 統計モデリングで癌の5年生存率データから良い病院を探す - StatModeling Memorandum

    概要 2017年8月9日に国立がん研究センターは、がん治療拠点の約半数にあたる全国188の病院について、癌患者の5年後の生存率データを初めて公表しました(毎日新聞の記事)。報告書は国立がん研究センターが運営するウェブサイトからダウンロードできます(ここ)。報告書をダウンロードしようとすると注意点を記したポップアップが表示されます。大切な部分を抜粋すると以下です。 本報告書には、施設別の生存率を表示していますが、進行がんの多い少ない、高齢者の多い少ないなど、施設毎に治療している患者さんの構成が異なります。そのため、単純に生存率を比較して、その施設の治療成績の良し悪しを論ずることはできません。 一般に高齢者が多い病院ほど、進行癌(ステージが進んだ癌)が多い病院ほど、その病院の生存率は下がるわけです。それならば、統計モデリングで年齢と進行度(ステージ)の影響を取り除いて(専門的な言葉で言えば「調

      統計モデリングで癌の5年生存率データから良い病院を探す - StatModeling Memorandum
    • tabulizerパッケージによるPDF表データからのデータ取得

      tabulizerパッケージによるPDF表データからのデータ取得 👤 Shinya Uryu 📆 2016年8月24日(水曜日) ROpenSciの実験的パッケージリポジトリropenscilabsで、便利そうなパッケージを見つけた。 {tabulizer} というものだ。このパッケージは Tabula というオープンソースツールの機能を利用して、PDF中に含まれる表から、値を取り出すというもの。 政府や企業の報告書はPDFであることが多く(二次利用を想定していないのだろうが)、表としてデータが収められていることがしばしばある。PDFからのデータ取得方法として、Rでは {tm} を 使う方法 や {pdftools} を 利用する方法 がそれぞれあるが、 {pdftools} ではテキストベースでの抽出となるため、表データの抽出からRの特徴とも言えるデータフレーム形式への変換が困難であ

      • PDFの表をpandasのDataFrameにできる tabula-py 作った - once upon a time,

        RubyKaigiに参加するとコード書きたいという気持ちが高まって良いのですが、今回はPDFの表を読み込んで pandas の DataFrame に変換できる tabula-pyを作りました。 これをもってRubyKaigiの参加報告とさせていただければと思います。 tabula-pyとは tabula というJavaで書かれたPDFから表を抽出するライブラリをPythonでうすーくラップしたものです。実装を見てもらえばわかると思いますが、本当にsubprocessでJavaのプログラムを叩いて標準出力で受け取るというだけしかやっていません。 もともとは、Rのtabula実装がかなり色々できるのを知ってPythonがないらしいというので作りました。Rの実装はマジでJavaをごりごり書いていて尊敬の念を抱いています。 tabulizerパッケージによるPDF表データからのデータ取得 git

          PDFの表をpandasのDataFrameにできる tabula-py 作った - once upon a time,
        • tabulizerパッケージによるPDF表データからのデータ取得

          ROpenSciの実験的パッケージリポジトリropenscilabsで、便利そうなパッケージを見つけた。使ってみた感じ、PDFからのデータ取得の決定版となりそうな大変便利なパッケージであることがわかったので、その機能を試しておく。 ROpenSciの実験的パッケージリポジトリropenscilabsで、便利そうなパッケージを見つけた。{tabulizer}というものだ。このパッケージはTabulaというオープンソースツールの機能を利用して、PDF中に含まれる表から、値を取り出すというもの。 政府や企業の報告書はPDFであることが多く(二次利用を想定していないのだろうが)、表としてデータが収められていることがしばしばある。PDFからのデータ取得方法として、Rでは {tm}を使う方法や{pdftools}を利用する方法がそれぞれあるが、{pdftools}ではテキストベースでの抽出となるため、

            tabulizerパッケージによるPDF表データからのデータ取得
          • Googawho? 二つの検索エンジンを横に並べて比較するサイト | 秋元@サイボウズラボ・プログラマー・ブログ

            GoogleGoogleGoogleGoogleよりは役に立つのでしょうか、Googawho?は、二つの検索エンジンの検索結果を並べて見せてくれるというサービスです。 Goog(le)awho(Yahoo)というサービス名とロゴの割りに、デフォルトで表示されたのはなぜかGoogleと前世紀を代表する検索エンジンアルタビスタ。 Google, Yahoo!(米国のほう)、Bing、Ask、InfoSpace、AltaVista、Lycos、Dogpileの8つの検索エンジンについて、ウェブ検索・ニュース検索・イメージ検索を切り替えつつ、検索結果を並べ見することができます。 以下は話題のBing対Yahoo! 近いうちに右側の結果も左と同じになっちゃうんですね… また、フッタのTabulizerをクリックすると、8つのタブに全部の検索結果を表示してくれたりもします。 日本語の結果の比較じゃない

              Googawho? 二つの検索エンジンを横に並べて比較するサイト | 秋元@サイボウズラボ・プログラマー・ブログ
            • 「2016年版このRパッケージがすごい」暫定第一位、tabulizerパッケージを使って、日本で話題のCookpadの有価証券PDFから超簡単にデータを取得してビジュアライズまでしてみた - Qiita

              「2016年版このRパッケージがすごい」暫定第一位、tabulizerパッケージを使って、日本で話題のCookpadの有価証券PDFから超簡単にデータを取得してビジュアライズまでしてみたRデータ分析DataVisualizationデータ可視化Exploratory 今年の3月ごろから何やらCookpadが騒がしいですね。IT業界に足を置いていれば、このような噂を聞いたりするのは、1度や2度ではないのではないのでしょうか?一部報道には、幹部社員が大量離脱したためサービス運営が困難、という報道もありました。Cookpadの有価証券から、実際に決算がどうなっているのかを見てみると、噂が本当なのかや事件の影響について検証できそうです。事件の前と後で業績に変化はあったのか、1株あたりの利益はどれくらい増加しているのかって質問に答えることができそうです。ところが、ほとんどの有価証券はPDFデータにな

                「2016年版このRパッケージがすごい」暫定第一位、tabulizerパッケージを使って、日本で話題のCookpadの有価証券PDFから超簡単にデータを取得してビジュアライズまでしてみた - Qiita
              • Kan Nishida 🇺🇸❤️🇯🇵 on Twitter: "PDFに埋まっているテーブルデータを開放してあげるには、Rを使えば以下の4行でできちゃいます! library(tabulizer) library(purrr) df_list <- tabulizer::extract_t… https://t.co/yZ3TfNeER3"

                PDFに埋まっているテーブルデータを開放してあげるには、Rを使えば以下の4行でできちゃいます! library(tabulizer) library(purrr) df_list <- tabulizer::extract_t… https://t.co/yZ3TfNeER3

                  Kan Nishida 🇺🇸❤️🇯🇵 on Twitter: "PDFに埋まっているテーブルデータを開放してあげるには、Rを使えば以下の4行でできちゃいます! library(tabulizer) library(purrr) df_list <- tabulizer::extract_t… https://t.co/yZ3TfNeER3"
                1