「Rで欠損値埋めるのにいいパッケージないかな〜」と思って色々探してみたら、「simputation」という良さそうなパッケージを見つけました。 参考文献 紹介スライド 使い方 Rのhelp {simputation}の何がいいのか 書き方がシンプル {dplyr}と相性がいい impute関数が非常に便利 まとめ 参考文献 紹介スライド そもそもこのパッケージの事を知ったのは、下記のスライドがきっかけです。「こんな感じでコードがかけたら便利だなあ」みたいなものが的確に実装されている事がわかりました。 simputatoinで欠損値補完 - Tokyo.R #65 from gepuro Hayakawa www.slideshare.net 使い方 当然英語ではあるものの製作者(?)から提供されている具体例も非常にシンプルでわかりやすく、基本的な機能の使い方はこれで身につけられると思います
こんにちは。データサイエンスチームの t2sy です。 この記事は NHN テコラス DATAHOTEL:確率統計・機械学習・ビッグデータを語る Advent Calendar 2017 の20日目の記事です。 Rで実践!欠損データ分析入門【1】では BostonHousing データセットから欠損データを生成し、欠損データの可視化、MCAR検定、単一代入法と多重代入法による代入を R のコードを交えご紹介しました。引き続き、欠損データの代入に関する以下のCRANパッケージをご紹介します。 VIM missForest missMDA 準備として前回同様に米国ボストン市郊外における地域別の住宅価格のデータセット BostonHousing から MCAR/MAR を仮定できるような欠損データを作ります。 > data(BostonHousing, package = "mlbench")
こんにちは。データサイエンスチームの t2sy です。 この記事は DataScience by DATAHOTEL tech blog Advent Calendar 2017 の8日目の記事です。 2回に渡り、欠損データの可視化・検定・代入に関するCRANパッケージをご紹介します。 今回、ご紹介するCRANパッケージは以下になります。 VIM BaylorEdPsych imputeMissings mice 実行環境は R 3.3.2 です。 例として米国ボストン市郊外における地域別の住宅価格のデータセットである BostonHousing を扱います。BostonHousing データセットには以下のカラムがあります。 crim: 人口1人当たりの犯罪発生率 zn: 25,000 平方フィート以上の住居区画の占める割合 indus: 小売業以外のビジネスが占める面積の割合 chas
今回は製薬協が作成した「治験の効率的実施を目指した医療機関での品質管理」を支持する、という意思表明です。 ↓ http://www.jpma.or.jp/about/board/evaluation/allotment/chiken_hinshitsu.html この(↑)資料はALCOAのおおもとです。アルコアのために欠かせない考えかたです。 ぷか「ねぇ、ALCOAって何?アルコアって何? アレ?コレ?」 JOYママ「ALCOAとは以下の単語の略だね。」(治験関係でのALCOAだ) ◆◆◆ ALCOA(アルコア)とは治験データの信頼性を確保するための考え方だ ◆◆◆ 1) Attributable(帰属/責任の所在が明確である) 2) Legible(判読/理解できる) 3) Contemporaneous(同時である) 4) Original(原本である) 5) Accurate(正確
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? さまざまなニュースアプリ、ブログ、SNSと近年テキストの情報はますます増えています。日々たくさんの情報が配信されるため、Twitterやまとめサイトを見ていたら数時間たっていた・・・なんてこともよくあると思います。世はまさに大自然言語時代。 *from [THE HISTORICAL GROWTH OF DATA: WHY WE NEED A FASTER TRANSFER SOLUTION FOR LARGE DATA SETS](https://www.signiant.com/articles/file-transfer/the-
Dockerでのデータの扱い Dockerで永続データを扱う際にいろいろな方法があることが勉強できました。 いろいろな方法論がありなかなかに難しい分野ではありますが、勉強し甲斐のある部分でもあります。 今回はデータボリュームコンテナ(以下データコンテナ)についてを書こうと思います。 テストのホスト環境はGUN/LInux debian8で、dockerコマンドはsudoなしで実行できるように設定している状況です。 最小限環境コンテナ データコンテナはなんのプロセスも動かす必要がないので、できるだけ最小限環境なコンテナであって欲しいです。 今回はBusyboxというツールのイメージを使ったコンテナをデータコンテナとして仕上げていきたいと思います。 最小限環境を作るのにうってつけのBusyBox BusyBoxとは標準UNIXコマンドの主要コマンドをまとめて1つの実行ファイル化したツールです。
Securely and flexibly communicate across open networks in our decentralized, hyper-connected world. AI, edge computing, and decentralized applications are revolutionizing the way we use data, raising new challenges for digital trust. Intertrust is leading the future of interconnected systems, establishing trust in energy and media ecosystems. Accelerate energy digitization with trust and interoper
第2回 データの管理、「サービスレベル」でしてみると……:データで戦う企業のためのIT処方箋(1/2 ページ) データ管理に限らず、ITシステムを用いたサービスを導入する際には、定めた目標の実現に必要な機能・性能を洗い出して、具体的なシステム構成に落とし込む作業が必要です。日本ではほとんどのユーザー企業がベンダーやSIerと一緒に、あるいはお任せして要件を詰めていきますが、まずは業務に応じてITサービスが基本的に実現すべき目標――「サービスレベル」を定めます。 サービスレベルは「サービス品質」ともいわれますが、ITシステムの設計では“根”や“幹”に当たり、ここから必要な“枝”や“葉”に広げて具体的な検討に進み、決定していくものとなります。サービスレベルや、定めたサービスレベルを説明・記載した「サービスレベルアグリーメント」(SLA)については、ITILなどでも定義されている用語ですので、ご
人工知能やデータ解析の領域で、膨大な量のデータから、物体概念(物体識別)や音声・体の運動スキーマ概念を自動的・自律的に獲得できる可能性をもった手法として、Deep Learning(ディープ・ラーニング、「深層学習」)と総称される手法が注目を集めています。 こうした中、一部の研究者やベンチャー企業の経営者・エンジニアの中には、このDeep Learningのさらに先をいくデータ解析手法として、TDA:トポロジカル・データ・アナリシス (Topological data analysis) と呼ばれる手法に着目している方たちがいるようです。 Deep Learningと同じく、人間が脳を使って、五感で得た周囲や自分の体についての感覚情報から、どのようにして周囲の環境空間に対する認識イメージや、物体概念、みずからの身体概念を得ているのか?という「問い」に対して、統計学や確率論のアプローチではな
統計学とデータ分析を学ぼう。データと向き合い、そこから規則性や裏で起こっている事象を見出すスキルはかならず必要となる。今後、”意志決定は「直感」よりも「経験」よりも、「データ」に基づいて行われることが最も信頼できる”ということを多くの人が認識するようになる。 統計学・データ分析を学ぶ理由 データは何より信頼できる。 インターネットやPCが普及する前は、経験豊富なベテランによる直感的な意思決定が最も信頼できた。きちんと記録されたデータも、それを分析するソフトもなかったためだ。しかし、現在ではデジタルデバイスにより簡単にデータを記録できるようになり、インターネット上に多くのデータが蓄積されるようになった。誰でもデータにアクセスできるようになったのだ。 「正確なデータからの統計解析結果」は何よりも信頼できる(データを軽視し、経験ばかりを重視する会社は、気づかないうちに時代に取り残されていく)。
Multivariate, Sequential, Time-Series, Domain-Theory
はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、
「mockaroo」はダミーデータを1000種類自動生成してくれるサービスです。開発時に必要なダミーデータを大量に一括生成してくれますよ。フォーマットは、CSV, JSON, SQL, Excel形式です。SQLはテーブル名を指定すると、INSERT文を自動生成してくれるので便利でした。 以下に使ってみた様子を載せておきます。まずmockarooへアクセスしましょう。 キーに対する値を入れていきましょう。一定確率で空要素も指定できますね。 どのようなデータを入れるかは、一覧から選択できます。100種類近くあるのできっと最適なデータが探せるかと思います。 JSON形式で生成した結果です。全部で1000種類のダミーデータが一括で作成できました。開発中にダミーデータが大量に欲しいときにぜひ使ってみてください。 mockaroo (カメきち)
新Webサイト向け 今月中旬に当ブログのアクセス急減がありました。 実際にはアクセス解析の間違いで、アクセス急減自体は起きていませんでしたが色々と焦りました(-_-; フリーランスとして独立してからは、主な収入源をWebサイトからの収益に依存しています。 外の仕事も受けてはいますが、労働に対しての対価を頂くスタイルのため仕事を頂いている間は良いですが、仕事が途切れるタイミングもありますので、出来ればWebサイトからの収益を増加させたいと考えています。 一応、当ブログにおいても2015年6月からアフィリエイト広告を解禁して収益増加を目指しました。 ですが6月はアフィリエイト収益は1万円のみ(>_<) アフィリエイトはどうも苦手ですね(^^; 収益の多様化を目指すべく、Webサイトを新規に構築予定です。 現在は外の仕事が忙しいので、現在は企画・設計までで具体的な作業は秋頃になると思いますが、そ
お久しぶりです、数の奴隷編集部です。 最近はパソコンを使って作業をすることが多いのですが、何だか右手の方がやけに動いてるし疲れるような気がするんでしょね…。 しかし、もしかしたら気のせいかもしれない…いや、でも明らかに…しかし気のせいだったら……というわけで、「これは数えるしかない!」と数の奴隷が再燃いたしました。 どうやって数えようかなあと思っていたら、便利なものがあるじゃないですか! それがこの「タイプ数カウンター」というフリーソフト。 インストールしておけば、何回タイプしたのかを勝手に数えてくれます。 これが無かったら、一日タイピングしている様子を動画に収めてひたすら数えるところでした…(そっちの方が、数の奴隷っぽいかもしれませんが)。 私はほぼ一日中パソコンを使用しているので、「一日中パソコンを使っている人はこんな感じかあ」という風に考えていただければと思います。 なお、今回の検証
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く