Do you want to subscribe to the notification email? Once subscribed, notification emails will be sent to your registered email address when the insight is republished or refreshed by the scheduling.
探索的なデータ分析 (Explore Data Analysis: EDA)を行う際は、データの要約や欠損の有無の確認、可視化が欠かせない作業となります。 特に可視化は、データのもつ性質や関係を表現するのに大変役立ちます。一方で、可視化に用いた図はコードとは別に保存する必要があったり、作図のためのコードを書いたりと、面倒な側面もあります。 … きちんとした作図は面倒だけどデータの性質や欠損について把握したい。そんな時にはコンソール上での可視化を試しましょう。そのためのパッケージをHadley Wickhamが開発しています。 https://github.com/hadley/precis Rにはそもそも、オブジェクトの情報を要約してくれるsummary()関数があるのですが、この precisパッケージは、それを置き換えるような設計を目指しているそうです。早速使ってみましょう。 # gi
お久しぶりです。 最近上司と「機械学習とかその辺の技術が発展したら、真っ先に自動化されて仕事なくなるのはハンパなエンジニアと中間管理職だよね〜」という話をして危機感を募らせている @takeshi0406 です。 WEBエンジニアにはご存じの方も多いと思いますが、転職ドラフトというWEBサービスがあります。 job-draft.jp このサービスは、次のような理念や問題感から始まった作られたものだそうです。素晴らしいです。 企業による公開競争入札。 これなら、自由競争でのリアルな相対価値がわかるようになる。 エンジニアだからこそ、より明確に。 誰が評価され、誰が評価されないのか。 自分の価値向上には、これから何をすべきなのか。 私も「友達を紹介してオライリー・ジャパンの本をGETしよう!」の文言につられて、友だちを3人紹介した上で登録したのですが、レジュメを丁寧に読んでダメ出ししてもらえ(
私が分析を行う際、データ加工や集計作業は基本的にSQLで行い、分析やモデル作成はRで行うことが多いです。 しかし、DBが使えないような場合やちょっとした集計などRでデータを加工・集計したい場合があります。 RでSQLで行うようなデータ加工・集計を行うには、基本的にsubsetやorder、merge、aggregateといった関数を利用します。 (SQLとRの関係については、以下のページがわかりやすいです。 http://d.hatena.ne.jp/a_bicky/20110529/1306667230) ただ、こういった関数はよく使い方を忘れてしまい、Webなりヘルプなりを使うたびに調べるなんてことが起こります。 正直、かなり面倒なわけです。 そこでSQLクエリを使って直接Rのデータを加工できたら良いなーと思うわけですが、 「sqldf」パッケージを用いれば直接SQLを利用してデータを
こんにちは、買物情報事業部でサーバサイドの開発を担当している荒引 (@a_bicky) です。 今回のエントリでは R で A/B テストの結果検証を行う方法の一例について紹介します。 エンジニアでも自分の関わった施策の効果検証のために簡単な分析をすることがあるかと思いますが、そんな時にこのエントリが役立てば幸いです。 なお、次のような方は対象外です。 A/B テストや KPI の設計に興味のある方 この辺には全く触れません プログラミング初心者 わからない単語が大量に出てくるでしょう R で統計学や機械学習の手法をバリバリ使いたい方 世の中の “分析” の多くは集計処理がメインです Python, Julia など既に分析する上で使い慣れた言語・ツールがある方 今回のエントリ程度の内容であればわざわざ乗り換える必要もないでしょう OS は Mac を前提として説明するので、Windows
この文書の最終的な目標は,いくつものデータセットを一括処理するためのプログラムを 書くことですが,そのまえに,ひとつのデータファイルを読み込んでの処理を ごくごく簡単に練習してみます. 練習用ディレクトリとデータファイルの用意 すでに前のページの練習のためにディレクトリは作ってあるかもしれません. それならそれを使いましょう.まだ作ってないなら,さっそく用意してください. 名前はなんでもけっこうです. そのディレクトリの中に,最初に使う練習用データ len_width.txt を入れます. >データファイル len_width.txt クリックするとそのまま内容が表示される場合,全体をコピーしてから エディタの新規文書に貼りつけるとか,「対象をファイルに保存」「リンク先を保存」 (ブラウザによる)というようなメニュー項目を選ぶとかしてみてください. このファイルに,以下のように3列のデータ
NeRF-VAE is a 3D scene generative model that combines Neural Radiance Fields (NeRF) and Generative Query Networks (GQN) with a variational autoencoder (VAE). It uses a NeRF decoder to generate novel views conditioned on a latent code. An encoder extracts latent codes from input views. During training, it maximizes the evidence lower bound to learn the latent space of scenes and allow for novel vie
対象読者 knitr でのドキュメント生成は体験済みの方 データ分析をやっていてそのレポートを Word などで作るのが面倒くさい方 チームで分析をやっていて,データ分析の再現性を共有したい方 記事のゴール ゴール:knitr を基本的に使えるような知識を身に付けて,R での分析結果を HTML として生成できるようになる 前提 RStudio をインストール済み knitr をはじめるにあたっての基礎知識 knitr とは? knitr パッケージは.R の実行結果をレポートして作成するのに役立つパッケージです. 組織でのデータ分析には,報告書を作成する業務がつきまといます. たとえば,Word で報告書を作成していてデータ分析結果のプロット図を何百枚も貼り付けているとします. その途中で分析に誤りがあったり,条件を変更したりするときに,もう一度画像を貼り直す作業をするのは大変です. k
『Rで楽しむ統計』が出ました。サポートページ 『Rで楽しむベイズ統計入門』が出ました。サポートページ,第7章のRコードをStanで書き直したRで楽しむStan 全国学力・学習状況調査の個票の疑似データがこちらで公開されています。データ分析の練習に使えそうです。SSDSE(教育用標準データセット)も。 R 4.x では stringsAsFactors=FALSE がデフォルトになりましたが,本サイトの古い記事ではそうなっていないところがあるかもしれません(read.csv() などで as.is=TRUE は不要になります(あってもかまいませんが))。 R 4.2 ではWindowsでもMac同様UTF-8がデフォルトになりました。もう fileEncoding オプションに "UTF-8","UTF-8-BOM" を指定する必要はなくなりそうです。一方で、SJIS(CP932)データの場
相関ルール 頻出するアイテム間の何らかの組み合わせの規則をアソシエーションルールと呼ぶ。アソシエーションルールは連関ルール、関連ルール、相関ルールなどと呼ばれます。 「商品Aを買うと商品Bも買う」のようなルールを見つけ出すことを目標としています。 今回の例は、掃除機の購買動機に繋がる不満要素の組み合わせです。 これを特定し、その中でも特に強い不満点を解明して、商品開発に貢献させることを目標とします。 アンケートの設問 設問の形式 チェックボックス系の複数回答形式の設問 回答データ 水平展開形式のデータ サンプル毎に複数の設問への回答が存在し、1サンプル1レコードの形式であること。 集計データ 予め用意できるのであれば、SQLなどで集計データを作成しておくとグラフが描きやすくなります。 (※そこまで準備しなくとも、Rで図を出すことは可能です。) ※しかし、この表では集計されてしまっているので
はじめに 前回, 大相撲のデータを正しく作るのが辛い, ということを書きました. Rでスポーツデータ解析がしたい: データを作るのって大変ですね - 300億円欲しい まだ整形できていないのですが, 現段階で可能な解析をしたいと思います. 八百長問題が気になりますので, 千秋楽の勝率を集計してみます. 先行研究 大相撲のアノーマリー. 2010年に書かれた記事です. 八百長がありそうかどうか, という解析です. 実践! Rで学ぶ統計解析の基礎(8):大相撲のアノーマリー (2) (2/2) - @IT もしも、この計算の追試や、何らかの追加計算をされた方がいらっしゃったら、是非ともその結果を教えてくださることを熱望します。 また、1999年以前10年間程度の十両・幕内の勝敗データを持っていらっしゃる方がおりましたら、そのデータを提供いただければ、より一層踏み込んだことが分析できると思います
統計解析ツールRを使ったエンジニア向けデータマイニング講座後編。機械学習の1手法である決定木を用いて、事例を基にデータマイニングを実践していきます。エンジニアとしてのキャリアアップを考えている方にピッタリのデータマイニング連載企画最終回です。 ここまでのあらすじ「山田とデータマイニングとR」 前回は、ウェブ系のエンジニアの山田君がデータマイニングを始めるきっかけをお話ししました。 ―Rを学ぼう!エンジニア向けデータマイニング講座|freee 坂本登史文【初めの第一歩編】 無事にRとMySQLを接続し、うまくヒストグラムを描くことができました。 今回は、山田君がデータマイニングを始めるきっかけとなった「どのような属性のユーザーが課金をしてくださっているのか」ということを、機械学習の1手法である、「決定木」という手法で明らかにしていきたいと思います。 さて、山田君はうまくデータを分析して、サー
はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く