タグ

データ分析に関するymym3412のブックマーク (7)

  • データ分析コンテストで優勝するための3つの戦略 - Qiita

    記事はFringe81 アドベントカレンダー2017の6日目の投稿で、こちらの記事をQiita向けに書き直したものです。 2017/10/30まで開催されていたDeepAnalytics主催のレコメンドエンジン作成コンテストに参加し、見事優勝することができました。 今回はそのとき役に立ったデータ分析のテクニックを紹介します。 参加したコンテスト: オプトDSL・DeepAnalyticsコンテスト『レコメンドエンジン作成チャレンジコンテスト』 コンテストについて 今回のコンテストでは、オプト社が提供する2017年4月の行動履歴から、2017年5月1週目においてユーザーが関心を示す商品を予測して、その精度を競います。 行動履歴には人材、旅行不動産、アパレルと異なる4業種が与えられ、それぞれ個別にモデリングをします。 ユーザの行動は、CV、クリック、ページ閲覧、カートに入れるの4種類のev

    データ分析コンテストで優勝するための3つの戦略 - Qiita
  • データサイエンスプロジェクトのディレクトリ構成どうするか問題

    あるいは、論文 "Best Practices for Scientific Computing" および "Good Enough Practices in Scientific Computing" について。 TL;DR 標題の件について、未だに答えは見えていないのだけど、自分の現状と他の人の例を文字で残しておく。 こういう話で「あーその手があったかー!」と知ったときの興奮はすごいので、みなさんもっとオープンにいきましょう。 大切なのは、ソフトウェア開発と同じ要領でデータサイエンスのプロジェクトを捉えて、分析と言う名の“開発”を行うつもりでディレクトリを掘ること。 必要なものリスト ナウいデータサイエンス/機械学習プロジェクトの中には(経験上、ぱっと思い浮かぶだけでも)次のようなファイル群があって、僕たちはそれらを良い感じに管理したい。 ソースコード 役割がいろいろある: 前処理(こ

    データサイエンスプロジェクトのディレクトリ構成どうするか問題
  • データエンジニアとデータの民主化 〜脱・神 Excel 〜 - 一休.com Developers Blog

    この記事は 一休.com アドベントカレンダー 2017 の 13 日目です。 一休データサイエンス部の id:kitsuyui です。データエンジニア兼データサイエンティストをやっています。 この記事はもともとアドベントカレンダー上では「脱・神 Excel (仮)」という名前で枠で取っていたのですが、 少し主語が大きすぎたかな?と反省しています。 書いているうちに全く主旨が変わってきましたので、副題とさせていただきました。 今回は一休社内でのデータエンジニアリングにまつわる負担、それらを解決する Redash, Embulk, DatabaseMEMO の導入の流れを書こうと思います。 また、その過程で副次的に発生した FLOSS へのコントリビューションなどなどについては、 14 日目のエントリで説明したいと思います。 一休とデータ活用 一休は今日まで上質な宿・レストランの予約サービス

    データエンジニアとデータの民主化 〜脱・神 Excel 〜 - 一休.com Developers Blog
  • 野球好きが統計学を覚える為の学習フローを作ってみました - Lean Baseball

    こんにちは.野球(とグルメ)の人です.*1 ビックデータや統計学が相変わらずアツい話題になっている中,野球好きとデータ好きをうならせるこんなが出版されました. [プロ野球でわかる! ]はじめての統計学 作者: 株式会社DELTA,佐藤文彦,student,岡田友輔出版社/メーカー: 技術評論社発売日: 2017/03/14メディア: 単行(ソフトカバー)この商品を含むブログを見る この,早速読ませてもらってとても良い!感銘を受けた!!という感じなのですが, そもそも世の中に野球統計学(セイバーメトリクス)のが増えてきた (野球好きでも)初心者がいきなり読んだら辛いもあるぞ! ???「ワイも野球データを集めて分析したいンゴ」 …などなど,クエスチョンやテーマができたので, 今まで学んだ・実践した野球統計学の学び方・・データを整理するのにいい機会だ! …ということで, レベル別の

    野球好きが統計学を覚える為の学習フローを作ってみました - Lean Baseball
  • 【Edward】MCMCの数学的基礎からStochastic Gradient Langevin Dynamicsの実装まで - Gunosyデータ分析ブログ

    こんにちは。初めまして。 データ分析部新入りのmathetake(@mathetake)と申します。 先日個人ブログでこんなエントリを書いた人です: mathetake.hatenablog.com そんなこんなでTwitter就活芸人(?)として活動(?)してましたが、これからは真面目に頑張っていこうと思います。 今日はみんな大好きベイズモデリングおいて、事後分布推定に欠かせないアルゴリズム(群)の一つである*1 マルコフ連鎖モンテカルロ法(Markov chain Monte Carlo) 通称MCMCに関するエントリです。より具体的に、 MCMCの意義(§1.)から始め、マルコフ連鎖の数学的な基礎(§2.,3.,4.)、MCMCの代表的なアルゴリズムであるMetropolis-Hastings法(§5.)、その例の1つである*2Langevin Dynamics(§6.)、そして(僕

    【Edward】MCMCの数学的基礎からStochastic Gradient Langevin Dynamicsの実装まで - Gunosyデータ分析ブログ
  • 整然データとは何か|Colorless Green Ideas

    整然データとは、1) 個々の変数が1つの列をなす、2) 個々の観測が1つの行をなす、3) 個々の観測の構成単位の類型が1つの表をなす、4) 個々の値が1つのセルをなす、という4つの条件を満たした表型のデータのことであり、構造と意味が合致するという特徴を持つ。R言語などを用いたデータ分析の際には非常に有用な概念である。 はじめに データ分析の際には、データが扱いやすい形式になっている必要がある。データの中身がぐちゃぐちゃになっていたり、データの形式が統一されていなかったりすれば、分析は骨の折れる作業となる。 それでは、どのようなものがデータ分析において扱いやすい形式のデータになるのだろうか。この問題に対する唯一の正しい解答というものは存在しない。しかし、表の形式で表すことができるデータを考える場合、ハドリー・ウィッカム (Hadley Wickham) 氏が提唱した整然データ (tidy d

    整然データとは何か|Colorless Green Ideas
  • Python pandas 図でみる データ連結 / 結合処理 - StatsFragments

    なんかぼやぼやしているうちにひさびさの pandas エントリになってしまった。基的な使い方については網羅したい気持ちはあるので、、、。 今回は データの連結 / 結合まわり。この部分 公式ドキュメント がちょっとわかりにくいので改訂したいなと思っていて、自分の整理もかねて書きたい。 公式の方はもう少し細かい使い方も載っているのだが、特に重要だろうというところだけをまとめる。 連結 / 結合という用語は以下の意味で使っている。まず憶えておいたほうがよい関数、メソッドは以下の 4 つだけ。 連結: データの中身をある方向にそのままつなげる。pd.concat, DataFrame.append 結合: データの中身を何かのキーの値で紐付けてつなげる。pd.merge, DataFrame.join 連結 (concatenate) 柔軟な連結 pd.concat ふたつの DataFram

    Python pandas 図でみる データ連結 / 結合処理 - StatsFragments
  • 1