teaserのブックマーク (110)

  • ビジネス活用事例で学ぶ データサイエンス入門 という本を書きました (その2) - yokkunsの日記

    ビジネス活用事例で学ぶ データサイエンス入門 というを執筆しました! http://amzn.to/SzXjpe まだ発売前ですが、前回に引き続き、少しだけ中身を紹介してみたいと思います。 興味がありましたら、是非ご予約ください! 2.ビジネスにおけるデータ分析フロー データ分析における5つのフロー ビジネスにおけるデータ分析の目的は、ビジネスで発生したさまざまな問題を統計解析や機械学習、データマイニングの各種方法論を駆使して解決することと言えます。 ここで気をつけたいのが、あくまでも問題解決が目的ということです。 たとえば、データ分析専任の会社に分析を依頼したら、やたら難しそうな大量の資料がでてきた。 結論はよく考えると当たり前のことだった、といったことはないでしょうか? 学術の分野からデータ分析者となった分析者、あるいはビジネスを熟知していない外部組織の分析に頼るときに良く起きる現象

    ビジネス活用事例で学ぶ データサイエンス入門 という本を書きました (その2) - yokkunsの日記
    teaser
    teaser 2014/06/11
  • ビジネス活用事例で学ぶ データサイエンス入門 という本を書きました (その1) - yokkunsの日記

    ビジネス活用事例で学ぶ データサイエンス入門 というを執筆しました! http://amzn.to/SzXjpe まだ発売前ですが、少しだけ中身を紹介してみたいと思います。 興味がありましたら、是非ご予約ください! はじめに (※出版社を配慮し、原文そのままではないです) 日々、データ分析の実務をしていると、次のような言葉をよく聞きます。 A. 膨大な費用を使ってデータを収集し解析してもらったけど、期待したほどの爆発的な効果はでてこないなぁ。 B. 分析部署から詳細な報告を送ってくれるのですが、やたら難しい報告書で、とても読めません。 C. 一応データは残していますが、忙しくて分析しきれていないんです。 D. データは全て残しています。ですが、どう見たらいいのか困っています。 E. 重要な数値は毎日確認しているけど、それを見て実際どうのようにしたらいいのかわからなくて……。 F. うちは

    ビジネス活用事例で学ぶ データサイエンス入門 という本を書きました (その1) - yokkunsの日記
    teaser
    teaser 2014/06/06
  • DeNAを退職しました - yokkunsの日記

    2011年5月に入社して、2年間ほど勤めたDeNAを日(6/30)付けで退職しました。 DeNAでの2年間は、2年間とは思えない程濃い時間で、当に様々な経験をする事が出来ました。 入社して最初は、データマイニング部という部署に配属され、他部門で解決出来ないような難易度の高い課題に対して、各種方法論を使って解を出すといった事をやっていました。 まだデータが整備されていない状態の中で、求められているスピード感&クオリティが高く、中々苦労したのを覚えています。 基的な統計モデルの適用だったり、他の業界で使われているような応用的な手法の適用、あるいは新しいモデルを作ったりなど、かなりチャレンジングな事をさせてもらいました。 データマイニング部の時に作ったモデルの一つに、TVCMの効果測定モデルがあったのですが、そのモデルを運用してもっと深い分析をしたいというお話があり、出向という形でマーケテ

    DeNAを退職しました - yokkunsの日記
    teaser
    teaser 2013/06/30
    なんと
  • R による文書分類入門 & KNB コーパスの文書分類 - あらびき日記

    この記事は abicky.net の R による文書分類入門 & KNB コーパスの文書分類 に移行しました

    R による文書分類入門 & KNB コーパスの文書分類 - あらびき日記
    teaser
    teaser 2013/06/03
  • ドラマの視聴率を予測する(1)〜初回視聴率を予測して、キャストの視聴率を算出する。 - Analyze IT.

    こんにちは、ソーシャルビッグデータサイエンティストです。 最近のデータ解析ブームの流れにのって何か面白いデータ解析でもやってみようと思い、データサイエンティストこじらせた結果、 「今まで機械学習的な方法論使ってないところに機械学習的な方法論使うと面白いんじゃないか。」と思って 今回ドラマの視聴率で予測モデルの構築を試してみたのですが、結論を先に言うと、ニューラルネットワークやRFとか、小難しい方法尽く試した結果、失敗しました。 残念なクオリティですが、放送年度と時間帯と言った基的な数値だけで予測モデルを構築、メモとして、一旦ブログに残しておきます。 1.データの取得 データについてはこちらのドラマ視聴率を参考に、足りないデータはWikipediaで補完して取得しました。 取得データ:ドラマの各話視聴率、キャスト、タイトル、また、Wikipediaを参考にドラマのジャンルを取得しました。

    ドラマの視聴率を予測する(1)〜初回視聴率を予測して、キャストの視聴率を算出する。 - Analyze IT.
    teaser
    teaser 2013/06/03
  • 可視化周辺の進化がヤヴァイ~rChartsを中心として~

    TDD bootcamp 札幌2.0 http://atnd.org/events/15811 の自己紹介で使った資料です。

    可視化周辺の進化がヤヴァイ~rChartsを中心として~
    teaser
    teaser 2013/06/03
  • R言語で学ぶマーケティング分析 競争ポジショニング戦略

    2022/3/14追記】Slideshareが使い物にならなくなったため,今まで上げていた資料はより高機能なDocswellに上げ直しました。混乱防止のため,Slideshare上の資料はそのうち消すかもしれませんので了承ください。 Docswellの動画リスト: https://www.docswell.com/user/mutopsy 2022年3月7日に行われたベイズ統計学勉強会 2022 年春合宿(ベイズ塾春合宿)での発表に使ったスライドです。質問・ご意見等がございましたらTwitterアカウント (@mutopsy) もしくはメール(h.muto[at]zm.commufa.jp)等でお知らせください(SlideShareのコメント欄はチェックしません。)

    R言語で学ぶマーケティング分析 競争ポジショニング戦略
    teaser
    teaser 2013/06/03
  • 第31回Tokyo.Rを開催しました - yokkunsの日記

    第31回Tokyo.Rを開催しました。 ※ 資料がまだのものは、公開され次第追記します! 前半(初心者セッション) 初心者セッション1 (所沢義男) TokyoR#31 初心者セッション from TokorosawaYoshio Rによるやさしい統計学 第7章 分散分析(後半の後半) (@aad34210) Tokyo r30 anova_part2 from Takashi Minoda 中の人が語る seekR.jp の裏技 (@hiratake55) 中の人が語る seekR.jp の裏側 from hiratake55 後半 始めよう多変量解析〜主成分分析編〜 (@sanoche16) Tokyor31 from Hiroki Sano R言語で学ぶマーケティング分析 – 競争ポジショニング戦略 – (@yokkuns) R言語で学ぶマーケティング分析 競争ポジショニング戦略 f

    第31回Tokyo.Rを開催しました - yokkunsの日記
    teaser
    teaser 2013/06/03
  • RでHDFS上のデータを読み書きするパッケージを公開しました - yokkunsの日記

    RでHadoopを使うパッケージは、RHadoopとかRHIPEとかありますが、 単純にHDFS上のデータを読み書き出来るだけのシンプルなものが欲しかったのでパッケージを作って公開してみました。 http://crantastic.org/packages/rHadoopClient JavaとかPigで一次集計したデータをRで読み込む時に使うイメージです。 準備 install.packages("rHadoopClient") library(rHadoopClient) HDFS上のデータを読み込む ./tmp/iris にアップしたirisのデータを読み込む data.hdfs <- read.hdfs("tmp/iris") names(data.hdfs) <- names(iris) head(data.hdfs) ## Sepal.Length Sepal.Width Pe

    RでHDFS上のデータを読み書きするパッケージを公開しました - yokkunsの日記
    teaser
    teaser 2013/03/30
  • PigのPython UDFを試してみた - yokkunsの日記

    PythonでUDFが書けるので試してみた。 User Defined Functions 日付の差を計算するUDFを書いてみる とりあえず、日付の差を計算するUDFを書いてみた。 udf.py @outputSchemaで、出力のスキーマを書いて、あとは普通に書く。 #!/usr/bin/env python import time @outputSchema("datediff:int") def DateDiff(a,b): a_time = time.mktime(time.strptime(a,'%Y-%m-%d')) b_time = time.mktime(time.strptime(b,'%Y-%m-%d')) return int( (a_time - b_time) / 86400 ) date_diff_sample.pig Register 'udf.py' usi

    PigのPython UDFを試してみた - yokkunsの日記
    teaser
    teaser 2012/12/18
  • sendmailRで画像付きHTMLメールを送る - yokkunsの日記

    前回は、R Advent Calendar 2012 : ATNDに間に合わせるために、現バージョンではHTMLメールが送れない問題と、画像が表示されない問題について苦肉の策をとらざるを得なかった。 さすがにあのままじゃちょっと残念な感じなので、これらの問題に対応してみた。 sendmailRパッケージの修正 今回の対応で、sendmailRパッケージ自体をいじる必要があったので、いじって開発者の方にpatchを送ってみた。 次のバージョンとかで反映されてると良いな〜 yokkuns/sendmailR:Compare View パッケージの内部の関数でContent-Typeがベタ書きされてるので、これを引数headersで指定出来るように変更 添付ファイルのContent-IDが設定されていないので、内部で自動で設定するように変更 この時、添付画像として指定しやすいように、IDを<ファ

    sendmailRで画像付きHTMLメールを送る - yokkunsの日記
    teaser
    teaser 2012/12/12
  • ChangeAnomalyDetectionパッケージを使ってHadoopにあるデータの異常検知(変化点検出) - yokkunsの日記

    先日作ったChangeAnomalyDetectionパッケージを使ってHadoop上のデータの異常検知する仕組みを考えてみる。 今回は、以下のようにhadoop上にデイリーで蓄積される購買履歴のようなデータを想定する $ hadoop fs -ls /user/yokkuns/buying_history | head Found 100 items -rw-r--r-- 1 yokkuns supergroup 184 2012-10-14 13:00 /user/yokkuns/buying_history/2012-01-01 -rw-r--r-- 1 yokkuns supergroup 65 2012-10-14 13:00 /user/yokkuns/buying_history/2012-01-02 -rw-r--r-- 1 yokkuns supergroup 76 20

    ChangeAnomalyDetectionパッケージを使ってHadoopにあるデータの異常検知(変化点検出) - yokkunsの日記
    teaser
    teaser 2012/10/15
  • 異常検知(変化点検出)のパッケージを作ってみた - yokkunsの日記

    時系列的な振る舞いの変化点を検出するためのパッケージを作ってみました。 CRAN: http://cran.r-project.org/web/packages/ChangeAnomalyDetection/ github: https://github.com/yokkuns/r-AnomalyDetection Usage changeAnomalyDetection(x, term = 30, smooth.n = 7, order = c(1, 0, 0), ...) x 時系列の数値ベクトル term 学習期間 smooth.n 移動平均の期間 order arima関数に渡すorder ... arima関数に渡すその他パラメータ 実行例 パッケージ読み込み library(ChangeAnomalyDetection) library(RFinanceYJ) library(

    異常検知(変化点検出)のパッケージを作ってみた - yokkunsの日記
    teaser
    teaser 2012/09/30
  • Uplift Modelのパッケージを作ってみた - yokkunsの日記

    費用対効果の最大化するためのデータマイニング手法であるUplift ModelをRで実装してパッケージ化してみました。 Uplift Modelling: 費用対効果の最大化を目的とした最新のデータマイニング手法 - yokkunsの日記 Google Code Archive - Long-term storage for Google Code Project Hosting. ドキュメント書くのが面倒で、まだcranにはアップしてませんが、使い方を簡単に紹介したいと思います。 主に使う関数は、以下の2つ buildUpliftTree(y.train, treat.train, x.train) 学習データから、費用対効果を最大化するような分類を行うモデルを構築する classify(uplift.tree, x.new) 構築されたUpliftTreeを元に、新しいデータを分類する

    Uplift Modelのパッケージを作ってみた - yokkunsの日記
    teaser
    teaser 2012/09/27
  • 第26回TokyoRでData Fusionについて発表しました - yokkunsの日記

    先日、第26回TokyoRを開催しました。 http://atnd.org/events/31518 今回、ちょっとバタバタしてメモを取り忘れたので、自分の発表資料だけ載せておきます。 R言語で学ぶData Fusino入門 Tokyor26 data fusion from yokkuns Rで、ディリクレ過程混合モデルまで実行してみたかったのですが、どのパッケージを使えば良いかが分からず、また自分で実装するには時間がなかったので今回は断念。 知ってる方いたら教えてください:) 階層ベイズモデルやってる方がすごく興味を持ってくれていたので、そこら辺の各種方法論を一度整理してみたい 次回 次回は、10/20に開催する予定です! 近日中にATNDを立てるので、興味のある方は是非ご参加ください!

    第26回TokyoRでData Fusionについて発表しました - yokkunsの日記
    teaser
    teaser 2012/09/10
  • ネットワーク構造の分析 - コミュニティの抽出 - yokkunsの日記

    ある程度の規模のネットワークでは、内部にサブネットワーク(コミュニティ)が形成されることがある 例えば、大学のネットワーク図を描くと、何となく学部だったりサークルのグループが見えてくる このよなコミュニティの抽出方法として、辺の媒介中心性を用いた方法があるので、その方法とRでの実行を紹介する データの入力と描画 g <- graph(c( 1,2, 1,3, 1,4, 1,5, 1,9, 2,3, 2,4, 3,4, 5,6, 5,7, 5,9, 6,7, 6,8, 7,8) - 1, n = 9, directed = FALSE) plot(g,layout=layout.lgl) 何となく、以下のようなコミュニティがありそう 辺の媒介中心性 [R][ネットワーク分析] ネットワークにおいてどれくらい中心的かの指標 - yokkunsの日記の媒介中心性を、エッジに適用したもの。 ある人

    ネットワーク構造の分析 - コミュニティの抽出 - yokkunsの日記
    teaser
    teaser 2012/08/19
  • [R][ネットワーク分析] ネットワークにおいてどれくらい中心的かの指標 - yokkunsの日記

    ネットワーク分析で最も良く用いられる指標として、中心性というものがある 今回は、その中でも3つの指標に絞って紹介 次数中心性 友達が多い人が高く評価される指標 友達の数を数えるだけなので、計算も簡単 データの入力と描画 A <- matrix(c( 0,1,1,1,1,1,1,0, 1,0,1,1,1,1,0,0, 1,1,0,0,0,0,0,1, 1,1,0,0,0,0,1,0, 1,1,0,0,0,1,0,0, 1,1,0,0,1,0,0,0, 1,0,0,1,0,0,0,0, 0,0,1,0,0,0,0,0), nrow = 8, byrow = TRUE) g <- graph.adjacency(A, mode = "undirected") plot(g) 次数中心性の算出 > degree(g) [1] 6 5 3 3 3 3 2 1 PageRank 単純に友達が多いだけで

    [R][ネットワーク分析] ネットワークにおいてどれくらい中心的かの指標 - yokkunsの日記
    teaser
    teaser 2012/08/17
  • [R][ネットワーク分析] ネットワーク構造の諸指標 - yokkunsの日記

    ネットワーク分析 (Rで学ぶデータサイエンス 8)の第3章の内容 密度(density) グラフにおいて張ることの出来る全てのエッジの数に対する、実際のエッジの数の比率 例 データの入力 library(igraph) A <- matrix(c( 0,1,1,1,1, 1,0,0,1,1, 1,0,0,0,0, 1,1,0,0,0, 1,1,0,0,0),nrow=5) B <- matrix(c( 0,1,1,1,1, 0,0,0,1,1, 0,0,0,0,0, 0,0,0,0,0, 0,0,0,0,0),nrow=5,byrow=T) g1 <- graph.adjacency(A, mode = "undirected") g2 <- graph.adjacency(B) Aのプロット plot(g1) Bのプロット plot(g2) 密度の計算 > graph.density(g

    [R][ネットワーク分析] ネットワーク構造の諸指標 - yokkunsの日記
    teaser
    teaser 2012/08/15
  • Uplift Modelling: 費用対効果の最大化を目的とした最新のデータマイニング手法 - yokkunsの日記

    ざっくりとまとめてみた Uplift Modelling 入門(1) View more presentations from yokkuns Rで楽に実装する方法が無いか調べてるんですが、既存のものでは難しそう。。。 もう少し調べてなければ、頑張ってパッケージ化したいと思います!

    Uplift Modelling: 費用対効果の最大化を目的とした最新のデータマイニング手法 - yokkunsの日記
    teaser
    teaser 2012/03/05
  • 2012年抱負 - yokkunsの日記

    明けましておめでとうございます! 今年最初のエントリは、今年の抱負です。 去年は、個人的な目標として転職を考えていて、5月の段階で達成して、その後は目の前の事でいっぱいいっぱいになり、先の事が全然見れてなかったような気がします。 なので、今年は、1年通して続きそうなものにしたいと思います。 1.朝型の生活 一昨年は、5時くらいに起きて、朝走るという生活をしてたんですが、去年は終電とかに帰ったりするなど、夜型になってしまいました。 結果的に家族との時間が取れていなかったり、プライベートでの連絡がおろそかになったという反省があるので、今年は朝型に戻したいと思います。 2.アウトプットの質を上げる これは、別にレベルの高い事をするとかではなくて、アウトプットするまでの準備をしっかりすると言うことです。 去年は、仕事、プライベート共に、見積もりが甘過ぎて、準備不足のままアウトプットするという事が多

    2012年抱負 - yokkunsの日記
    teaser
    teaser 2012/01/02