タグ

dataminingに関するkasahiのブックマーク (13)

  • Embulkに足りない5つのこと

    embulk meetup tokyoで話しました! ユースケースが書かれているので是非参考にして下さい。

    Embulkに足りない5つのこと
  • データサイエンティストへの道 里 洋平さんの場合 - キャリア・ラボラトリー

    データサイエンティストへの道 里 洋平さんの場合 ウェブエンジニアからデータサイエンティストへキャリアをチェンジし、Rのコミュニティーで活躍したりビッグデータやデータサイエンスの関する多数のを出したりしている里洋平さん。どうして、どうやってデータサイエンティストという道を選び、その道へとチェンジできたのか? 里さんのキャリアパスについてなどをうかがってきました。 キャリアラボラトリー: 大学は電気電子工学科で、データサイエンティストとはまったくかけ離れていましたよね? 確か、エンジニアとしての第一歩はウェブエンジニアのはず。どうやって、今のキャリアになったのか経緯を教えてください。 里さん: その学部でも情報系のことを研究していて、学生の頃はアルバイトやインターンでウェブエンジニアをしていました。社会人の第一歩はYahoo!JAPANで、新事業や新サービスの開発を担当していました。でも、

    データサイエンティストへの道 里 洋平さんの場合 - キャリア・ラボラトリー
  • PHPカンファレンス2013 で「PHPerのためのデータサイエンス入門」という話をしてきました #phpcon2013 - 肉とビールとパンケーキ by @sotarok

    PHPカンファレンス2013 先日 9/14 に行われた PHP カンファレンス2013 で「PHPerのためのデータサイエンス入門」という話をしてきました。 データサイエンスというと、おそらく、キモになるところは「モデリングと効果測定のところ」ではないかと僕は思っているのですが、実はデータサイエンスの守備範囲は非常に広く、扱う領域、知識の幅を必要とする分野です。特に、データサイエンスの領域はエンジニアリングの領域のみならず、ビジネスの領域も含むと思います。データを分析し、ビジネスに使える結果・モデルをどう得るか、それを出すためには、どういった結果が、ビジネスに効いてくるのか、それがわからなければいけません。エンジニアリングからビジネスまで、という領域に対して、業務上、コミットできる人は、世の中にそう多くは無いと思います (だからこそ、データサイエンティストというのは稀有な存在であり、今最

    PHPカンファレンス2013 で「PHPerのためのデータサイエンス入門」という話をしてきました #phpcon2013 - 肉とビールとパンケーキ by @sotarok
  • 広告と機械学習 - Qiita

    Machine Learning Advent Calendar向けの記事です。 普段はGunosyという会社で社長業をしながら社長をしています。 ざっくりいうと 結論だけ知りたい人はここだけ 広告における機械学習の応用の多くはCTR予測や運用の最適化のため(クエリー予測とか)の予測問題 今後は「CVRの予測」や「アクティブなユーザーの予測」がホットな話題になる(加えてその運用をどう最適化するかといった話題も) 現在は検索エンジンの応用例が多い。今後はディスプレイ広告やタイムライン広告への応用が増えていく 個人のユーザー属性を集めることが今まで以上にメディアのビジネス的に重要になる 広告や推薦エンジンに限らずドメイン知識は非常に重要。ドメイン知識と機械学習の知識を持ったエンジニアが意思決定に携わる会社は今後大きくのびる(と思う) 広告について 最近はもっぱら広告の開発をしており、広告分野で

    広告と機械学習 - Qiita
  • 心理データ解析第3回(1)

    たとえば… 男女英語の得点には差があるのか? 男の英語の得点と女の英語の得点 → 同時に分析するのは2変数 男と女 → 対応なし 英語の得点 → 量的データ 知りたいのは「平均の相違」 では分析方法は? ある意見に「賛成」が10名,「反対」が20名だった。反対の方が統計的に有意に多いといえるか? ある意見に「賛成」か「反対」か → 同時に分析するのは1変数 賛成or反対 → 質的データ 賛成・反対の人数比率を検定する では分析方法は? 中部大学の5つの学部それぞれ100名,合計500名に大学に対する満足度(量的変数)の調査を行った。どの学部の学生の満足度が一番高いか知りたい。 5つの学部の満足度 → 同時に分析するのは3変数以上 5つの学部 → 対応なし 満足度の平均の相違を検定したい では分析方法は? 授業前と授業後のテストの得点に差があるのかを知りたい。 授業前のテスト得点と授業後の

  • Fluentdが流行る理由がいま分かる、10の実践逆引きユースケース集 - Y-Ken Studio

    ログデータを活用してビジネスに役立てようという最近のトレンドは理解できる。 しかし、なぜログ収集ソフトウェアのFluentdがこれほどまで話題になるのか、不思議に感じている方もいるのではないだろうか。単にログデータを収集するならばsyslog-ngやrsyslogで十分ではないかという意見もあるだろう。 それらは既存のログシステムを置き換えるプロダクトであり、Fluentdのそれとは根的に異なる。Fluentdは、既存のログシステムに手を入れることなく新たにログの収集を行い、ストリームデータ処理を実現するプロダクトなのである。 一般的にログデータはサーバの数だけ分散しており、それを定期実行処理で収集するということだけでも、なかなか骨の折れる仕事である。さらに集めるだけでなく、日々増え続けるログデータを活用できる形に加工してしかるべきデータストアに保管するということに挫折した方もいるのでは

    Fluentdが流行る理由がいま分かる、10の実践逆引きユースケース集 - Y-Ken Studio
  • 5年後のデータサイエンティスト

    SocialWeb Conference vol.5 〜OpenSocial Night #2〜 にてお話させいただいた資料です。 相当うわべだけの話ですが、ご容赦いただければ・・・。

    5年後のデータサイエンティスト
  • ソーシャルゲーム会社でデータ分析してるけど質問ある? : キニ速

  • 東大助教がDeNA転じゲームの「KPI番人」たるデータサイエンティストに、話題の職業おさらい

    私は2013年6月に、3人のトップデータサイエンティストが集った「日米データサイエンティスト頂上座談会」に立ち会う好機を得た。このとき、米ヤフーなどでデータサイエンティストを歴任した米ピボタルのアニカ・ヒメネス氏は、データサイエンティストに求めるコアとなる2大スキルは「統計学とプログラミング能力です」と言い切った(関連記事:「統計学とプログラミング能力の2つが両立していないと、採用でイエスと言えません」)。 正直言うと、私はこの話を聞きながら、「それは厳しい条件だな」と思った。なかなか日には、この2つを満たせる人はいないだろう。 加えて座談会に集まった3人は、データサイエンティストにはコミュニケーション能力も必要であることで考えが一致。ますますハードルが高く感じられた。 ところがそれから約1カ月半後、上記の素養を満たす人に取材で会うことができた。相手はディー・エヌ・エー(DeNA)にいた

    東大助教がDeNA転じゲームの「KPI番人」たるデータサイエンティストに、話題の職業おさらい
  • 靴屋とデータマイニングと季節外れの冬物衣料 - あんちべ!

    やぁ。4月も終わりだというのに、いやに寒い日が続いてるね、元気かい? 面白い話がtwitterに流れていたので紹介したい。 日経コンピュータの話。ビックデータ神話に乗り、多額の費用で解析した屋の話、解析結果、冬にブーツが売れ、夏にサンダルが売れるw。 https://twitter.com/yawachi/status/326460494154194944 これを見て君はどう思う? twitterでは皆がこのニュースに対して嘲笑を投げかけていた。 そりゃそうだろう、大金を掛けて誰でもわかることしか出てこないなんて、笑われて当然さ。 データマイニングってのは、やっぱり、もっとこう、あの有名な「おむつとビール」ような意外性のあるものじゃないとね。 そう、データマイニングに必要なのは意外性だ! あの屋は全く馬鹿なことをしたもんだ、ゲラゲラ! OK、笑いが取れたようなので、もう一つ同じような話

    靴屋とデータマイニングと季節外れの冬物衣料 - あんちべ!
  • 統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ~おとうさんの解析日記~

    googleさんやマイクロソフトさんは「次の10年で熱い職業は統計学」と言っているようです。またIBMは分析ができる人材を4,000人増やすと言っています(同記事)。しかし分析をするときの基礎的な学問は統計学ですが、いざ統計学を勉強しようとしてもどこから取りかかればいいか分からなかくて困るという話をよく聞きます。それに機械学習系のは最近増えてきましたが、統計学自体が基礎から学べるはまだあまり見かけないです。 そこで今回は、統計学を初めて勉強するときに知っておいた方が良い10ポイントを紹介したいと思います。 1. 同じ手法なのに違う呼び名が付いている 別の人が違う分野で提案した手法が、実は全く同じだったということがあります。良く聞くのは、数量化理論や分散分析についてです。 数量化理論 数量化I類 = ダミー変数による線形回帰 数量化II類 = ダミー変数による判別分析 数量化III類 =

    統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ~おとうさんの解析日記~
  • Facebookの新しいリアルタイム解析システムとは? - nokunoの日記

    Facebookの新しいリアルタイム解析のシステムでは、HBaseで1日200億件のイベントを処理しているそうです。以下の記事の翻訳です。High Scalability - High Scalability - Facebook’s New Realtime Analytics System: HBase to Process 20 Billion Events Per DayFacebookがまたやってくれた。彼らは巨大なリアルタイムデータのストリームを処理するもう1つのシステムを構築したのだ。以前にもFacebookはリアルタイムなメッセージシステムをHBaseで構築している(http://highscalability.com/blog/2010/11/16/facebooks-new-real-time-messaging-system-hbase-to-store-135.ht

  • 解析者として僕が大事にしていること - doryokujin's blog

    あけましておめでとうございます。@doryokujinです。今回は技術的な内容ではなく、フロントの解析者・アナリストとして僕が大事にしていること・日々感じていることを書きたいと思います。 このエントリーのきっかけは、最近多くの方から以前の10月に書いたエントリー「解析者の立ち位置」について僕が思うこと。に対して多くの共感のコメントを頂いた事です。この事で僕は今年も解析者として変わらぬ信念を持って、今いっそうの努力を続けていけばよいのだ、やるしかないという決意をもつことができました。コメントを寄せて頂いた皆さん、どうもありがとうございました。 解析者として僕が大事にしていること ここ数年においては、データが大量に蓄積されてきており、それを解析・マイニングするデータ解析者の重要性が理解されるようになってきているように感じています。それは解析者にとって非常に喜ばしいことでもあると同時に、大きなプ

    解析者として僕が大事にしていること - doryokujin's blog
  • 1