[B! datamining] kasahiのブックマーク

kasahi id:kasahi

dataminingに関するkasahiのブックマーク (13)

Embulkに足りない5つのこと
embulk meetup tokyoで話しました！ユースケースが書かれているので是非参考にして下さい。
kasahi 2016/07/07
embulk

infrastructure

data

datamining
リンク
データサイエンティストへの道　里洋平さんの場合 - キャリア・ラボラトリー
データサイエンティストへの道　里洋平さんの場合ウェブエンジニアからデータサイエンティストへキャリアをチェンジし、Rのコミュニティーで活躍したりビッグデータやデータサイエンスの関する多数の本を出したりしている里洋平さん。どうして、どうやってデータサイエンティストという道を選び、その道へとチェンジできたのか？　里さんのキャリアパスについてなどをうかがってきました。キャリアラボラトリー：大学は電気電子工学科で、データサイエンティストとはまったくかけ離れていましたよね？　確か、エンジニアとしての第一歩はウェブエンジニアのはず。どうやって、今のキャリアになったのか経緯を教えてください。里さん：その学部でも情報系のことを研究していて、学生の頃はアルバイトやインターンでウェブエンジニアをしていました。社会人の第一歩はYahoo!JAPANで、新事業や新サービスの開発を担当していました。でも、
kasahi 2014/12/28
yahoo

r

datamining

interview
リンク
PHPカンファレンス2013 で「PHPerのためのデータサイエンス入門」という話をしてきました #phpcon2013 - 肉とビールとパンケーキ by @sotarok
PHPカンファレンス2013 先日 9/14 に行われた PHP カンファレンス2013 で「PHPerのためのデータサイエンス入門」という話をしてきました。データサイエンスというと、おそらく、キモになるところは「モデリングと効果測定のところ」ではないかと僕は思っているのですが、実はデータサイエンスの守備範囲は非常に広く、扱う領域、知識の幅を必要とする分野です。特に、データサイエンスの領域はエンジニアリングの領域のみならず、ビジネスの領域も含むと思います。データを分析し、ビジネスに使える結果・モデルをどう得るか、それを出すためには、どういった結果が、ビジネスに効いてくるのか、それがわからなければいけません。エンジニアリングからビジネスまで、という領域に対して、業務上、コミットできる人は、世の中にそう多くは無いと思います (だからこそ、データサイエンティストというのは稀有な存在であり、今最
kasahi 2014/05/04
php

treasuredata

fluentd

data

datamining
リンク
広告と機械学習 - Qiita
Machine Learning Advent Calendar向けの記事です。普段はGunosyという会社で社長業をしながら社長をしています。ざっくりいうと結論だけ知りたい人はここだけ広告における機械学習の応用の多くはCTR予測や運用の最適化のため(クエリー予測とか)の予測問題今後は「CVRの予測」や「アクティブなユーザーの予測」がホットな話題になる(加えてその運用をどう最適化するかといった話題も) 現在は検索エンジンの応用例が多い。今後はディスプレイ広告やタイムライン広告への応用が増えていく個人のユーザー属性を集めることが今まで以上にメディアのビジネス的に重要になる広告や推薦エンジンに限らずドメイン知識は非常に重要。ドメイン知識と機械学習の知識を持ったエンジニアが意思決定に携わる会社は今後大きくのびる(と思う) 広告について最近はもっぱら広告の開発をしており、広告分野で
kasahi 2013/12/22
datamining

machine-learning

google

ads
リンク
心理データ解析第３回(1)
たとえば… 男女の英語の得点には差があるのか？男の英語の得点と女の英語の得点　→　同時に分析するのは２変数男と女　→　対応なし英語の得点　→　量的データ知りたいのは「平均の相違」では分析方法は？ある意見に「賛成」が10名，「反対」が20名だった。反対の方が統計的に有意に多いといえるか？ある意見に「賛成」か「反対」か　→　同時に分析するのは１変数賛成or反対　→　質的データ賛成・反対の人数比率を検定するでは分析方法は？中部大学の５つの学部それぞれ100名，合計500名に大学に対する満足度（量的変数）の調査を行った。どの学部の学生の満足度が一番高いか知りたい。５つの学部の満足度　→　同時に分析するのは３変数以上５つの学部　→　対応なし満足度の平均の相違を検定したいでは分析方法は？授業前と授業後のテストの得点に差があるのかを知りたい。授業前のテスト得点と授業後の
kasahi 2013/12/06
datamining
リンク
Fluentdが流行る理由がいま分かる、10の実践逆引きユースケース集 - Y-Ken Studio
ログデータを活用してビジネスに役立てようという最近のトレンドは理解できる。しかし、なぜログ収集ソフトウェアのFluentdがこれほどまで話題になるのか、不思議に感じている方もいるのではないだろうか。単にログデータを収集するならばsyslog-ngやrsyslogで十分ではないかという意見もあるだろう。それらは既存のログシステムを置き換えるプロダクトであり、Fluentdのそれとは根本的に異なる。Fluentdは、既存のログシステムに手を入れることなく新たにログの収集を行い、ストリームデータ処理を実現するプロダクトなのである。一般的にログデータはサーバの数だけ分散しており、それを定期実行処理で収集するということだけでも、なかなか骨の折れる仕事である。さらに集めるだけでなく、日々増え続けるログデータを活用できる形に加工してしかるべきデータストアに保管するということに挫折した方もいるのでは
kasahi 2013/12/06
fluentd

devops

datamining
リンク
５年後のデータサイエンティスト
SocialWeb Conference vol.5 〜OpenSocial Night #2〜にてお話させいただいた資料です。相当うわべだけの話ですが、ご容赦いただければ･･･。
kasahi 2013/12/01
bigdata

slideshare

analytics

datamining
リンク
ソーシャルゲーム会社でデータ分析してるけど質問ある？ : キニ速
kasahi 2013/11/23
game

2ch

datamining

socialgame
リンク
東大助教がDeNA転じゲームの「KPI番人」たるデータサイエンティストに、話題の職業おさらい
私は2013年6月に、3人のトップデータサイエンティストが集った「日米データサイエンティスト頂上座談会」に立ち会う好機を得た。このとき、米ヤフーなどでデータサイエンティストを歴任した米ピボタルのアニカ・ヒメネス氏は、データサイエンティストに求めるコアとなる2大スキルは「統計学とプログラミング能力です」と言い切った（関連記事：「統計学とプログラミング能力の2つが両立していないと、採用でイエスと言えません」）。正直言うと、私はこの話を聞きながら、「それは厳しい条件だな」と思った。なかなか日本には、この2つを満たせる人はいないだろう。加えて座談会に集まった3人は、データサイエンティストにはコミュニケーション能力も必要であることで考えが一致。ますますハードルが高く感じられた。ところがそれから約1カ月半後、上記の素養を満たす人に取材で会うことができた。相手はディー・エヌ・エー（DeNA）にいた
kasahi 2013/09/01
dena

game

statistics

datamining
リンク
靴屋とデータマイニングと季節外れの冬物衣料 - あんちべ！
やぁ。4月も終わりだというのに、いやに寒い日が続いてるね、元気かい？面白い話がtwitterに流れていたので紹介したい。日経コンピュータの話。ビックデータ神話に乗り、多額の費用で解析した靴屋の話、解析結果、冬にブーツが売れ、夏にサンダルが売れるw。 https://twitter.com/yawachi/status/326460494154194944 これを見て君はどう思う？ twitterでは皆がこのニュースに対して嘲笑を投げかけていた。そりゃそうだろう、大金を掛けて誰でもわかることしか出てこないなんて、笑われて当然さ。データマイニングってのは、やっぱり、もっとこう、あの有名な「おむつとビール」ような意外性のあるものじゃないとね。そう、データマイニングに必要なのは意外性だ！あの靴屋は全く馬鹿なことをしたもんだ、ゲラゲラ！ OK、笑いが取れたようなので、もう一つ同じような話
kasahi 2013/04/27
business

data

datamining
リンク
統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ～おとうさんの解析日記～
googleさんやマイクロソフトさんは「次の10年で熱い職業は統計学」と言っているようです。またIBMは分析ができる人材を4,000人増やすと言っています（同記事）。しかし分析をするときの基礎的な学問は統計学ですが、いざ統計学を勉強しようとしてもどこから取りかかればいいか分からなかくて困るという話をよく聞きます。それに機械学習系の本は最近増えてきましたが、統計学自体が基礎から学べる本はまだあまり見かけないです。そこで今回は、統計学を初めて勉強するときに知っておいた方が良い10ポイントを紹介したいと思います。 1. 同じ手法なのに違う呼び名が付いている別の人が違う分野で提案した手法が、実は全く同じだったということがあります。良く聞くのは、数量化理論や分散分析についてです。数量化理論数量化I類 = ダミー変数による線形回帰数量化II類 = ダミー変数による判別分析数量化III類 =
kasahi 2011/07/16
statistics

datamining

r
リンク
Facebookの新しいリアルタイム解析システムとは？ - nokunoの日記
Facebookの新しいリアルタイム解析のシステムでは、HBaseで1日200億件のイベントを処理しているそうです。以下の記事の翻訳です。High Scalability - High Scalability - Facebook’s New Realtime Analytics System: HBase to Process 20 Billion Events Per DayFacebookがまたやってくれた。彼らは巨大なリアルタイムデータのストリームを処理するもう1つのシステムを構築したのだ。以前にもFacebookはリアルタイムなメッセージシステムをHBaseで構築している(http://highscalability.com/blog/2010/11/16/facebooks-new-real-time-messaging-system-hbase-to-store-135.ht
kasahi 2011/04/06
hadoop

facebook

datamining
リンク
解析者として僕が大事にしていること - doryokujin's blog
あけましておめでとうございます。@doryokujinです。今回は技術的な内容ではなく、フロントの解析者・アナリストとして僕が大事にしていること・日々感じていることを書きたいと思います。このエントリーのきっかけは、最近多くの方から以前の10月に書いたエントリー「解析者の立ち位置」について僕が思うこと。に対して多くの共感のコメントを頂いた事です。この事で僕は今年も解析者として変わらぬ信念を持って、今いっそうの努力を続けていけばよいのだ、やるしかないという決意をもつことができました。コメントを寄せて頂いた皆さん、どうもありがとうございました。解析者として僕が大事にしていることここ数年においては、データが大量に蓄積されてきており、それを解析・マイニングするデータ解析者の重要性が理解されるようになってきているように感じています。それは解析者にとって非常に喜ばしいことでもあると同時に、大きなプ
kasahi 2011/02/02
datamining

analytics

business
リンク
1