20150630_ビッグデータプロジェクトを加速させるための仕組みと運用 -米国の最新フレームワーク動向とデータアドミニストレータの役割の変化- by 笹原英司Insight Technology, Inc.
はじめに 単語をベクトルや確率分布などの数学的表現で扱いたい場合があったりする。 しかし、「どのようなベクトル・確率分布にすべきか?」などはタスクに依存したりして、自明じゃない。 たくさんあって、派生や新しいものもどんどんでていると思うので、どんなものがあるか調べたかぎりメモ。 One hot表現 各次元が「その単語か否か」を表すベクトルで表現 次元の大きさ=ボキャブラリ数 例: スカイツリー = (「船」か否か, 「スカイツリー」か否か, ... ) = (0,1,0,...) 素性のどれか1つしか1にならなくてスパースネスの問題がでる 未知語はゼロベクトルになってしまう 文字nグラムによる表現 単語の表層から得られる情報を利用 単語に出現している文字nグラムを利用 カタカナ語とか有効そう 例: スカイツリー = (「スカ」の出現回数, 「カイ」の出現回数, 「イツ」の出現回数, 「アア
2014-02-05 データサイエンティストの賞味期限は夏までです。 本論 思いつき 触れたら負けだと思っていましたが、もう負けでいいです。チャランポラナンナーです。 なんなんですかね?これは!!! 連載・データサイエンティストの視点: 「きのこの山」VS.「たけのこの里」戦争に決着!? 購買データ分析で“大差”あり http://www.itmedia.co.jp/news/articles/1402/04/news016.html この連載の立て付けは、 データ分析の専門家・データサイエンティストが身近な話題をテーマに分析結果を紹介していく本企画。 ですよね??? データサイエンティストといえば、どっかの誰かが今後最も露出狂*1な職業といったあのデータサイエンティストですよね? データマイニングができ、アナリストとして一流で且つマーケットを語れるスーパーマン、データサイエンティストです
論文でました。営業です。 論文書誌情報 寺沢拓敬 (2013) 「『日本人の9割に英語はいらない』は本当か? ―仕事における英語の必要性の計量分析」『関東甲信越英語教育学会学会誌』第27号、pp. 71-83. https://www.jstage.jst.go.jp/article/katejournal/27/0/27_KJ00009296526/_article/-char/ja/ 『日本人の9割に英語はいらない』という本が以前話題になりました。 日本人の9割に英語はいらない 作者: 成毛眞出版社/メーカー: 祥伝社発売日: 2011/09/06メディア: 単行本購入: 3人 クリック: 174回この商品を含むブログ (66件) を見る 「9割にいらない」といわれても、ふつうの人は、「まあそんなものか」と思うでしょう。1割は妥当な線かな、と。ただ、英語使用者に囲まれがちな人は認知バイ
「どれぐらいフォロー解除されているか」「自分のツイートのリンクは何回クリックされたのか」「自分のフォロワーは何に興味を持っている人が多いのか」「自分のサイトに埋め込んだツイートボタンは何回クリックされたのか」「自分のサイトのページでたくさんリツイートされたのはどれか」といったアクセス解析ができる「アナリティクス」機能が日本のTwitterの一部アカウントで利用可能になっています。これは2011年9月に「Twitter Web Analytics」として発表されていたもので、2011年7月にTwitterが買収した「BackType」というTwitterのアクセス解析サービスを改良したものになっており、GIGAZINEの公式Twitterアカウントでも利用可能になっていたので早速使ってみました。 ログインして右上にある設定アイコンから「アナリティクス」と書いてあるメニューが見えれば利用可能な
僕の得意分野は計量時系列分析(Econometric time series analysis)なんですが、実際にソーシャルwebサービス企業でデータ分析に取り組む上ではそんなに細かいことやる必要はない、というかそこまで正確な分析をする前に実務上色々やるべきことがある、ということは結構多いです。 実際のところ、本当は異常値検出・外れ値検出みたいな手法でゴリゴリやりたい(例えばyokkunsさんが提供なさっているRの{ChangeAnomalyDetection}パッケージとか、はたまた{tsDyn}パッケージでも実装されているようなSETARとか、もしくは{MSwM}パッケージでやれるマルコフ状態転換モデルとか)んですが、Rを使ってもらうだけでも一苦労という現場ではそうも言ってられないという実態もあります。 ということで、もう何もかも面倒なのでお手軽に「KPIの上がり下がりを見て『これ凄く
今回は多変量解析についてです。その前にそもそもですが、「多変量解析」という言葉は様々な意味で使えるので、なるべく使うのを止めましょう。私が経験してきた中で、このような意味で使われていました。重回帰、一般線形モデル一般化線形モデル変数選択(ステップワイズ法)変数縮小(主成分分析) どの手法も目的がまったく違っています。「多変量解析をやりたいのですが、、、」と相談されると、こちらとしては「多変量解析」が何を意味するのかを探るところから始めます。 具体的には、解析手法はこのように使い分けます。何かの結果変数を説明するモデルを作る→重回帰同じ目的で説明変数が連続値以外→一般化線形モデル(GLIM、ぐりむと発音) 実は「重回帰」も「GLIM」もほとんど同じ意味ですが、ニュアンスとして重回帰は一般線形モデル(GLM、じーえるえむ)を指す事が多いです。正確には「重回帰」は「単回帰」と対になる言葉で、説明
ApacheなどのWebサーバを運用していると、たまにリアルタイムで今現在の利用状況や負荷などがどうなっているかを確認したくなるときがあります。 そこで、UNIX/Linuxの"top"ライクに、Apacheの使用状況を確認することができるのが「ApacheTop」と呼ばれるツールです。 インストール インストールはパッケージ管理されているものを使うので簡単です。 $ sudo apt-get install apachetopUbuntuやDebianなど、APTを使っているなら↑のような感じ。 $ sudo yum install apachetopFedoraなど、YUMを使っているなら↑のような感じです。 早速使ってみる 使い方は、"-f"オプションでApacheのログファイルを指定して使います。 $ apachetop -f /var/log/apache2/access_log
GIGAZINEのログは膨大な量になっているため、以前まで使っていた「ApacheLogViewer」では毎日のアクセス解析に時間がかかりすぎるのと、今後のさらなるログの増大を考えると不安を覚えたので、いろいろと試してみた結果、「Visitors」というアクセスログ解析ソフトが超高速でよかったです。 大体、10万行を1秒~2秒ほどで処理してくれます。しかもサイトへの人の流れをフローチャート化することも可能。ユニークユーザーベースで解析してくれるだけでなく、検索ボットは除外したり、特定のリファラをブラックリストにしてノーカウントすることも可能。非常にすばらしいです。 また、Linux版だけでなく、Windows版も一応提供されています。やろうと思えばWindowsで解析することも可能です。 というわけで、実際にインストールして実運用するまでの手順をメモしておきます。参考になれば幸い。 ■解析
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く