良い記事でなくてすみませんが、論文投稿前になって図を直す時いっつも忘れて苦労するのでメモしました。 そもそも図のサイズを指定
オープンソースのスキーマフリーSQLエンジンApach Drillでどのように実データを分析するかを解説。
さてみなさんApache Drillでドリドリしてますか? えっ、ドリドリしてない? あ、そういうぼくもドリドリしてないですよ〜。そんな感じですが、今日は「Apache Drillつかってみた」的な話です。 具体的には、Apache DrillでnginxのログをSQLで集計してエンドポイント別の平均値とか最大最小を出したりとか、レスポンスボディのサイズの平均を出したりとかそういう感じの使い方です。 はじめてのApache Drill なんでApache Drillを使ってみたかというと、昨日、社内で「Apache Drillを分散モードで使うのにZooKeeper必須なの…」みたいな謎のぼやき(?)が流れまして、あーApache Drillとかあったな〜とその存在を思い出したという感じなんです。 ちょうどその時、Webサービスのパフォーマンス分析をやるというタスクが手元にありまして。具体
0: jdbc:drill:zk=local> SELECT test1.*, test2.point FROM . . . . . . . . . . . > dfs.`/opt/drill/test1.json` test1 . . . . . . . . . . . > JOIN dfs.`/opt/drill/test2.json` test2 ON (test1.id = test2.id); +------------+------------+------------+ | id | name | point | +------------+------------+------------+ | 1 | foo | 100 | | 2 | bar | 200 | +------------+------------+------------+ 2 rows selected
来年は...\横浜優勝/なんだ(^○^) 今年もプロ野球とMLB終わっちゃいましたねこんばんは.*1 プロ野球は日ハム,MLBはアスレチックス推しの私ですが両方共8月から教育リーグに旅立ってしまったので(涙)*2, イチ野球ファンとして何のプレッシャーもなく楽しんだ日本シリーズ...に出場したホークスとベイスターズについて, 打撃 投球 お金(年俸) をもとに,何故日本シリーズで\横浜優勝/できなかったのか?,をふりかえりたいと思います. 結論をざっくりいうと 最後まで読めない方はここをさっくり読んでグラフを眺めてもらえるといいかもです. ホークス強すぎぃ,下克上はそもそも無理ゲーだった, 今年は! ベイスターズは(地味に)打撃でもベイスボールをしていた,なお打線はかなりイケてる 投手陣は質量ともにホークス とはいえホークスは圧倒的投資で勝ってる,投資対効果はベイスターズの方がイケてる!?
データ分析組織について考察する ここ数年、データ分析が組織化され初めているようだ。しかし、いままで現場レベルですらほとんど存在しなかったデータ分析をいきなり組織化しようとしても外注丸投げ体質が加わって組織が機能せず人も育たず2・3年で崩壊するといった事態も散見される。 これから先、いくら日本企業がデータ分析に疎いと言ってもその拡大と共に組織化していく企業は増えてくるだろう。その時に役立つかもしれないので、同じ組織は2つと無いとしても、うまくいかない理由はそれなりに共通しているのでは、と思い当たったのでまとめることにした。 もしその企業にとって最悪なデータ分析組織を作るとしたらどうするだろう。 マネージャーにはデータ分析の実務経験がない メンバーは実務能力に乏しいので社員だけでは仕事が回らない 実務は外部のエンジニアに丸投げ データ分析に取り組む企業にとってこれ以上に悪い組織というのはなかな
IT&ビジネス 業界ウォッチ IT業界で話題の新サービス・新製品のニュース、これから話題になりそうな新ツール、知っておきたい各種の統計調査……などなど、経営効率化に寄与するIT業界の今のうごきをレポートします。 バックナンバー一覧 開催国ブラジルを撃破し、決勝戦ではアルゼンチンにも競り勝って、24年ぶり4度目のワールドカップ優勝を成し遂げたサッカーのドイツ代表。 この栄光を手に入れるための戦いは、8年前の2006年から始まっていた。 2006年W杯の開催国だったドイツは、直前の予想よりは善戦したとはいえ、地元で優勝を遂げることはできず3位に終わった。大会後に代表監督に就任したヨアヒム・レーヴ氏に、代表チームの再強化が託された。 レーヴ監督は、就任直後に「選手がボールを保持している時間を最小化する」という極めてシンプルな目標を掲げた。つまり、試合中にマイボールになったらできるだけ早く味方選手
Read it now on the O’Reilly learning platform with a 10-day free trial. O’Reilly members get unlimited access to books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers. What is bad data? Some people consider it a technical phenomenon, like missing values or malformed records, but bad data includes a lot more. In this handbook, data expert Q. Ethan McC
〒305-8604 茨城県つくば市観音台3-1-3 独立行政法人 農業環境技術研究所 地球環境部 生態システム研究グループ 環境統計ユニット 研究リーダー あるデータ点が複数の変量から成るとき,われわれは「多変量データ」(multivariate data)と呼ばれるものに遭遇する.たとえば,統計言語Rのパッケージに含まれているデータファイルのひとつに,植物学者 Edgar Anderson が集めた Iris属の形態データがある(ファイル名:「iris」).その一部を下記に示そう:
Twitter Streaming APIを使用して自分のツイートを取得し、頻出語を調べることを思い立ちました。 Twitterアカウントを通して見た自分の関心事がどんなものであるかを調べ、 どれくらい当たっているかを見る遊びでしたが、結果は当たらずといえども遠からずといった程度でした。 既存のサービスを呼び出すだけのプログラミングであり、 簡単に実装できると思いきや、コード量は思ったより多くなり苦労しました。 この記事では、使用したライブラリやAPIの備忘録を兼ねて、プログラム例とツイートの解析結果可視化例を紹介します。 実験の概要 下記の流れで実験しました。自分のTweet中のキーフレーズだけでは面白くないので、 ちょっと血迷ってGoogleなどが提供する補完サービス(いわゆるサジェスト)の結果を 「連想語」として利用することを考えました。 Twitter Streaming APIを
Taking care of business, one python script at a time Introduction The python visualization world can be a frustrating place for a new user. There are many different options and choosing the right one is a challenge. For example, even after 2 years, this article is one of the top posts that lead people to this site. In that article, I threw some shade at matplotlib and dismissed it during the analy
BIチームのデータサイエンティスト @hikaru です。 以前 @hasebeが社内のKPIの分析に関する話を書きました。 mercan.mercari.com 今回は、また少し違う切り口で、社内で行っている研究的な分析のひとつをご紹介したいと思います。 メルカリのユーザをもっと理解しよう 日本の「メルカリ」ではユーザに簡単かつあんしん・あんぜんに使っていただくために、登録時に年齢や性別などのユーザ情報をいただいていません。 about.mercari.com よってメルカリのユーザを理解しようとするときに、そういったデモグラフィックなどの直接的な情報を使って分析することはできません。 しかし、メルカリの持っているデータベースにはユーザの行動や特徴を知る上でヒントとなる様々なデータが溜まっています。分析の発想と機械学習などの手法を活かせばそういった登録情報に頼らなくても、ユーザのことを深
高次元データの外れ値検出についてのメモ. 高次元データと次元の呪い 次元が大きくなるほど,点の間の距離は均一になっていく. 例として,2000個の点の各座標を一様乱数で発生させて,次元を変えながら点の間の距離の平均値,最大値,最小値,平均値±1σ,平均値±2σをみてみよう. library(ggplot2) set.seed(123) # 次元のリスト dims <- c(1:9, 10*(1:9), 100*(1:10)) # 算出する統計量 stats <- c("min", "mean-sd", "mean", "mean+sd", "max") # 発生させる点の個数 N <- 2000 # 各次元に対して算出した統計量を格納する行列 ans <- matrix(NA, length(dims), length(stats), dimnames=list(dims, stats))
Pythonは機械学習周りのパッケージは充実している感じがあるのですが、どうにも統計周りのパッケージが不足している感じがあって、PythonからRを叩くパッケージを試してみることにしました。 PythonからRをつかうパッケージとしてはRPy2が有名っぽいですが、 There is currently no binaries or support for Microsoft Windows (more for lack of ressources than anything else). とのことで・・・ 試しにeasy_installでインストールしてみましたがエラーが出てインストールできなかったので、違う方法を試すことにしました。 PythonからRを使いたい -だがRPy2おめーはダメだ- - 盆栽日記を見てPypeRのほうを試すことにしました。 インストールはいつもどおりeasy_
RStudioのチーフサイエンティスト、Hadley Wickham(ハドリー)が2月に行った講演のビデオがYouTubeに上がっていたので観た。 "Making Data Analysis Easier"というタイトルでの発表(スライドでは"Managing many models"になっているけど)で、ハドリー自身が考えている、データサイエンスに必要な可視化やモデリングを効率的に行うための手法について、彼の開発してきたパッケージを中心に説明している。 www.youtube.com 分かりやすく、具体例を交えた内容なので、是非YouTubeの動画を観てもらうのが良いと思うが、自分の頭を整理するためにもここでまとめておく。なお、発表スライドはクリエイティブ・コモンズライセンス3.0のもと、表示・非営利のラインセンスで再利用可能となっている。 Hadley Wickham (Chief S
調査とか測定を行って得たデータの集まりがあったとき、その集団の構造を端的に表現してしている代表的な言葉が平均値と偏差値です。 偏差値の出し方はともかくとして、平均値の出し方ぐらいはご存じだと思いますが、その概念的なものはどうでしょう。また、偏差値もよく聞く言葉ですが、何かモヤモヤした感じを抱いていませんか?これらはデータの集まりである集団構造を一言で表せる言葉ですので、統計にはよく用いられます。 ここでは、平均値・偏差値・分散及び相関などの概念について説明します。 【平均】 平均値を求めるには、データを全て加え総個数で割る事で求めていますが、このやり方は算術平均と呼ばれています。平均にはこの他に幾何平均、調和平均がありますが、これらは特殊なもので、通常特に断りが無ければ平均と言えば算術平均の事を指しています。 幾何平均は比率の平均を出したいとき、対数正規分布の中心を求めるとき、人口の増加率
次元削減とは データの次元削減(Dimensionality reduction) + データの可視化(Data Visualization) PCA Principal Component Analysis(PCA) randomized PCA Online Robust Principal Component Analysis(OR-PCA) 多様体学習 t-Distributed Stochastic Neighbor Embedding(t-SNE) Multidimensional Scaling(MDS) Isomap Locally Linear Embedding (LLE) Laplacian Eigenmaps(LE) Semidefinite Embedding (SDE) Latent Dirichlet Allocation(LDA) Labeled LDA P
不確実な時代をクネクネ蛇行しながら道を切りひらく非線形型ブログ。人間の思考の形の変遷を探求することをライフワークに。 新しい発想が必要だったり、何か自分の置かれた状況を変えたいと思うなら、自ら進んでむずかしい仕事、手間のかかる作業に、ねばり強く集中して取り組む必要があると思います。 自分にとって未知の対象だったり、どう考えても自分の手に余るのではないかと感じられる膨大な量の情報を前に、ああでもない、こうでもないと試行錯誤を繰り返してこそ、いままで手にしたことのない突破口というのは見つかるはずです。 それと180度異なる姿勢は、むずかしい仕事に相対したときに要領良く要点だけつかんで、話術や表現力でなんとなく周りも自分も誤魔化してしまうことでしょう。 ほとんど苦労せずに元々自分で理解できる範囲でうまく丸めこんで、わからない部分はやり過ごしてしまうことになるので、そこからはとうぜん、新しい収穫は
アジャイルソフトウェア開発プロセスの1つであるスクラムは、日本人によるハーバードビジネスレビューに投稿された論文がきっかけで作られた、というのは、いまどき小学生でも知っている有名な話ですよねw。 [ハーバードビジネスレビュー] New New Product Development Game (1986) 竹内 弘高、野中 郁次郎 http://harvardbusiness.org/search/86116?legacy=true で、なんかこのあたりに(http://apln-richmond.pbworks.com/f/New+New+Prod+Devel+Game.pdf) 置いてあったので読んでみました(2011年12月時点注記: すでに存在していないようです。)。 Fuji-Xerox, Honda, Canon, NEC, Epson, Brother, 3M, Xerox,
ニューヨークに出張中です。僕は海外出張に行くと、大抵、会話の難しさに凹んで帰って来るんですが、今回もそれを強く感じています。 と言っても、別に英語のスキルが低くて云々という話じゃないんです。自分の考えを伝えようという熱意があれば、英語力が足りなくても意外に何とかなるから。問題なのは、そもそも伝えるものを自分が持ち合わせていないことに気付いたときです。 欧米人は基本的に、何事に対してもキーコンセプトに意識を集中させていて、枝葉末節には興味がない。すぐマニアックな方向に走る日本人とは対照的です。 日本人は、何かといえば「アメリカ人には日本の繊細さは分からない」みたいに欧米を馬鹿にする節があるけど、向こうから見ればこっちこそ馬鹿みたいなんですよ。どうでもいいことにばっかり固執してるんだから。これってどっちが良いとか悪いではなく、木を見るか森を見るかの違いなんだと思います。 そんな訳で、欧米人に"
店長 佐藤 (先月開催した10周年記念の交流イベント。トークセッションでのひとコマです) イベントで網羅しきれなかったご質問に答えてみたいと思います。 先月開催した開店10周年記念交流イベントでは、トークセッションを、事前にお客さまからお寄せいただいたご質問に答えるかたちで進めさせてもらいました。 たくさんのご質問をいただいていたのですが、時間の関係もあって、すべてにお答えすることができず……。 モデレーターをつとめたスタッフ筒井も、わたしも、少しばかり心残りがありました。 そんなタイミングでスタッフが「店長コラムで時折答えていったらどうですか?」と提案してくれたんですね。 「それ、いいかも!」となり、早速こうして書いてみています。 「文章を書くときに気をつけていることを教えてください」 日頃、こうした読みものだけでなく商品ページの制作やSNSでの発信などもしている私たちは、全体の仕事量の
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く