sh19910711のブックマーク / 2018年1月13日

matplotlibでジャーナルに投稿可能な図を作るためのメモ - Qiita

良い記事でなくてすみませんが、論文投稿前になって図を直す時いっつも忘れて苦労するのでメモしました。そもそも図のサイズを指定

sh19910711 2018/01/13

リンク

Apache Drill を利用した実データの分析

オープンソースのスキーマフリーSQLエンジンApach Drillでどのように実データを分析するかを解説。

sh19910711 2018/01/13

リンク

Apache DrillでnginxのLTSVログにドリドリとSQLを投げつける

さてみなさんApache Drillでドリドリしてますか? えっ、ドリドリしてない? あ、そういうぼくもドリドリしてないですよ〜。そんな感じですが、今日は「Apache Drillつかってみた」的な話です。具体的には、Apache DrillでnginxのログをSQLで集計してエンドポイント別の平均値とか最大最小を出したりとか、レスポンスボディのサイズの平均を出したりとかそういう感じの使い方です。はじめてのApache Drill なんでApache Drillを使ってみたかというと、昨日、社内で「Apache Drillを分散モードで使うのにZooKeeper必須なの…」みたいな謎のぼやき(?)が流れまして、あーApache Drillとかあったな〜とその存在を思い出したという感じなんです。ちょうどその時、Webサービスのパフォーマンス分析をやるというタスクが手元にありまして。具体

sh19910711 2018/01/13

"RedshiftとかTDとかHadoopとかBigQueryに投げるまでもないようなスモールデータにカジュアルにクエリを投げるのに結構便利"

リンク

Apache Drillに感動した(２つのJSONファイルをSQLでJOINしてみた) - Qiita

0: jdbc:drill:zk=local> SELECT test1.*, test2.point FROM . . . . . . . . . . . > dfs.`/opt/drill/test1.json` test1 . . . . . . . . . . . > JOIN dfs.`/opt/drill/test2.json` test2 ON (test1.id = test2.id); +------------+------------+------------+ | id | name | point | +------------+------------+------------+ | 1 | foo | 100 | | 2 | bar | 200 | +------------+------------+------------+ 2 rows selected

sh19910711 2018/01/13

リンク

カラムナフォーマットのきほん

2017/05/18 BigData-JAWS 勉強会での発表資料です。 Explanation of Columnar format such as Parquet and ORC in japanese.

sh19910711 2018/01/13

リンク

＼横浜優勝／が未遂に終わった件をデータでふりかえる-日本シリーズの続き - Lean Baseball

来年は...＼横浜優勝／なんだ(^○^) 今年もプロ野球とMLB終わっちゃいましたねこんばんは.*1 プロ野球は日ハム,MLBはアスレチックス推しの私ですが両方共8月から教育リーグに旅立ってしまったので（涙）*2, イチ野球ファンとして何のプレッシャーもなく楽しんだ日本シリーズ...に出場したホークスとベイスターズについて, 打撃投球お金（年俸）をもとに,何故日本シリーズで＼横浜優勝／できなかったのか？,をふりかえりたいと思います. 結論をざっくりいうと最後まで読めない方はここをさっくり読んでグラフを眺めてもらえるといいかもです. ホークス強すぎぃ,下克上はそもそも無理ゲーだった, 今年は！ベイスターズは（地味に）打撃でもベイスボールをしていた,なお打線はかなりイケてる投手陣は質量ともにホークスとはいえホークスは圧倒的投資で勝ってる,投資対効果はベイスターズの方がイケてる!?

sh19910711 2018/01/13

gistに.ipynb置いたらはてなブログに埋め込みできるのか

リンク

最悪のデータ分析組織とは | データ分析とインテリジェンス

データ分析組織について考察するここ数年、データ分析が組織化され初めているようだ。しかし、いままで現場レベルですらほとんど存在しなかったデータ分析をいきなり組織化しようとしても外注丸投げ体質が加わって組織が機能せず人も育たず2・3年で崩壊するといった事態も散見される。これから先、いくら日本企業がデータ分析に疎いと言ってもその拡大と共に組織化していく企業は増えてくるだろう。その時に役立つかもしれないので、同じ組織は2つと無いとしても、うまくいかない理由はそれなりに共通しているのでは、と思い当たったのでまとめることにした。もしその企業にとって最悪なデータ分析組織を作るとしたらどうするだろう。マネージャーにはデータ分析の実務経験がないメンバーは実務能力に乏しいので社員だけでは仕事が回らない実務は外部のエンジニアに丸投げデータ分析に取り組む企業にとってこれ以上に悪い組織というのはなかな

sh19910711 2018/01/13

*data
*work

リンク

サッカーＷ杯優勝のドイツ代表が8年間改善してきた「数字」とは？

IT&ビジネス　業界ウォッチ IT業界で話題の新サービス・新製品のニュース、これから話題になりそうな新ツール、知っておきたい各種の統計調査……などなど、経営効率化に寄与するIT業界の今のうごきをレポートします。バックナンバー一覧開催国ブラジルを撃破し、決勝戦ではアルゼンチンにも競り勝って、24年ぶり4度目のワールドカップ優勝を成し遂げたサッカーのドイツ代表。この栄光を手に入れるための戦いは、8年前の2006年から始まっていた。 2006年Ｗ杯の開催国だったドイツは、直前の予想よりは善戦したとはいえ、地元で優勝を遂げることはできず3位に終わった。大会後に代表監督に就任したヨアヒム・レーヴ氏に、代表チームの再強化が託された。レーヴ監督は、就任直後に「選手がボールを保持している時間を最小化する」という極めてシンプルな目標を掲げた。つまり、試合中にマイボールになったらできるだけ早く味方選手

sh19910711 2018/01/13

リンク

Bad Data Handbook

Read it now on the O’Reilly learning platform with a 10-day free trial. O’Reilly members get unlimited access to books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers. What is bad data? Some people consider it a technical phenomenon, like missing values or malformed records, but bad data includes a lot more. In this handbook, data expert Q. Ethan McC

sh19910711 2018/01/13

*book
*data

リンク

多変量解析概論あるいは高次元空間をしたたかに生き抜く処世訓

〒305-8604 茨城県つくば市観音台3-1-3 独立行政法人農業環境技術研究所地球環境部生態システム研究グループ環境統計ユニット研究リーダーあるデータ点が複数の変量から成るとき，われわれは「多変量データ」（multivariate data）と呼ばれるものに遭遇する．たとえば，統計言語Ｒのパッケージに含まれているデータファイルのひとつに，植物学者 Edgar Anderson が集めた Iris属の形態データがある（ファイル名：「iris」）．その一部を下記に示そう：

sh19910711 2018/01/13

リンク

ツイート中の頻出キーフレーズと連想語から関心事を可視化する実験: Twitter Streaming API→Yahoo API→各種補完API→Gephi - NO_WAIT_FOREVER

Twitter Streaming APIを使用して自分のツイートを取得し、頻出語を調べることを思い立ちました。 Twitterアカウントを通して見た自分の関心事がどんなものであるかを調べ、どれくらい当たっているかを見る遊びでしたが、結果は当たらずといえども遠からずといった程度でした。既存のサービスを呼び出すだけのプログラミングであり、簡単に実装できると思いきや、コード量は思ったより多くなり苦労しました。この記事では、使用したライブラリやAPIの備忘録を兼ねて、プログラム例とツイートの解析結果可視化例を紹介します。実験の概要下記の流れで実験しました。自分のTweet中のキーフレーズだけでは面白くないので、ちょっと血迷ってGoogleなどが提供する補完サービス(いわゆるサジェスト)の結果を「連想語」として利用することを考えました。 Twitter Streaming APIを

sh19910711 2018/01/13

リンク

Effectively Using Matplotlib - Practical Business Python

Taking care of business, one python script at a time Introduction The python visualization world can be a frustrating place for a new user. There are many different options and choosing the right one is a challenge. For example, even after 2 years, this article is one of the top posts that lead people to this site. In that article, I threw some shade at matplotlib and dismissed it during the analy

sh19910711 2018/01/13

リンク

異常行動検出入門（改）

1. 異常行動検出入門(改) - 行動データ時系列のデータマイニング - @yokkuns: 里洋平 yohei0511@gmail.com 2012.05.11 機械学習プログラミング勉強会 2012年5月12日土曜日

sh19910711 2018/01/13

リンク

難易度ボラタリティグラフという分析手法

IGDA日本ゲームサーバ勉強会 #7で話しました。「難易度ボラタリティグラフ」という、心理学と統計を組み合わせた、ゲームにおける難易度調整手法です。Read less

sh19910711 2018/01/13

リンク

Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―

Social network analysis & Big Data - Telecommunications and moreWael Elrifai

sh19910711 2018/01/13

リンク

31データクレンジング方法

sh19910711 2018/01/13

リンク

第二回データサイエンティスト木曜勉強会20141016

ニコニコ動画のオープンデータをクレンジング&ビジュアライズしております。 http://d.hatena.ne.jp/monnalisasmile/20141016/1413458899

sh19910711 2018/01/13

リンク

クラスタ分析を駆使して、メルカリのユーザのことをもっとよく知ろう！ | mercan (メルカン)

BIチームのデータサイエンティスト @hikaru です。以前 @hasebeが社内のKPIの分析に関する話を書きました。 mercan.mercari.com 今回は、また少し違う切り口で、社内で行っている研究的な分析のひとつをご紹介したいと思います。メルカリのユーザをもっと理解しよう日本の「メルカリ」ではユーザに簡単かつあんしん・あんぜんに使っていただくために、登録時に年齢や性別などのユーザ情報をいただいていません。 about.mercari.com よってメルカリのユーザを理解しようとするときに、そういったデモグラフィックなどの直接的な情報を使って分析することはできません。しかし、メルカリの持っているデータベースにはユーザの行動や特徴を知る上でヒントとなる様々なデータが溜まっています。分析の発想と機械学習などの手法を活かせばそういった登録情報に頼らなくても、ユーザのことを深

sh19910711 2018/01/13

リンク

高次元データの外れ値検出 - sfchaos's blog

高次元データの外れ値検出についてのメモ．高次元データと次元の呪い次元が大きくなるほど，点の間の距離は均一になっていく．例として，2000個の点の各座標を一様乱数で発生させて，次元を変えながら点の間の距離の平均値，最大値，最小値，平均値±1σ，平均値±2σをみてみよう． library(ggplot2) set.seed(123) # 次元のリスト dims <- c(1:9, 10*(1:9), 100*(1:10)) # 算出する統計量 stats <- c("min", "mean-sd", "mean", "mean+sd", "max") # 発生させる点の個数 N <- 2000 # 各次元に対して算出した統計量を格納する行列 ans <- matrix(NA, length(dims), length(stats), dimnames=list(dims, stats))

sh19910711 2018/01/13

"次元が大きくなるほど，点の間の距離は均一になっていく"

リンク

はじめよう多変量解析～主成分分析編～

【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics

sh19910711 2018/01/13

リンク

Python + PypeRでPythonからRをつかってみる - 工作とかオーディオとか

Pythonは機械学習周りのパッケージは充実している感じがあるのですが、どうにも統計周りのパッケージが不足している感じがあって、PythonからRを叩くパッケージを試してみることにしました。 PythonからRをつかうパッケージとしてはRPy2が有名っぽいですが、 There is currently no binaries or support for Microsoft Windows (more for lack of ressources than anything else). とのことで・・・試しにeasy_installでインストールしてみましたがエラーが出てインストールできなかったので、違う方法を試すことにしました。 PythonからRを使いたい -だがRPy2おめーはダメだ- - 盆栽日記を見てPypeRのほうを試すことにしました。インストールはいつもどおりeasy_

sh19910711 2018/01/13

リンク

⭐️Rを使ったモデル構築の最善策を求めて: {dplyr} + {tidyr} + {broom} + {purrr}を使ったアプローチ - cucumber flesh

RStudioのチーフサイエンティスト、Hadley Wickham（ハドリー）が２月に行った講演のビデオがYouTubeに上がっていたので観た。 "Making Data Analysis Easier"というタイトルでの発表(スライドでは"Managing many models"になっているけど)で、ハドリー自身が考えている、データサイエンスに必要な可視化やモデリングを効率的に行うための手法について、彼の開発してきたパッケージを中心に説明している。 www.youtube.com 分かりやすく、具体例を交えた内容なので、是非YouTubeの動画を観てもらうのが良いと思うが、自分の頭を整理するためにもここでまとめておく。なお、発表スライドはクリエイティブ・コモンズライセンス3.0のもと、表示・非営利のラインセンスで再利用可能となっている。 Hadley Wickham (Chief S

sh19910711 2018/01/13

Hadley Wickham https://www.youtube.com/watch?v=hRNUgwAFZtQ

リンク

平均と偏差、分散、相関

調査とか測定を行って得たデータの集まりがあったとき、その集団の構造を端的に表現してしている代表的な言葉が平均値と偏差値です。偏差値の出し方はともかくとして、平均値の出し方ぐらいはご存じだと思いますが、その概念的なものはどうでしょう。また、偏差値もよく聞く言葉ですが、何かモヤモヤした感じを抱いていませんか？これらはデータの集まりである集団構造を一言で表せる言葉ですので、統計にはよく用いられます。ここでは、平均値・偏差値・分散及び相関などの概念について説明します。【平均】平均値を求めるには、データを全て加え総個数で割る事で求めていますが、このやり方は算術平均と呼ばれています。平均にはこの他に幾何平均、調和平均がありますが、これらは特殊なもので、通常特に断りが無ければ平均と言えば算術平均の事を指しています。幾何平均は比率の平均を出したいとき、対数正規分布の中心を求めるとき、人口の増加率

sh19910711 2018/01/13

*data
統計

リンク

データの次元削減に関する資料集 - めも

次元削減とはデータの次元削減(Dimensionality reduction) + データの可視化(Data Visualization) PCA Principal Component Analysis(PCA) randomized PCA Online Robust Principal Component Analysis(OR-PCA) 多様体学習 t-Distributed Stochastic Neighbor Embedding(t-SNE) Multidimensional Scaling(MDS) Isomap Locally Linear Embedding (LLE) Laplacian Eigenmaps(LE) Semidefinite Embedding (SDE) Latent Dirichlet Allocation(LDA) Labeled LDA P

sh19910711 2018/01/13

リンク

休み休みでも、最後まで自分が謎だと思うものにこだわり続ける: DESIGN IT! w/LOVE

不確実な時代をクネクネ蛇行しながら道を切りひらく非線形型ブログ。人間の思考の形の変遷を探求することをライフワークに。新しい発想が必要だったり、何か自分の置かれた状況を変えたいと思うなら、自ら進んでむずかしい仕事、手間のかかる作業に、ねばり強く集中して取り組む必要があると思います。自分にとって未知の対象だったり、どう考えても自分の手に余るのではないかと感じられる膨大な量の情報を前に、ああでもない、こうでもないと試行錯誤を繰り返してこそ、いままで手にしたことのない突破口というのは見つかるはずです。それと180度異なる姿勢は、むずかしい仕事に相対したときに要領良く要点だけつかんで、話術や表現力でなんとなく周りも自分も誤魔化してしまうことでしょう。ほとんど苦労せずに元々自分で理解できる範囲でうまく丸めこんで、わからない部分はやり過ごしてしまうことになるので、そこからはとうぜん、新しい収穫は

sh19910711 2018/01/13

リンク

スクラムの元になった資料 - [ハーバードビジネスレビュー] New New Product Development Game - kawaguti’s diary

アジャイルソフトウェア開発プロセスの１つであるスクラムは、日本人によるハーバードビジネスレビューに投稿された論文がきっかけで作られた、というのは、いまどき小学生でも知っている有名な話ですよねw。 [ハーバードビジネスレビュー] New New Product Development Game (1986) 竹内弘高、野中郁次郎 http://harvardbusiness.org/search/86116?legacy=true で、なんかこのあたりに(http://apln-richmond.pbworks.com/f/New+New+Prod+Devel+Game.pdf) 置いてあったので読んでみました(2011年12月時点注記: すでに存在していないようです。)。 Fuji-Xerox, Honda, Canon, NEC, Epson, Brother, 3M, Xerox,

sh19910711 2018/01/13

*dev
team

リンク

海外出張は物事の本質を見つめる良い機会 - kaisehのブログ

ニューヨークに出張中です。僕は海外出張に行くと、大抵、会話の難しさに凹んで帰って来るんですが、今回もそれを強く感じています。と言っても、別に英語のスキルが低くて云々という話じゃないんです。自分の考えを伝えようという熱意があれば、英語力が足りなくても意外に何とかなるから。問題なのは、そもそも伝えるものを自分が持ち合わせていないことに気付いたときです。欧米人は基本的に、何事に対してもキーコンセプトに意識を集中させていて、枝葉末節には興味がない。すぐマニアックな方向に走る日本人とは対照的です。日本人は、何かといえば「アメリカ人には日本の繊細さは分からない」みたいに欧米を馬鹿にする節があるけど、向こうから見ればこっちこそ馬鹿みたいなんですよ。どうでもいいことにばっかり固執してるんだから。これってどっちが良いとか悪いではなく、木を見るか森を見るかの違いなんだと思います。そんな訳で、欧米人に"

sh19910711 2018/01/13

“自分の考えを伝えようという熱意があれば、英語力が足りなくても意外に何とかなるから。問題なのは、そもそも伝えるものを自分が持ち合わせていないこと”

リンク

「おもしろい」文章とは？書き続けるために「おもしろい」を定義してみた

店長　佐藤（先月開催した10周年記念の交流イベント。トークセッションでのひとコマです）イベントで網羅しきれなかったご質問に答えてみたいと思います。先月開催した開店10周年記念交流イベントでは、トークセッションを、事前にお客さまからお寄せいただいたご質問に答えるかたちで進めさせてもらいました。たくさんのご質問をいただいていたのですが、時間の関係もあって、すべてにお答えすることができず……。モデレーターをつとめたスタッフ筒井も、わたしも、少しばかり心残りがありました。そんなタイミングでスタッフが「店長コラムで時折答えていったらどうですか？」と提案してくれたんですね。「それ、いいかも！」となり、早速こうして書いてみています。「文章を書くときに気をつけていることを教えてください」日頃、こうした読みものだけでなく商品ページの制作やSNSでの発信などもしている私たちは、全体の仕事量の

sh19910711 2018/01/13

読後感

リンク

はてなブックマーク

タグ

2018年1月13日のブックマーク (28件)

matplotlibでジャーナルに投稿可能な図を作るためのメモ - Qiita

Apache Drill を利用した実データの分析

Apache DrillでnginxのLTSVログにドリドリとSQLを投げつける

Apache Drillに感動した(２つのJSONファイルをSQLでJOINしてみた) - Qiita

カラムナフォーマットのきほん

＼横浜優勝／が未遂に終わった件をデータでふりかえる-日本シリーズの続き - Lean Baseball

最悪のデータ分析組織とは | データ分析とインテリジェンス

サッカーＷ杯優勝のドイツ代表が8年間改善してきた「数字」とは？

Bad Data Handbook

多変量解析概論あるいは高次元空間をしたたかに生き抜く処世訓

ツイート中の頻出キーフレーズと連想語から関心事を可視化する実験: Twitter Streaming API→Yahoo API→各種補完API→Gephi - NO_WAIT_FOREVER

Effectively Using Matplotlib - Practical Business Python

異常行動検出入門（改）

難易度ボラタリティグラフという分析手法

Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―

31データクレンジング方法

第二回データサイエンティスト木曜勉強会20141016

クラスタ分析を駆使して、メルカリのユーザのことをもっとよく知ろう！ | mercan (メルカン)

高次元データの外れ値検出 - sfchaos's blog

はじめよう多変量解析～主成分分析編～

Python + PypeRでPythonからRをつかってみる - 工作とかオーディオとか

⭐️Rを使ったモデル構築の最善策を求めて: {dplyr} + {tidyr} + {broom} + {purrr}を使ったアプローチ - cucumber flesh

平均と偏差、分散、相関

データの次元削減に関する資料集 - めも

休み休みでも、最後まで自分が謎だと思うものにこだわり続ける: DESIGN IT! w/LOVE

スクラムの元になった資料 - [ハーバードビジネスレビュー] New New Product Development Game - kawaguti’s diary

海外出張は物事の本質を見つめる良い機会 - kaisehのブログ

「おもしろい」文章とは？書き続けるために「おもしろい」を定義してみた

お知らせ

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス