yuisekiのブックマーク - はてなブックマーク

実データで覚える Treasure Client コマンドラインリファンス〜2.Data Management〜 - doryokujin's blog

本シリーズではTreasure Client ツールのコマンドラインリファレンスを以下の5つのレイヤーに分解し，各々について解説していくものとします。 No.レイヤーコマンド 1. Data Import one-time import bulk import 2. Data Management db table 3. Data Processing schema query job 4. Data Scheduling sched result 5. Other help status server sample 本日は 2. Data Management を紹介します。本シリーズでは実際にデータを使用して，その分析の流れに沿いながらコマンドラインを紹介していきます。実際に手を動かすためには，前回（1. Data Import）を参考にデータのインポートをお願いします。 1. db

yuiseki 2014/01/25

tech

リンク

A/Bテストの数理 - 第1回：人間の感覚のみでテスト結果を判定する事の難しさについて - - doryokujin's blog

データ解析の重要性が認識されつつある（?）最近でさえも，A/Bテストを始めとしたテスト（ = 統計的仮説検定：以後これをテストと呼ぶ）の重要性が注目される事は少なく，またテストの多くが正しく実施・解釈されていないという現状は今も昔も変わっていないように思われる。そこで，本シリーズではテストを正しく理解・実施・解釈してもらう事を目的として，テストのいろはをわかりやすく説明していきたいと思う。スケジュールスケジュール第1回 [読み物]：『人間の感覚のみでテスト結果を判定する事の難しさについて』：人間の感覚のみでは正しくテストの判定を行うのは困難である事を説明し，テストになぜ統計的手法が必要かを感じてもらう。第2回 [読み物]：『「何をテストすべきか」意義のある仮説を立てるためのヒント』：何をテストするか，つまり改善可能性のある効果的な仮説を見いだす事は，テストの実施方法うんぬんより本質

yuiseki 2014/01/06

tech

リンク

Treasure Data Platform で始めるデータ分析入門〜8. Data Visualization Patterns 〜 Part.3 - doryokujin's blog

Treasure Data Intro for Data Enthusiast!! from Takahiro Inoue 本シリーズではデータ分析を以下の7つのレイヤーに分解し，各々について解説していくものとします。（Slide Shareの資料は常時更新されます。） Data Collection Data Storage Data Management Data Processing Data Processing Design Part.1 Part.2 Part.3 Part.4 Part.5 Part.6 Data Visualization Treasure Viewer, MetricInsights, Tableau Data Visualization Patterns Part.1 Part.2 Part.3 本日は「7. Data Visulization Patt

yuiseki 2012/07/18

リンク

Treasure Data Platform で始めるデータ分析入門〜8. Data Visualization Patterns 〜 Part.2 - doryokujin's blog

Treasure Data Intro for Data Enthusiast!! from Takahiro Inoue 本シリーズではデータ分析を以下の7つのレイヤーに分解し，各々について解説していくものとします。（Slide Shareの資料は常時更新されます。） Data Collection Data Storage Data Management Data Processing Data Processing Design Part.1 Part.2 Part.3 Part.4 Part.5 Part.6 Data Visualization Treasure Viewer, MetricInsights, Tableau Data Visualization Patterns Part.1 Part.2 Part.3 本日は「7. Data Visulizations」の全

yuiseki 2012/07/18

リンク

Treasure Data Platform で始めるデータ分析入門〜8. Data Visualization Patterns 〜 Part.1 - doryokujin's blog

Treasure Data Intro for Data Enthusiast!! from Takahiro Inoue 本シリーズではデータ分析を以下の7つのレイヤーに分解し，各々について解説していくものとします。（Slide Shareの資料は常時更新されます。） Data Collection Data Storage Data Management Data Processing Data Processing Design Part.1 Part.2 Part.3 Part.4 Part.5 Part.6 Data Visualization Treasure Viewer, MetricInsights, Tableau Data Visualization Patterns Part.1 Part.2 Part.3 本日は「7. Data Visulizations」の全

yuiseki 2012/07/18

リンク

Treasure Data Analytics 第5回〜ブックレビューデータセットによるデータ解析入門（実践編2） - doryokujin's blog

前回の続きです。 5. 複数のノード・アクションをまたいだ分析前回までは主に個々のノード・アクションのセグメント分析を行ってきましたが，ここからは，複数のノード・アクション（Query 的には複数のテーブルをまたがった記述に）をまたいだ解析を行っていきます。 5.1 過小/過大評価ユーザーおよび怠惰なユーザー（外れ値）の特定ここではあるステータスから導かれる，外れ値とみなせるサンプルを特定してみましょう。今回のようなレビューデータセットでは，例えば 10 段階評価の付け方であっても悪い評価を付けたがらないユーザーもいますし，めったに高評価を付けない辛口なユーザーもいます。もちろんこれらのユーザーは例外では無く，こういった多様性を考慮した上で解析を行っていくことは重要です。ただ評価の付け方があまりにも偏っているユーザーに関しては外れ値として考慮した方が良いケースもあります。今回は以下

yuiseki 2012/07/04

リンク

Treasure Data Analytics 第2回〜Treasure Data Cloud Warehouse について（後編）〜 - doryokujin's blog

はじめに Treasure Data Cloud Warehouse（前編）では，サービスの概観を紹介しました。第2回では，実践的なデータ･アナリティクスを行う上で解決しなければならない問題をTreasure Dataではどのように解決しているのか，具体的に述べていきたいと思います：データ収集の問題：様々な種類のログをどのようにデータを集約･収集して，横断的な解析を可能にするか？ストレージの問題：増え続けていく大量のログを，どこに，どのようなフォーマットで，解析可能な状態のまま保管していくか？解析結果の活用に関する問題：ログを解析した結果を，どのように可視化するか。あるいはどのように既存のシステムに統合・フィードバックしていくのか？ 1. データ収集の問題図1: fluentd はログ解析の前段，ログ収集における問題を解決してくれる「解析対象のログを収集してくる」という作業は本質

yuiseki 2012/07/04

リンク

Treasure Data Analytics 第3回〜ブックレビューデータセットによるデータ解析入門（準備編）〜 - doryokujin's blog

はじめに前回まで Treasure Data Cloud Warehouse の紹介をしていましたが，今回からはパブリックデータを利用したデータ解析のユースケースを紹介して行きます。またこの紹介を持って td コマンドの使い方にも慣れてもらえればと思っています。 Book-Crossing Dataset 今回は Web 上に公開されているパブリックデータセット：Book-Crossing Dataset を扱います。Book-Crossing Dataset には以下の 3 テーブルからなるブックレビューデータです： (S-1) "users": ユーザーデータ（user_id, age, country,...） (S-2) "books": ブックデータ（isbn, book_title, authour, year_of_publication,...） (A-1) "ratin

yuiseki 2012/06/29

リンク

Treasure Data Analytics 第4回〜ブックレビューデータセットによるデータ解析入門（実践編1）〜 - doryokujin's blog

はじめに準備編ではデータセット：Book-Crossing Dataset を用意し， Treasure Data のツールベルト一式を導入した上でインポートし，簡単なクエリを実行するところまで行いました。本シリーズでは Treasure Data のデモアカウントが必要になりますのでまだの方は準備編の方を先に参照下さい。今回は「データを俯瞰する」をテーマに，解析対象としているデータセットがどのような姿をしているのかを視野広く眺めることにしましょう。このフェーズでは全く難しいことは行いません。ここでのキーポイントはセグメント：ノードやアクションのステータスから様々なセグメントを作成しその分布を眺めるというステップを地道に行う事にあります。それによってどの「切り口」でデータを深掘りしていけば良いかが見えてくるのです。データを俯瞰するデータ解析は解析対象とするデータセットの概要を知

yuiseki 2012/06/29

リンク

Treasure Data Analytics 第1回〜Treasure Data Cloud Warehouse について（前編）〜 - doryokujin's blog

はじめに Treasure Data Analytics シリーズは，Treasure Data の提供するクラウドサービス上で実行可能な様々なデータアナリティクスのユースケースなどを紹介して行く長いシリーズです。第1回および第2回では「Treasure Data」とは何か，またその特徴およびメリットは何かについて紹介する予定です。第1回では Treasure Data の提供する Cloud Data Warehouse サービスのイントロダクションを，第2回では「データアナリティクスを行うための Platform とは」という観点で Treasure Data の魅力をお伝えできればと思っています。 ※ なお Treasure Data は高度なインフラ・ソフトウェアテクノロジーを駆使しておりますが，本シリーズはデータアナリティクスを主眼においており，このサービスを支えるインフラ基盤

yuiseki 2012/06/22

リンク

「数学的ゲームデザイン」というアプローチ - doryokujin's blog

前回の議論をより一般化した話です。数式も少なめ。実ビジネスにおいて数学がどこまで貢献できるのかというところを理解してもらい，少なからず関心を持って頂ければ幸いです。ただしあくまで読み物として捉え，実世界ビジネスにおける違法性など指摘をするのはやめて下さい。目次 1. 『コンプガチャの数理 -コンプに必要な期待回数の計算方法について-』 2. 『「数学的ゲームデザイン」というアプローチ』 3. 『コンプガチャの数理 -ガイドラインに基づいたゲームデザインその1-』 4. 『コンプガチャの数理 -ガイドラインに基づいたゲームデザインその2-』定義「数学的ゲームデザイン」とは，とある数学モデルのレールに沿ったゲームをデザインすることである。それによって，その背景にある種々の数学的性質を活用して優位な戦略を立てることが可能になる。コンプガチャは，「The Coupon Collecto

yuiseki 2012/05/10

リンク

コンプガチャの数理 -コンプに必要な期待回数の計算方法について- - doryokujin's blog

目次 1. 『コンプガチャの数理 -コンプに必要な期待回数の計算方法について-』 2. 『「数学的ゲームデザイン」というアプローチ』 3. 『コンプガチャの数理 -ガイドラインに基づいたゲームデザインその1-』 4. 『コンプガチャの数理 -ガイドラインに基づいたゲームデザインその2-』目的コンプガチャのコンプに必要な回数を求める問題は「The Coupon Collector's Probl em」と呼ばれる数学モデルの枠組みに沿った美しい問題である事を述べ，いくつかの有用な結果を示す。 ※ あくまで個人研究のつもりで書いたので，色々不備があるかもしれません。その際は一言頂けると助かります。定義コンプガチャ問題を Coupon Collector's Probl em に準じた形で書くと以下の様になる：「全部で n 種類のアイテムがあって，1つのガチャの中にアイテムが1つ入って

yuiseki 2012/05/09

リンク

〜うまく動かすMongoDB〜仕組みや挙動を理解する - doryokujin's blog

@doryokujinです。この業界で非常に強い影響力を持つ@kuwa_tw氏が某勉強会でMongo DBについてdisられており、このままではMongo DB自身の存続が危ういと思い、急遽ブログ書きました。（冗談ですよ）ザ・ドキュメント〜うまくいかないNoSQL〜 View more presentations from Akihiro Kuwano Mongo DBを使っているときに出会うトラブルをうまくまとめてくださった「Mongo DBあるある」的な良い資料だと思います。今日はここで書かれているトラブルの解決方法を提示したいと思います。恐らく@kuwa_tw氏は全ての解決方法を知っていながら、同じトラブルへ悩む人のためにあえてdisったのだと思います。 Mongo DB はデータベースもコレクションも存在しなければ自動作成してくれる mongoシェルを起動する場合、たいていは $ mong

yuiseki 2011/07/07

リンク

MongoDBの新機能：ジャーナリングについて詳しく - doryokujin's blog

v1.8でMongo DBはジャーナリングと呼ばれる機能が新たに加わりました。今日はMongo DBのジャーナリングについて、実際にどのような処理が行われているのかを確認しながら、丁寧に見ていくことにしましょう。※なお、ジャーナリングという言葉自身、Mongoにこの機能が実装されるまで深く意識するようなことはありませんでした。解釈の部分で誤りなどがあるかもしれません、その際はご指摘していただけると幸いです。ジャーナリングによってデータの堅牢性が格段に高まった v1.8でジャーナリング機能が追加されたことによって、シングルサーバーにおけるデータの堅牢性がさらに高まりました。ジャーナリングという言葉は主にファイルシステムの分野においてかなり前から議論され、改善が進められてきた機能です。この意味におけるジャーナリングの目的はファイルシステム全体を保護することであり、そのためにメタデータの整合性を保

yuiseki 2011/06/15

mongodb

リンク

MongoTokyo：10gen エンジニア講演時に行われたQ & A メモ - doryokujin's blog

03月01日(火)に開催されたMongo DB Conference (通称 #mongotokyo) は盛会の内に終了することができました。詳細なレポートは後日アップしていきます。今回はカンファレンスにおいて10genの方々の発表時の質問タイムに議論された内容についてのメモを公開します。このメモは#mongotokyoに通訳スタッフとして参加していただいた @benhumphreys さんからいただいたものを少し修正したものです。本当にありがとうございます。あくまでメモですので、文章としてきちんと書いていませんので、そこはご了承下さい。 Q) Complex transactionsは実現しますか？普通は1つのドキュメントに対するtransactionだけサポートしています。リレーショナルデーターベースのような複数のドキュメントに対するtransactionは現在のところサポートし

yuiseki 2011/03/03

あとで読む

リンク

解析者として僕が大事にしていること - doryokujin's blog

あけましておめでとうございます。@doryokujinです。今回は技術的な内容ではなく、フロントの解析者・アナリストとして僕が大事にしていること・日々感じていることを書きたいと思います。このエントリーのきっかけは、最近多くの方から以前の10月に書いたエントリー「解析者の立ち位置」について僕が思うこと。に対して多くの共感のコメントを頂いた事です。この事で僕は今年も解析者として変わらぬ信念を持って、今いっそうの努力を続けていけばよいのだ、やるしかないという決意をもつことができました。コメントを寄せて頂いた皆さん、どうもありがとうございました。解析者として僕が大事にしていることここ数年においては、データが大量に蓄積されてきており、それを解析・マイニングするデータ解析者の重要性が理解されるようになってきているように感じています。それは解析者にとって非常に喜ばしいことでもあると同時に、大きなプ

yuiseki 2011/01/06

リンク

「解析者の立ち位置」について僕が思うこと。 - doryokujin's blog

こんにちは、 @doryokujin です。週に2、3回は更新しようと思いつつ、今週はこの1エントリーのみです…頑張ります。本日のエントリーは僕の考える「解析者の立ち位置」について書いています。僕は自分の立ち位置（=役割）を明確にすることが、仕事で成果を出すための重要な要素かなと思っています。ところで、僕のこれから話す「解析者」というのは一般に認知されているような、いわゆる大企業の研究機関、「**研究所」と名のつく機関で解析に関する新しく高度な「手法」を生み出し、大規模解析基盤を構築し、論文もばりばり書き、手法や基盤それ自身が価値を持ち売上げになるようなエクセレントな人々の事を指すわけではありません。100人にも満たないwebベンチャーで、より現場に近い所でログ解析に携わる仕事をする人を指します。本日の内容新しいタイプの解析者が求められる時代に解析者の仕事って何だろう解析者の立ち

yuiseki 2011/01/06

リンク

MongoDBドキュメントチュートリアル - doryokujin's blog

こんにちは@doroykujinです。まずは皆さんのおかげでMongo DB JPを立ち上げることができ、かつ150名以上の方に参加していただいている事に感謝したいと思っています。今後積極的な活動を行っていきますのでどうぞ宜しくお願いします。さて、本エントリーはMongo DB JPの方で日本語ドキュメントを手伝ってくれる方を募集し、かつどの部分を翻訳したいですかと尋ねたところ、「ドキュメントの構成がどうなっているのかわからない」という貴重なご意見を頂きました。確かにおっしゃるとおりでどのようなドキュメントの構成なんてわかりませんよね、しかもそれをすぐに把握するのも大変ですし。そこで今回はドキュメントがどのような構成になっているのか、ドキュメントに沿ってMongo DBの機能を簡単に紹介するようなチュートリアルをやってみたいと思います。そういう意味で全て本家ドキュメントからの引用になります。

yuiseki 2010/12/11

あとで読む

リンク

第8回データマイニング+WEB勉強会＠東京で発表してきました。「MongoDBとAjaxで作る解析フロントエンド＆GraphDBを用いたソーシャルデータ解析」 - doryokujin's blog

お久しぶりです。@doryokujinです。11/14(日)に行われました、第８回データマイニング+WEB 勉強会＠東京−大規模解析・ウェブ・クオンツ祭り−で発表してきました。Togetterも参考にして下さい。発表者・参加者双方の議論を重視するこの勉強会、今回もアツイ議論が絶えず巻起こって、とてもエキサイティングで有意義な勉強会でした。僕は前回に引き続き、今回も発表側として参加させていただきました。その時の資料は以下になります。 Mongo DBとAjaxで作る解析フロントエンド＆GraphDBを用いたソーシャルデータ解析 View more presentations from doryokujin. 前回のログ解析バックエンドの続編として、散在する各種ログを集計してMongo DBに入っているデータを表・グラフとして可視化するためのフロントエンドのお話と、ソーシャルデータの解析をG

yuiseki 2010/12/05

あとで読む

リンク

foursquareの11時間にも及ぶサービスダウンの原因を詳細に調査してみた。<a href="http://b.hatena.ne.jp/entry/http://d.hatena.ne.jp/doryokujin/20101014/1287000278" class="bookmark-count"><img src="http://b.hatena.ne.jp/entry/image/http://d.hatena.ne.jp/doryokujin/20101014/1287000278" tit

こんにちは、@doryokujinです。前回に引き続き、Mongo DBに関するエントリーです。今回は10月4日にMongo DBが原因で起きた、foursquareのサービスダウンに関して、その原因や復旧に至る経緯を詳細に調査しました。TechCrunchJapanの記事、Foursquare：「対策を講じたはずなのですが、また6時間もダウンしてしまいました」にも紹介されていたのでご存知の方も多いと思います。Mongo DBが原因で引き起こったとするならば、企業で実際に運用している僕にとっては放っておけない問題になります。実は5月にも長いサービスダウンがあったのですが、それはAmazonEC2の停電によるものでした。本日のアジェンダです： foursquareにおけるMongo DB サービスダウン時の状況本当にMongo DB自体の問題だったのだろうかサービスダウンの引き金となった出来事

yuiseki 2010/10/17

あーーこれで使えなかったのか

リンク

はてなブックマーク

タグ

ブックマーク / doryokujin.hatenablog.jp (22)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス