タグ

ブックマーク / doryokujin.hatenablog.jp (22)

  • 実データで覚える Treasure Client コマンドラインリファンス 〜2.Data Management〜 - doryokujin's blog

    シリーズではTreasure Client ツールのコマンドラインリファレンスを以下の5つのレイヤーに分解し,各々について解説していくものとします。 No.レイヤーコマンド 1. Data Import one-time import bulk import 2. Data Management db table 3. Data Processing schema query job 4. Data Scheduling sched result 5. Other help status server sample 日は 2. Data Management を紹介します。シリーズでは実際にデータを使用して,その分析の流れに沿いながらコマンドラインを紹介していきます。実際に手を動かすためには,前回(1. Data Import) を参考にデータのインポートをお願いします。 1. db

    実データで覚える Treasure Client コマンドラインリファンス 〜2.Data Management〜 - doryokujin's blog
    yuiseki
    yuiseki 2014/01/25
  • A/Bテストの数理 - 第1回:人間の感覚のみでテスト結果を判定する事の難しさについて - - doryokujin's blog

    データ解析の重要性が認識されつつある(?)最近でさえも,A/Bテストを始めとしたテスト( = 統計的仮説検定:以後これをテストと呼ぶ)の重要性が注目される事は少なく,またテストの多くが正しく実施・解釈されていないという現状は今も昔も変わっていないように思われる。そこで,シリーズではテストを正しく理解・実施・解釈してもらう事を目的として,テストのいろはをわかりやすく説明していきたいと思う。 スケジュール スケジュール 第1回 [読み物]:『人間の感覚のみでテスト結果を判定する事の難しさについて』:人間の感覚のみでは正しくテストの判定を行うのは困難である事を説明し,テストになぜ統計的手法が必要かを感じてもらう。 第2回 [読み物]:『「何をテストすべきか」意義のある仮説を立てるためのヒント』:何をテストするか,つまり改善可能性のある効果的な仮説を見いだす事は,テストの実施方法うんぬんより

    A/Bテストの数理 - 第1回:人間の感覚のみでテスト結果を判定する事の難しさについて - - doryokujin's blog
    yuiseki
    yuiseki 2014/01/06
  • Treasure Data Platform で始めるデータ分析入門 〜8. Data Visualization Patterns 〜 Part.3 - doryokujin's blog

    Treasure Data Intro for Data Enthusiast!! from Takahiro Inoue シリーズではデータ分析を以下の7つのレイヤーに分解し,各々について解説していくものとします。(Slide Shareの資料は常時更新されます。) Data Collection Data Storage Data Management Data Processing Data Processing Design Part.1 Part.2 Part.3 Part.4 Part.5 Part.6 Data Visualization Treasure Viewer, MetricInsights, Tableau Data Visualization Patterns Part.1 Part.2 Part.3 日は「7. Data Visulization Patt

    Treasure Data Platform で始めるデータ分析入門 〜8. Data Visualization Patterns 〜 Part.3 - doryokujin's blog
    yuiseki
    yuiseki 2012/07/18
  • Treasure Data Platform で始めるデータ分析入門 〜8. Data Visualization Patterns 〜 Part.2 - doryokujin's blog

    Treasure Data Intro for Data Enthusiast!! from Takahiro Inoue シリーズではデータ分析を以下の7つのレイヤーに分解し,各々について解説していくものとします。(Slide Shareの資料は常時更新されます。) Data Collection Data Storage Data Management Data Processing Data Processing Design Part.1 Part.2 Part.3 Part.4 Part.5 Part.6 Data Visualization Treasure Viewer, MetricInsights, Tableau Data Visualization Patterns Part.1 Part.2 Part.3 日は「7. Data Visulizations」の全

    Treasure Data Platform で始めるデータ分析入門 〜8. Data Visualization Patterns 〜 Part.2 - doryokujin's blog
    yuiseki
    yuiseki 2012/07/18
  • Treasure Data Platform で始めるデータ分析入門 〜8. Data Visualization Patterns 〜 Part.1 - doryokujin's blog

    Treasure Data Intro for Data Enthusiast!! from Takahiro Inoue シリーズではデータ分析を以下の7つのレイヤーに分解し,各々について解説していくものとします。(Slide Shareの資料は常時更新されます。) Data Collection Data Storage Data Management Data Processing Data Processing Design Part.1 Part.2 Part.3 Part.4 Part.5 Part.6 Data Visualization Treasure Viewer, MetricInsights, Tableau Data Visualization Patterns Part.1 Part.2 Part.3 日は「7. Data Visulizations」の全

    Treasure Data Platform で始めるデータ分析入門 〜8. Data Visualization Patterns 〜 Part.1 - doryokujin's blog
    yuiseki
    yuiseki 2012/07/18
  • Treasure Data Analytics 第5回 〜ブックレビューデータセットによるデータ解析入門(実践編2) - doryokujin's blog

    前回の続きです。 5. 複数のノード・アクションをまたいだ分析 前回までは主に個々のノード・アクションのセグメント分析を行ってきましたが,ここからは,複数のノード・アクション(Query 的には複数のテーブルをまたがった記述に)をまたいだ解析を行っていきます。 5.1 過小/過大評価ユーザーおよび怠惰なユーザー(外れ値)の特定 ここではあるステータスから導かれる,外れ値とみなせるサンプルを特定してみましょう。 今回のようなレビューデータセットでは,例えば 10 段階評価の付け方であっても悪い評価を付けたがらないユーザーもいますし,めったに高評価を付けない辛口なユーザーもいます。もちろんこれらのユーザーは例外では無く,こういった多様性を考慮した上で解析を行っていくことは重要です。 ただ評価の付け方があまりにも偏っているユーザーに関しては外れ値として考慮した方が良いケースもあります。今回は以下

    Treasure Data Analytics 第5回 〜ブックレビューデータセットによるデータ解析入門(実践編2) - doryokujin's blog
    yuiseki
    yuiseki 2012/07/04
  • Treasure Data Analytics 第2回 〜Treasure Data Cloud Warehouse について(後編)〜 - doryokujin's blog

    はじめに Treasure Data Cloud Warehouse(前編)では,サービスの概観を紹介しました。第2回では,実践的なデータ・アナリティクスを行う上で解決しなければならない問題をTreasure Dataではどのように解決しているのか,具体的に述べていきたいと思います: データ収集の問題:様々な種類のログをどのようにデータを集約・収集して,横断的な解析を可能にするか? ストレージの問題:増え続けていく大量のログを,どこに,どのようなフォーマットで,解析可能な状態のまま保管していくか? 解析結果の活用に関する問題:ログを解析した結果を,どのように可視化するか。あるいはどのように既存のシステムに統合・フィードバックしていくのか? 1. データ収集の問題 図1: fluentd はログ解析の前段,ログ収集における問題を解決してくれる 「解析対象のログを収集してくる」という作業は

    Treasure Data Analytics 第2回 〜Treasure Data Cloud Warehouse について(後編)〜 - doryokujin's blog
    yuiseki
    yuiseki 2012/07/04
  • Treasure Data Analytics 第3回 〜ブックレビューデータセットによるデータ解析入門(準備編)〜 - doryokujin's blog

    はじめに 前回まで Treasure Data Cloud Warehouse の紹介をしていましたが,今回からはパブリックデータを利用したデータ解析のユースケースを紹介して行きます。またこの紹介を持って td コマンドの使い方にも慣れてもらえればと思っています。 Book-Crossing Dataset 今回は Web 上に公開されているパブリックデータセット:Book-Crossing Dataset を扱います。Book-Crossing Dataset には以下の 3 テーブルからなるブックレビューデータです: (S-1) "users": ユーザーデータ(user_id, age, country,...) (S-2) "books": ブックデータ(isbn, book_title, authour, year_of_publication,...) (A-1) "ratin

    Treasure Data Analytics 第3回 〜ブックレビューデータセットによるデータ解析入門(準備編)〜 - doryokujin's blog
    yuiseki
    yuiseki 2012/06/29
  • Treasure Data Analytics 第4回 〜ブックレビューデータセットによるデータ解析入門(実践編1)〜 - doryokujin's blog

    はじめに 準備編ではデータセット:Book-Crossing Dataset を用意し, Treasure Data のツールベルト一式を導入した上でインポートし,簡単なクエリを実行するところまで行いました。シリーズでは Treasure Data のデモアカウントが必要になりますのでまだの方は準備編の方を先に参照下さい。 今回は「データを俯瞰する」をテーマに,解析対象としているデータセットがどのような姿をしているのかを視野広く眺めることにしましょう。このフェーズでは全く難しいことは行いません。ここでのキーポイントは セグメント:ノードやアクションのステータスから様々なセグメントを作成しその分布を眺める というステップを地道に行う事にあります。それによってどの「切り口」でデータを深掘りしていけば良いかが見えてくるのです。 データを俯瞰する データ解析は解析対象とするデータセットの概要を知

    Treasure Data Analytics 第4回 〜ブックレビューデータセットによるデータ解析入門(実践編1)〜 - doryokujin's blog
    yuiseki
    yuiseki 2012/06/29
  • Treasure Data Analytics 第1回 〜Treasure Data Cloud Warehouse について(前編)〜 - doryokujin's blog

    はじめに Treasure Data Analytics シリーズは,Treasure Data の提供するクラウドサービス上で実行可能な様々なデータアナリティクスのユースケースなどを紹介して行く長いシリーズです。第1回および第2回では「Treasure Data」とは何か,またその特徴およびメリットは何かについて紹介する予定です。 第1回では Treasure Data の提供する Cloud Data Warehouse サービスのイントロダクションを,第2回では「データアナリティクスを行うための Platform とは」という観点で Treasure Data の魅力をお伝えできればと思っています。 ※ なお Treasure Data は高度なインフラ・ソフトウェアテクノロジーを駆使しておりますが,シリーズはデータアナリティクスを主眼においており,このサービスを支えるインフラ基盤

    Treasure Data Analytics 第1回 〜Treasure Data Cloud Warehouse について(前編)〜 - doryokujin's blog
    yuiseki
    yuiseki 2012/06/22
  • 「数学的ゲームデザイン」というアプローチ - doryokujin's blog

    前回の議論をより一般化した話です。数式も少なめ。実ビジネスにおいて数学がどこまで貢献できるのかというところを理解してもらい,少なからず関心を持って頂ければ幸いです。ただしあくまで読み物として捉え,実世界ビジネスにおける違法性など指摘をするのはやめて下さい。 目次 1. 『コンプガチャの数理 -コンプに必要な期待回数の計算方法について-』 2. 『「数学ゲームデザイン」というアプローチ』 3. 『コンプガチャの数理 -ガイドラインに基づいたゲームデザイン その1-』 4. 『コンプガチャの数理 -ガイドラインに基づいたゲームデザイン その2-』 定義 「数学ゲームデザイン」とは,とある数学モデルのレールに沿ったゲームをデザインすることである。それによって,その背景にある種々の数学的性質を活用して優位な戦略を立てることが可能になる。 コンプガチャは,「The Coupon Collecto

    「数学的ゲームデザイン」というアプローチ - doryokujin's blog
    yuiseki
    yuiseki 2012/05/10
  • コンプガチャの数理 -コンプに必要な期待回数の計算方法について- - doryokujin's blog

    目次 1. 『コンプガチャの数理 -コンプに必要な期待回数の計算方法について-』 2. 『「数学ゲームデザイン」というアプローチ』 3. 『コンプガチャの数理 -ガイドラインに基づいたゲームデザイン その1-』 4. 『コンプガチャの数理 -ガイドラインに基づいたゲームデザイン その2-』 目的 コンプガチャのコンプに必要な回数を求める問題は「The Coupon Collector's Problem」と呼ばれる数学モデルの枠組みに沿った美しい問題である事を述べ,いくつかの有用な結果を示す。 ※ あくまで個人研究のつもりで書いたので,色々不備があるかもしれません。その際は一言頂けると助かります。 定義 コンプガチャ問題を Coupon Collector's Problem に準じた形で書くと以下の様になる: 「全部で n 種類のアイテムがあって,1つのガチャの中にアイテムが1つ入って

    コンプガチャの数理 -コンプに必要な期待回数の計算方法について- - doryokujin's blog
    yuiseki
    yuiseki 2012/05/09
  • 〜うまく動かすMongoDB〜仕組みや挙動を理解する - doryokujin's blog

    @doryokujinです。この業界で非常に強い影響力を持つ@kuwa_tw氏が某勉強会でMongoDBについてdisられており、このままではMongoDB自身の存続が危ういと思い、急遽ブログ書きました。(冗談ですよ) ザ・ドキュメント〜うまくいかないNoSQL〜 View more presentations from Akihiro Kuwano MongoDBを使っているときに出会うトラブルをうまくまとめてくださった「MongoDBあるある」的な良い資料だと思います。今日はここで書かれているトラブルの解決方法を提示したいと思います。恐らく@kuwa_tw氏は全ての解決方法を知っていながら、同じトラブルへ悩む人のためにあえてdisったのだと思います。 MongoDB はデータベースもコレクションも存在しなければ自動作成してくれる mongoシェルを起動する場合、たいていは $ mong

    〜うまく動かすMongoDB〜仕組みや挙動を理解する - doryokujin's blog
  • MongoDBの新機能:ジャーナリングについて詳しく - doryokujin's blog

    v1.8でMongoDBはジャーナリングと呼ばれる機能が新たに加わりました。今日はMongoDBのジャーナリングについて、実際にどのような処理が行われているのかを確認しながら、丁寧に見ていくことにしましょう。※なお、ジャーナリングという言葉自身、Mongoにこの機能が実装されるまで深く意識するようなことはありませんでした。解釈の部分で誤りなどがあるかもしれません、その際はご指摘していただけると幸いです。 ジャーナリングによってデータの堅牢性が格段に高まった v1.8でジャーナリング機能が追加されたことによって、シングルサーバーにおけるデータの堅牢性がさらに高まりました。ジャーナリングという言葉は主にファイルシステムの分野においてかなり前から議論され、改善が進められてきた機能です。この意味におけるジャーナリングの目的はファイルシステム全体を保護することであり、そのためにメタデータの整合性を保

    MongoDBの新機能:ジャーナリングについて詳しく - doryokujin's blog
  • MongoTokyo:10gen エンジニア講演時に行われたQ & A メモ - doryokujin's blog

    03月01日(火)に開催されたMongoDB Conference (通称 #mongotokyo) は盛会の内に終了することができました。詳細なレポートは後日アップしていきます。今回はカンファレンスにおいて10genの方々の発表時の質問タイムに議論された内容についてのメモを公開します。 このメモは#mongotokyoに通訳スタッフとして参加していただいた @benhumphreys さんからいただいたものを少し修正したものです。当にありがとうございます。あくまでメモですので、文章としてきちんと書いていませんので、そこはご了承下さい。 Q) Complex transactionsは実現しますか? 普通は1つのドキュメントに対するtransactionだけサポートしています。 リレーショナルデーターベースのような複数のドキュメントに対するtransactionは 現在のところサポートし

    MongoTokyo:10gen エンジニア講演時に行われたQ & A メモ - doryokujin's blog
  • 解析者として僕が大事にしていること - doryokujin's blog

    あけましておめでとうございます。@doryokujinです。今回は技術的な内容ではなく、フロントの解析者・アナリストとして僕が大事にしていること・日々感じていることを書きたいと思います。 このエントリーのきっかけは、最近多くの方から以前の10月に書いたエントリー「解析者の立ち位置」について僕が思うこと。に対して多くの共感のコメントを頂いた事です。この事で僕は今年も解析者として変わらぬ信念を持って、今いっそうの努力を続けていけばよいのだ、やるしかないという決意をもつことができました。コメントを寄せて頂いた皆さん、どうもありがとうございました。 解析者として僕が大事にしていること ここ数年においては、データが大量に蓄積されてきており、それを解析・マイニングするデータ解析者の重要性が理解されるようになってきているように感じています。それは解析者にとって非常に喜ばしいことでもあると同時に、大きなプ

    解析者として僕が大事にしていること - doryokujin's blog
    yuiseki
    yuiseki 2011/01/06
  • 「解析者の立ち位置」について僕が思うこと。 - doryokujin's blog

    こんにちは、 @doryokujin です。週に2、3回は更新しようと思いつつ、今週はこの1エントリーのみです…頑張ります。 日のエントリーは僕の考える「解析者の立ち位置」について書いています。僕は自分の立ち位置(=役割)を明確にすることが、仕事で成果を出すための重要な要素かなと思っています。ところで、僕のこれから話す「解析者」というのは一般に認知されているような、いわゆる大企業の研究機関、「**研究所」と名のつく機関で解析に関する新しく高度な「手法」を生み出し、大規模解析基盤を構築し、論文もばりばり書き、手法や基盤それ自身が価値を持ち売上げになるようなエクセレントな人々の事を指すわけではありません。100人にも満たないwebベンチャーで、より現場に近い所でログ解析に携わる仕事をする人を指します。 日の内容 新しいタイプの解析者が求められる時代に 解析者の仕事って何だろう 解析者の立ち

    「解析者の立ち位置」について僕が思うこと。 - doryokujin's blog
    yuiseki
    yuiseki 2011/01/06
  • MongoDBドキュメントチュートリアル - doryokujin's blog

    こんにちは@doroykujinです。まずは皆さんのおかげでMongoDB JPを立ち上げることができ、かつ150名以上の方に参加していただいている事に感謝したいと思っています。今後積極的な活動を行っていきますのでどうぞ宜しくお願いします。 さて、エントリーはMongoDB JPの方で日語ドキュメントを手伝ってくれる方を募集し、かつどの部分を翻訳したいですかと尋ねたところ、「ドキュメントの構成がどうなっているのかわからない」という貴重なご意見を頂きました。確かにおっしゃるとおりでどのようなドキュメントの構成なんてわかりませんよね、しかもそれをすぐに把握するのも大変ですし。そこで今回はドキュメントがどのような構成になっているのか、ドキュメントに沿ってMongoDBの機能を簡単に紹介するようなチュートリアルをやってみたいと思います。そういう意味で全て家ドキュメントからの引用になります。

    MongoDBドキュメントチュートリアル - doryokujin's blog
  • 第8回データマイニング+WEB勉強会@東京で発表してきました。「MongoDBとAjaxで作る解析フロントエンド&GraphDBを用いたソーシャルデータ解析」 - doryokujin's blog

    お久しぶりです。@doryokujinです。11/14(日)に行われました、第8回 データマイニング+WEB 勉強会@東京−大規模解析・ウェブ・クオンツ 祭り−で発表してきました。Togetterも参考にして下さい。 発表者・参加者双方の議論を重視するこの勉強会、今回もアツイ議論が絶えず巻起こって、とてもエキサイティングで有意義な勉強会でした。僕は前回に引き続き、今回も発表側として参加させていただきました。その時の資料は以下になります。 MongoDBとAjaxで作る解析フロントエンド&GraphDBを用いたソーシャルデータ解析 View more presentations from doryokujin. 前回のログ解析バックエンドの続編として、散在する各種ログを集計してMongoDBに入っているデータを表・グラフとして可視化するためのフロントエンドのお話と、ソーシャルデータの解析をG

    第8回データマイニング+WEB勉強会@東京で発表してきました。「MongoDBとAjaxで作る解析フロントエンド&GraphDBを用いたソーシャルデータ解析」 - doryokujin's blog
  • foursquareの11時間にも及ぶサービスダウンの原因を詳細に調査してみた。<a href="http://b.hatena.ne.jp/entry/http://d.hatena.ne.jp/doryokujin/20101014/1287000278" class="bookmark-count"><img src="http://b.hatena.ne.jp/entry/image/http://d.hatena.ne.jp/doryokujin/20101014/1287000278" tit

    こんにちは、@doryokujinです。前回に引き続き、MongoDBに関するエントリーです。今回は10月4日にMongoDBが原因で起きた、foursquareのサービスダウンに関して、その原因や復旧に至る経緯を詳細に調査しました。TechCrunchJapanの記事、Foursquare:「対策を講じたはずなのですが、また6時間もダウンしてしまいました」にも紹介されていたのでご存知の方も多いと思います。MongoDBが原因で引き起こったとするならば、企業で実際に運用している僕にとっては放っておけない問題になります。実は5月にも長いサービスダウンがあったのですが、それはAmazonEC2の停電によるものでした。 日のアジェンダです: foursquareにおけるMongoDB サービスダウン時の状況 当にMongoDB自体の問題だったのだろうか サービスダウンの引き金となった出来事

    foursquareの11時間にも及ぶサービスダウンの原因を詳細に調査してみた。<a href="http://b.hatena.ne.jp/entry/http://d.hatena.ne.jp/doryokujin/20101014/1287000278" class="bookmark-count"><img src="http://b.hatena.ne.jp/entry/image/http://d.hatena.ne.jp/doryokujin/20101014/1287000278" tit
    yuiseki
    yuiseki 2010/10/17
    あーーこれで使えなかったのか