xefのブックマーク - はてなブックマーク

ログ集計システムを自前で作る - Y's note

Index ログ集計システムの要件 DB設計データ保存方針 table設計サーバ構成 Fluentd fluentd,fluent-plugin-mysql-bulk install td-agent.conf mysqlにデータが格納される事を確認する集計用のバッチその他 Table肥大化防止可視化ログ集計システムの要件爆弾ログ処理班の@yutakikuchi_です。ログ集計システムというものを作る時に皆さんはどのように対応していますか？以下の候補から要件のレベルで使い分けをしている人が多いと予想しています。ざっくりの評価ですが、導入難易度、正確性、可視化、リアルタイム、長期集計、スケール、運用費用という点で評価を書いています。ツール導入難易度正確性可視化リアルタイム長期集計スケール運用費用リンク GA(スタンダード) ○ × ○ ○ ○ ○ ○ Go

xef 2014/02/13

Logging

リンク

MongoDBのCapped CollectionとTailable Cursorを使ったRealTimeAccess集計 - Y's note

Index RealTimeAccess集計 Capped Collection Tailable Cursor まとめ RealTimeAccess集計 RealTimeAccess集計をするためにMongo DBの利用を考えます。サーバーの構成は上図のようなイメージで各種ApplicationServerからFluentdでLogAggregatorにRealTimeでLogデータを転送し、LogAggregator MasterがMongo DBにFluentdで書き込んで行きます。ここで言うRealTimeAccess集計の機能要件を整理すると以下のようになります。 Access発生後、1分以内で集計結果をWebツール上で確認したい。集計区間も1分単位など。複数条件が指定可能で、柔軟なCross集計がしたい。 RealTimeAccess集計のSystem負荷を出来る限り抑えたい。

xef 2013/08/14

MongoDB

リンク

データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話 - Y's note

Index データ集計コマンド爆速で検索したいぜ！ lookを使う LC_ALL=Cを設定するデータのランダムサンプリングがしたいぜ！ sedを使う awkを使う sortの--random-sortを使う Script言語を使う shufを使うランダムサンプリング速度比較合計と平均値を集計したいぜ！列データ取得重複行のカウント合計値出力平均値出力複数ファイルのデータ結合がしたいぜ！共通項目での結合同じ行数での結合まとめデータ集計コマンド joinコマンドが便利過ぎて生きるのが辛い - Yuta.Kikuchiの日記 lookコマンドによる二分探索が速すぎて見えない - Yuta.Kikuchiの日記今日はデータ集計を行う上で絶対に覚えておいた方が良いコマンドと知識を紹介したいと思います。これを身につければシステム処理と業務効率化に大きく繋がると思います。この記

xef 2013/08/01

Linux

リンク

Multi-Class Classifier of Bra Size used as the feature value with vital statics - Y's note

Multi-Class Classifier of Bra Size アダルトフィルタ実装に向けたA○女優リストの自動抽出 + α - Yuta.Kikuchiの日記前回のA○女優リストの自動抽出の流れから今日は実験を行います。本来の目的だったアダルトフィルタ作成から話がどんどんズレて行きます。今日のお題はVital Staticsを特徴量としてBra SizeのMulti-Class問題を解きます。タイトルを英語にしたのはこの下らない実験をさも真面目な研究としてやったかのようにカモフラージュするためです。初めに断っておきますが今回の実験を振り返った結果、反省はしている、だが後悔もしている状態です。 Vital Statics - Wikipedia 一般的な話ですがVital StaticsからBra Sizeを導きだすのは難しいとされています。( BraSize = TopBust

xef 2013/07/23

MachineLearning

リンク

【進撃の巨大データ】Log集計用DBとシステム構成の美しい設計を考える - Y's note

[:W560] Log集計用DB設計考える問題 Document無しのAgile開発をガチで推奨したい@yutakikuchi_です。【進撃の巨大データ】の第2回目として巨大アクセスLog集計用DBの設計について勉強した内容についてメモしたいと思います。DB周りはそこまで詳しく無いので詳しい皆様からの突っ込み大歓迎でございます。また図々しいですが知恵をください(笑)。今日の主目的は下の2要件を叶えるためのDB設計を考える事です。特に問題になるのがRealTimeの話でTableにLogDataを書き込む処理と集計のSQLをどのように組み立てるか、それ以外にもSystemPerformanceとArchitectureにも関わってきます。リアルタイムで大量データを集計したい定期処理で大量データを集計したい使うもの Fluentd : Fluentd: Open Source Log

xef 2013/07/09

リンク

Mecab Pythonを使ったTF・IDFによるWikipediaの重要単語抽出 - Y's note

入門自然言語処理作者: Steven Bird,Ewan Klein,Edward Loper,萩原正人,中山敬広,水野貴明出版社/メーカー: オライリージャパン発売日: 2010/11/11メディア: 大型本購入: 20人クリック: 639回この商品を含むブログ (44件) を見る TF・IDF計算自然言語処理の勉強としてTF・IDFによる重要単語の抽出をwikipediaのデータに対して試してみます。TF・IDFを一言でまとめると、とある単語の重要度を出現頻度から計算する手法です。計算結果は重みを表します。TFは単語の出現数(Term Frequency)、IDFは総文書数 / 単語が出現する文書の総数の対数(Inverted Document Frequency)、TFIDFはその積になります。数式にすると以下のようになりますが、Webを検索してみると人によって計算の仕方が異

xef 2013/02/15

リンク

業種別企業名辞書データを公開しました - Y's note

Web解析Hacks ―オンラインビジネスで最大の効果をあげるテクニック & ツール作者: Eric T. Peterson,株式会社デジタルフォレスト,木下哲也,有限会社福龍興業出版社/メーカー: オライリー・ジャパン発売日: 2006/11/08メディア: 単行本（ソフトカバー）購入: 3人クリック: 78回この商品を含むブログ (21件) を見る企業名辞書業種と企業名の辞書データが欲しかったんでYahoo!FinanceのデータをCrawlして作りました。帝国データバンクや四季報のデータが使えると良かったんですが、Crawlできそうに無かったので諦めました。残念ながら2600社ほどのデータしか集まっておらず、個人的にはもっといろんなデータが欲しいです。他に良い方法をご存知の方いらっしゃいましたらご連絡いただけると幸いです。 Yahoo!ファイナンス - 株価やニュース、企業情

xef 2013/02/10

リンク

Hadoop Oozie設定からPigのPythonUDFを利用するまでのまとめ - Y's note

Hadoop 第2版作者: Tom White,玉川竜司,兼田聖士出版社/メーカー: オライリージャパン発売日: 2011/07/23メディア: 大型本購入: 9人クリック: 182回この商品を含むブログ (24件) を見る Oozie OozieとはHadoop MapReduceのジョブ管理システムの事でMapReduceの定期処理化や複数のMapReduceの実行し結果を一つにまとめるなど一連の処理フローとして定義することができる優れものです。Oozie自体はJava/Tomcatで作られているようです。Oozieを動かすために開発者は以下のものを用意しなければなりません。ファイル必須記述方式用途設置場所 MapReduceプログラム必須 Java,Streaming,Pig/Hive等 MapReduce実行 HDFS workflow 必須 xml OozieJo

xef 2012/12/29

Pig
Hadoop

リンク

Mahoutを使ったNaiveBayesによる機械学習 - Y's note

入門ソーシャルデータ ―データマイニング、分析、可視化のテクニック作者: Matthew A. Russell,奥野陽（監訳）,佐藤敏紀（監訳）,瀬戸口光宏（監訳）,原川浩一（監訳）,水野貴明（監訳）,長尾高弘出版社/メーカー: オライリージャパン発売日: 2011/11/26メディア: 大型本購入: 18人クリック: 779回この商品を含むブログ (42件) を見る BigDataでの機械学習膨大なデータに対して機械学習を行いたい時にlocalの端末一台では処理の時間が掛かりすぎてしまいます。学習、モデル作成、予測のそれぞれの処理を高速で行うための一つのSolutionがHadoop上で機械学習をしてしまうことだと思います。Hadoop上で機械学習をするための便利なライブラリとしてJAVAベースのMahoutがあります。この記事ではMahoutによるNaiveBayes分類学習を

xef 2012/11/21

リンク

lookコマンドによる二分探索が速すぎて見えない - Y's note

Linuxコマンドブックビギナーズ第2版コマンドブックシリーズ作者: 田谷文彦,三澤明出版社/メーカー: ソフトバンククリエイティブ発売日: 2007/04/11メディア: 単行本クリック: 3回この商品を含むブログ (2件) を見る grep vs look 数GByte容量の圧縮ファイルから特定の文字列を検索したい場合があります。一度きりのgrep検索処理であればそれほど気にする事はありませんが、System処理で何度も検索をするようなケースでは処理に時間がかかってしまいます。今日はsortされたファイルに対してlookという2分探索コマンドを利用するとgrepより高速に検索が可能ということを調べたいと思います。 lookコマンドの活用 lookは通常の場合辞書ファイルからスペルを確認するために利用されます。例えばmorpholoと先頭一致する単語一覧を取得したい場合は$

xef 2012/10/30

Linux
look

リンク

Apache Mahout 機械学習Libraryを使って「魔法少女まどか☆マギカ」の台詞をテキストマイニングしてみた - Y's note

Mahout in Action 作者: Sean Owen,Robin Anil,Ted Dunning,Ellen Friedman出版社/メーカー: Manning Pubns Co発売日: 2011/10/28メディア: ペーパーバック購入: 4人クリック: 81回この商品を含むブログ (10件) を見る Index Information & Links Apache Mahout Abouc Apache Mahout Mahout has machine learning libraries Mahout Download / Setting Madmagi Words Scraping Word MA Mecab MA HDFS PUT Clustering Theory TF/IDF K-Means Canopy Clustering Word Vector Clust

xef 2012/05/05

リンク

はてなブックマーク

タグ

ブックマーク / yut.hatenablog.com (11)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス