タグ

ブックマーク / yut.hatenablog.com (7)

  • データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話 - Y's note

    Index データ集計コマンド 爆速で検索したいぜ! lookを使う LC_ALL=Cを設定する データのランダムサンプリングがしたいぜ! sedを使う awkを使う sortの--random-sortを使う Script言語を使う shufを使う ランダムサンプリング速度比較 合計と平均値を集計したいぜ! 列データ取得 重複行のカウント 合計値出力 平均値出力 複数ファイルのデータ結合がしたいぜ! 共通項目での結合 同じ行数での結合 まとめ データ集計コマンド joinコマンドが便利過ぎて生きるのが辛い - Yuta.Kikuchiの日記 lookコマンドによる二分探索が速すぎて見えない - Yuta.Kikuchiの日記 今日はデータ集計を行う上で絶対に覚えておいた方が良いコマンドと知識を紹介したいと思います。これを身につければシステム処理と業務効率化に大きく繋がると思います。この記

    データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話 - Y's note
  • MongoDBのAggregation Framework/MapReduceを使ってより賢く集計を行うためのまとめ - Yuta.Kikuchiの日記

    Mogodb集計 MongoDBの集計機能が便利過ぎて泣けてくるお話し - Yuta.Kikuchiの日記 1月程前にMongoDBを使った集計機能の紹介をさせていただいた@yutakikucです。内容は全く大した事無かったのですが、タイトルで誘導を引っ張って200近いbookmarkを集める事ができました笑。みなさんの参考にしていただけたこと、大変嬉しく思います。今日はMongoDBの集計をもう一歩踏み込んだ内容を紹介して行きたいと思います。題材としてはAggregation FrameworkとMapReduceについてです。因に今回試してみたMongoDB-Versionは2.2.3です。Versionによって挙動が変わると思うので注意してください。 $ mongo --version MongoDB shell version: 2.2.3 Aggregation Framewor

    MongoDBのAggregation Framework/MapReduceを使ってより賢く集計を行うためのまとめ - Yuta.Kikuchiの日記
  • じゃあ、いつRails始めるの?... 今でしょ! - Y's note

    実践 Rails ―強力なWebアプリケーションをすばやく構築するテクニック 作者: Brad Ediger,株式会社クイープ出版社/メーカー: オライリージャパン発売日: 2008/10/27メディア: 大型購入: 7人 クリック: 90回この商品を含むブログ (43件) を見る Index はじめに RailsのInstall Railsの基礎 Rubyの基礎文法 はじめに Ruby on Rails入門 (全46回) - プログラミングならドットインストール PythonistaからRubyistへの鞍替えを試みている@yutakikucです。DotInstall等を通してRuby on Railsの基礎を学び中なので学習した内容をまとめていきます。Yahoo!勤務時代はWebFWを自作していた経験もありFWについてはある程度知識を持っている僕から見てもRailsはとても便利ものだ

    じゃあ、いつRails始めるの?... 今でしょ! - Y's note
  • MongoDBの集計機能が便利過ぎて泣けてくるお話し - Y's note

    MongoDBイン・アクション 作者: Kyle Banker,Sky株式会社玉川竜司出版社/メーカー: オライリージャパン発売日: 2012/12/14メディア: 大型購入: 5人 クリック: 55回この商品を含むブログ (4件) を見る MongoDB集計機能 CentOSでNginxのログをFluentdを使ってMongodbにリアルタイムで格納する - Yuta.Kikuchiの日記 時給3000円のCEOと揶揄されている@yutakikucです。今日は簡単にMongodbのログ集計機能を紹介します。機能が豊富過ぎて泣けてくるんで、ログ解析する人は是非使ってみて下さい。FluentdでMongodbNginxLogを流し込む設定は上のエントリーを参照して下さい。次回はAggregationFramework/MapReduce周りについて触れたいと思います。 泣ける話 : 集

    MongoDBの集計機能が便利過ぎて泣けてくるお話し - Y's note
  • Mecab Pythonを使ったTF・IDFによるWikipediaの重要単語抽出 - Y's note

    入門 自然言語処理 作者: Steven Bird,Ewan Klein,Edward Loper,萩原正人,中山敬広,水野貴明出版社/メーカー: オライリージャパン発売日: 2010/11/11メディア: 大型購入: 20人 クリック: 639回この商品を含むブログ (44件) を見る TF・IDF計算 自然言語処理の勉強としてTF・IDFによる重要単語の抽出をwikipediaのデータに対して試してみます。TF・IDFを一言でまとめると、とある単語の重要度を出現頻度から計算する手法です。計算結果は重みを表します。TFは単語の出現数(Term Frequency)、IDFは総文書数 / 単語が出現する文書の総数の対数(Inverted Document Frequency)、TFIDFはその積になります。数式にすると以下のようになりますが、Webを検索してみると人によって計算の仕方が異

    Mecab Pythonを使ったTF・IDFによるWikipediaの重要単語抽出 - Y's note
  • 10秒で設定可能なlibsvmで機械学習を行う - Y's note

    Support Vector Machines (Information Science and Statistics) 作者: Ingo Steinwart,Andreas Christmann出版社/メーカー: Springer発売日: 2008/08/29メディア: ハードカバー クリック: 17回この商品を含むブログを見る libsvm LIBSVM -- A Library for Support Vector Machines R言語でSVM(Support Vector Machine)による分類学習 - Yuta.Kikuchiの日記 前回RでのSVMを簡単に紹介しましたが、今日はlibsvmを利用したirisの分類学習を行いたいと思います。libsvmは導入がめちゃくちゃ簡単なところが売りだと思います。zipをlibsvmサイトからdownloadして展開してgmakeで

    10秒で設定可能なlibsvmで機械学習を行う - Y's note
  • R言語を用いた自己回帰モデルによる株価予測を試してみた - Y's note

    一番売れてる株の雑誌ZAiが作った「株」入門 改訂版 作者: ダイヤモンド・ザイ編集部出版社/メーカー: ダイヤモンド社発売日: 2009/03/27メディア: 単行購入: 5人 クリック: 71回この商品を含むブログ (13件) を見る 株価予測 欧州の経済不安により円高/日株安が深刻になっています。トレーダーとしてはこのBigWaveを見過ごす訳にはいかないですが、「もうはまだなり、まだはもうなり」という言葉があるように投資のタイミングは非常に難しいものです。ここでは投資理論を語るのではなく、機械学習で株価を予測する事を試してみます。今回採用する予測Modelは自己回帰Model(AR)です。ARは時系列データ解析によく用いられます。AR処理はR言語のar関数を用います。 AR(AutoRegressive)Model ARModel - 自己回帰モデル ARModelは時系列解析

    R言語を用いた自己回帰モデルによる株価予測を試してみた - Y's note
  • 1