タグ

ブックマーク / antibayesian.hateblo.jp (7)

  • 2016年現在のWindows機によるAnacondaを用いたPythonでのデータマイニング環境構築 - あんちべ!

    はじめに 数年前、Windows機にPythonでのデータマイニング環境を構築するには様々な困難が待ち受けていました。依存関係にあるライブラリのバージョンが合わないというよくある話から、ライブラリをインストールする順番によって無事に動いたり動かなかったりするなど初心者殺しな落し穴があちこちで口を開いていました。ところが、2016年1月現在、全く新規に環境構築しようとしてAnacondaを利用してみたところ、意外なほど簡単に環境構築できました。 Anacondaはデータマイニングの便利なライブラリを集めて一括でインストール・利用できるようにしたパッケージです。内包されているライブラリは様々な数値解析、機械学習、自然言語処理、可視化、DB連携、データハンドリング、さらには最近話題のディープラーニングなど多岐に渡り、これを入れておけばデータマイニングを行う大抵の場面で対応できるでしょう。そこで、

    2016年現在のWindows機によるAnacondaを用いたPythonでのデータマイニング環境構築 - あんちべ!
  • 統計屋のためのAWK入門 - あんちべ!

    はじめに 稿はAWKという言語を用いて、 ごく簡単にデータ分析用の前処理*1をするための解説記事です。 AWKは短いコマンドを記述するだけで多様なデータ処理を可能にします。 特にデータの抽出に関して恐るべき簡易さを提供します。 具体的には、input.txtというファイルの中から "fail"という文字列を含む行を抽出したければ次のように書くだけです。 awk /fail/ input.txt つまり、スラッシュ記号で文字列を指定するだけで その文字列を含む行を抽出できるのです。 大変簡単ですね! また、awkはLinuxMacには標準で入っており、 Windowsでもawk.exeを一つ用意するだけなので、 面倒なインストール作業や環境構築は不要で誰でも即座に使えるため、 自分で書いた処理を他人に渡したり*2各サーバに仕込むなども簡単に出来ます。 複雑な処理をする場合はPython

    統計屋のためのAWK入門 - あんちべ!
  • ブラウザ上でデータ分析が出来る!Clojure/Gorilla入門 - あんちべ!

    概要 この記事は、Gorillaという ブラウザ上でClojureという言語を利用出来るライブラリを利用し、 ブラウザ上でデータ分析環境を構築するための入門記事です。 Clojureの事前知識は一切不要で、 ClojureやGorillaのインストールから、ブラウザ上で各種手法を コピペだけで実践出来るになるまでを説明しています。 なお、各種分析手法の詳細には言及しておりません。 とにかくGorillaを動かす 「説明は良いから、とにかく動かしたい」 という方向けに要点だけ説明します。 leiningenをインストールし、作業フォルダにてlein new gorillaでプロジェクトを作り、 生成されたgoraillaフォルダ直下にあるproject.cljに下記をコピペし保存、 lein gorillaと打ち込み、少し待つと Running at http://localhost:XXX

    ブラウザ上でデータ分析が出来る!Clojure/Gorilla入門 - あんちべ!
  • 統計屋による新社会人のための統計系入門書お薦め一覧 - あんちべ!

    稿では統計学・データマイニング・機械学習関連書籍について 内容が易しいこと。数学力(特に微積・線形代数)を求められないこと 入手しやすいこと。絶版や学会に入らないと入手不可などではない、値段が安いこと 実務に繋げやすいこと。 持ち運びしやすいこと。忙しい新社会人が通勤中や休み時間ポケットからさっと取り出し、継続して勉強出来ること を主眼に選定したお薦め書籍を紹介します。 (満たせない要望も多いですが) 主な対象者は、文系で数学や統計学をやってこなかった、 プログラミングもわからない(Excelで四則演算やマウス操作くらいは使える) けどいつかマーケティングやデータマイニングやってやるぜ! って考えてる新卒の方です。 筆者自身は経済学科出身の文系で、あまり数学力に自信がないなりに Web企業でデータマイニングをしているという人間です。 ここで紹介している内容で 「統計学・機械学習・データマ

    統計屋による新社会人のための統計系入門書お薦め一覧 - あんちべ!
  • Clojure/Incanter/clj-mlでデータマイニング入門 - あんちべ!

    概要 Clojureでデータマイニングに必要な各手法を解説する記事です。 記事を読むと、全くClojureを知らない方でも データ抽出・集計 可視化 機械学習(決定木、ランダムフォレスト、k-meansクラスタリング) をClojureで実行できるようになります。 はじめに ClojureとはJVM上で動く(つまりOSを問わず沢山の環境で動く上に Java資産をそのまま使える)Lisp系の言語です。 Clojureではデータマイニングを行う際、 Incanterとclj-mlという2つの便利なツールがあります。 Incanterは統計処理用の専門ライブラリで、 単体で様々な統計分析を行ったり集計を便利にしたりする機能が沢山用意されています。 clj-mlはwekaという機械学習系のツールをClojureで簡単に使えるようにしたラッパーで、 決定木やランダムフォレストなどの分類器や 各種ク

    Clojure/Incanter/clj-mlでデータマイニング入門 - あんちべ!
  • SQLite + Pythonユーザ定義関数組込で進捗ダメじゃないですになりました - あんちべ!

    概要 これまで「Hiveからデータ取得・簡単な加工→Pythonで加工・分析」 という流れで作業していたのですが、 Hive→SQLitePythonという流れにしたところ進捗が改善されたので、 SQLiteの簡単な使い方とPythonによるSQLユーザ定義関数の組込方法 についてメモを残しておきます。 特にユーザ定義関数の組込を自由に出来ると、 分析する際、相当楽になるということに気付きました。 SQLite挟むことで何がどう改善されたの? Hiveはデカいデータをゴリゴリ取ってくる分には SQLちょっと書くだけで済むので大変便利ですが、 初動遅いためちょこちょこ小さいデータを何度も取ろうとするとストレス溜まります。 そのため、これまではある程度のデータをまとめてHiveで落としてきて Pythonで加工してから分析するという流れを取っていました。 ただ加工するために似たようなコード何

    SQLite + Pythonユーザ定義関数組込で進捗ダメじゃないですになりました - あんちべ!
  • Web系女子がLispと出会って統計学に目覚めるまでのお話 - あんちべ!

    こんにちは!今年の春からWeb系企業でHTML/CSSデザイナーとして働きだしたキラキラ女子(を目指してる)のあんちべ(23)です!よろしくお願いします!私は普段自社のWebサービスCSSなどを書いている*1のですが、最近データマイニングに興味を持ち始め、データを分析して、自社サービスの売り上げ改善に貢献したいなーと思うようになりました!でも。。。私は文系出身で統計学とか全然わからない*2し、プログラミングも得意じゃない*3し、高価な統計解析ソフトを買うのも辛いです。。。無い無い尽くしですね><;!そんな私に救いの手が!インストール作業不要で、便利な統計処理機能が色々あって、しかも無料という素晴らしいソフト*4を発見しました!その名も"Incanter"です!なんでも、 Lispっていう古くから使われてきた実績のあるプログラミング言語で動いてて、Lispの文法でどんな処理をすればよいかを

    Web系女子がLispと出会って統計学に目覚めるまでのお話 - あんちべ!
  • 1