ryskosnのブックマーク - はてなブックマーク

2016年現在のWindows機によるAnacondaを用いたPythonでのデータマイニング環境構築 - あんちべ！

はじめに数年前、Windows機にPythonでのデータマイニング環境を構築するには様々な困難が待ち受けていました。依存関係にあるライブラリのバージョンが合わないというよくある話から、ライブラリをインストールする順番によって無事に動いたり動かなかったりするなど初心者殺しな落し穴があちこちで口を開いていました。ところが、2016年1月現在、全く新規に環境構築しようとしてAnacondaを利用してみたところ、意外なほど簡単に環境構築できました。 Anacondaはデータマイニングの便利なライブラリを集めて一括でインストール・利用できるようにしたパッケージです。内包されているライブラリは様々な数値解析、機械学習、自然言語処理、可視化、DB連携、データハンドリング、さらには最近話題のディープラーニングなど多岐に渡り、これを入れておけばデータマイニングを行う大抵の場面で対応できるでしょう。そこで、

ryskosn 2016/01/27

リンク

統計屋のためのAWK入門 - あんちべ！

はじめに本稿はAWKという言語を用いて、ごく簡単にデータ分析用の前処理*1をするための解説記事です。 AWKは短いコマンドを記述するだけで多様なデータ処理を可能にします。特にデータの抽出に関して恐るべき簡易さを提供します。具体的には、input.txtというファイルの中から "fail"という文字列を含む行を抽出したければ次のように書くだけです。 awk /fail/ input.txt つまり、スラッシュ記号で文字列を指定するだけでその文字列を含む行を抽出できるのです。大変簡単ですね！また、awkはLinuxやMacには標準で入っており、 Windowsでもawk.exeを一つ用意するだけなので、面倒なインストール作業や環境構築は不要で誰でも即座に使えるため、自分で書いた処理を他人に渡したり*2各サーバに仕込むなども簡単に出来ます。複雑な処理をする場合はPythonや

ryskosn 2014/09/16

awk

リンク

ブラウザ上でデータ分析が出来る！Clojure/Gorilla入門 - あんちべ！

概要この記事は、Gorillaというブラウザ上でClojureという言語を利用出来るライブラリを利用し、ブラウザ上でデータ分析環境を構築するための入門記事です。 Clojureの事前知識は一切不要で、 ClojureやGorillaのインストールから、ブラウザ上で各種手法をコピペだけで実践出来るになるまでを説明しています。なお、各種分析手法の詳細には言及しておりません。とにかくGorillaを動かす「説明は良いから、とにかく動かしたい」という方向けに要点だけ説明します。 leiningenをインストールし、作業フォルダにてlein new gorillaでプロジェクトを作り、生成されたgoraillaフォルダ直下にあるproject.cljに下記をコピペし保存、 lein gorillaと打ち込み、少し待つと Running at http://localhost:XXX

ryskosn 2014/09/08

リンク

SQLite + Pythonユーザ定義関数組込で進捗ダメじゃないですになりました - あんちべ！

概要これまで「Hiveからデータ取得・簡単な加工→Pythonで加工・分析」という流れで作業していたのですが、 Hive→SQLite→Pythonという流れにしたところ進捗が改善されたので、 SQLiteの簡単な使い方とPythonによるSQLユーザ定義関数の組込方法についてメモを残しておきます。特にユーザ定義関数の組込を自由に出来ると、分析する際、相当楽になるということに気付きました。 SQLite挟むことで何がどう改善されたの？ Hiveはデカいデータをゴリゴリ取ってくる分には SQLちょっと書くだけで済むので大変便利ですが、初動遅いためちょこちょこ小さいデータを何度も取ろうとするとストレス溜まります。そのため、これまではある程度のデータをまとめてHiveで落としてきて Pythonで加工してから分析するという流れを取っていました。ただ加工するために似たようなコード何

ryskosn 2014/01/01

リンク

Clojure/kuromojiでテキストマイニング入門　～形態素解析からワードカウントまで～ - あんちべ！

[テキストマイニング] Clojureでテキストマイニングをしたい！という方がTLにいらっしゃったので、 Clojureという言語とkuromojiという形態素解析器を用いたテキストマイニング入門の記事を書きます。この記事の通り手を動かすと、様々なテキスト、例えばアンケートの自由記述やブログ、twitterなどの文章に形態素解析を掛け、ワードカウントと呼ばれる、ある単語が何回出現しているのかを解析する手法を使えるようになります。これを利用し、出現単語を頻度順に並べてランキングを作るなどして、その文書の特徴を明らかにするなどが出来るようになります。ある程度コンピュータを使えることは求めますが、プログラミングの前提知識はさほど求めていません。そのため、所々天下りなところ（ここはとりあえずこうやってください！と説明無しの記述）もありますが、ご容赦ください。形態素解析とは？形態素解析とは、

ryskosn 2013/11/12

Closure

リンク

進撃の巨人を読んだことない人がデータだけでキャラを推測してみる - あんちべ！

はじめに最近超人気の漫画として私のTwitter TLを賑わす作品、その名も「進撃の巨人」。これだけ人気なんだからきっと面白いに違いないのですが、なんか絵が怖そうだし、人がバンバン死んでてグロいっぽいという噂を聞くので、なんとか漫画を読まずに、それでいて進撃の巨人のキャラについては知りたい、そう願う潜在的進撃の巨人ファンも全国に70万人くらいいらっしゃると思います。そこで、データから進撃の巨人にどんなキャラが登場するか推測してみましょう。扱うデータとして、pixivのタグ情報を利用します。商品レビューコメントなどとは違い、ファンの創作活動がダイレクトに反映されるサービスなので、そこに付与されるタグ情報は、ファンの熱（過ぎる）いメッセージが込められているに違いありません。今回、以下のような縛りを入れています。 1．勿論原作は見ない 2．pixivのタグ情報は参照するけど、

ryskosn 2013/08/05

Python

リンク

靴屋とデータマイニングと季節外れの冬物衣料 - あんちべ！

やぁ。4月も終わりだというのに、いやに寒い日が続いてるね、元気かい？面白い話がtwitterに流れていたので紹介したい。日経コンピュータの話。ビックデータ神話に乗り、多額の費用で解析した靴屋の話、解析結果、冬にブーツが売れ、夏にサンダルが売れるw。 https://twitter.com/yawachi/status/326460494154194944 これを見て君はどう思う？ twitterでは皆がこのニュースに対して嘲笑を投げかけていた。そりゃそうだろう、大金を掛けて誰でもわかることしか出てこないなんて、笑われて当然さ。データマイニングってのは、やっぱり、もっとこう、あの有名な「おむつとビール」ような意外性のあるものじゃないとね。そう、データマイニングに必要なのは意外性だ！あの靴屋は全く馬鹿なことをしたもんだ、ゲラゲラ！ OK、笑いが取れたようなので、もう一つ同じような話

ryskosn 2013/04/24

リンク

Web系女子がLispと出会って統計学に目覚めるまでのお話 - あんちべ！

こんにちは！今年の春からWeb系企業でHTML/CSSデザイナーとして働きだしたキラキラ女子（を目指してる）のあんちべ（23）です！よろしくお願いします！私は普段自社のWebサービスのCSSなどを書いている*1のですが、最近データマイニングに興味を持ち始め、データを分析して、自社サービスの売り上げ改善に貢献したいなーと思うようになりました！でも。。。私は文系出身で統計学とか全然わからない*2し、プログラミングも得意じゃない*3し、高価な統計解析ソフトを買うのも辛いです。。。無い無い尽くしですね＞＜；！そんな私に救いの手が！インストール作業不要で、便利な統計処理機能が色々あって、しかも無料という素晴らしいソフト*4を発見しました！その名も"Incanter"です！なんでも、 Lispっていう古くから使われてきた実績のあるプログラミング言語で動いてて、Lispの文法でどんな処理をすればよいかを