タグ

Googleとtoolに関するmzkIIIのブックマーク (2)

  • Google Refine活用メモ | Find Something You’ve Lost

    Google refineのクラスタリング機能は便利ですが、ファセット(facet)でバリエーションが多い場合は”too many to display”となってしまい実行出来ません。現バージョンでは制限を変えられるようになっていますが、それでもブラウザベースである程度大きなデータに対して処理を行うとブラウザが長時間にわたり重くなるという問題があります。 その一方でソースコードは公開されているので、それを利用することで、上記の問題を回避したクラスタリングが可能になります。 Key collision kNN Key collision については、Clusteringから個々のソースを取得して適宜生成します。 kNN については、下記の要領でダウンロードします。 svn checkout http://simile-vicino.googlecode.com/svn/trunk/ simi

  • Google Refineは神ツールである | wrong, rogue and log

    Google Refine 2.0 http://code.google.com/p/google-refine/ Googleのデータクレンジングツール。ローカルwebサーバーで動作するアプリである。なぜローカルで動作するwebサーバにしているかというと、それには理由があるのだ。ほんと、ビックリ。 公開しているデータはタイトルやデータ形式がマチマチで、それを自分のところで統計解析するには、データレンジングをかなりやらなければいけなかった。そのためには、いままでgrepだとかfindだとかのコマンドやPythonスクリプトで半狂乱になって汚れ落としをしていたけれど、このGoogle Refineを使うとそういう問題がアホみたいに簡単に解決する。 例えば、カテゴリカルデータがセルに割り当てられているとする。記入者によってそれが略語だったりフルの名称だったりマチマチである。これを全て一つの文字

    Google Refineは神ツールである | wrong, rogue and log
  • 1