thondaのブックマーク - はてなブックマーク

テキストファイルを処理するときのUnixコマンドまとめ - nokunoの日記
個人的にテキストファイルを処理することが多いのですが，簡単な処理ならUnixのコマンドをパイプとリダイレクトで組み合わせてできることが多くあります．今回はそんななかでもちょっとマニアックなTIPSをまとめてみました． sortコマンドでタブ区切りのファイルを指定する最近知って驚愕したのがこれ．sortコマンドでタブ区切りのファイルを指定したいときは，Ctrl+v Tabでタブ文字を入力していたのですが，$ sort -t $'\t' -k 2,2 のようにしてタブ区切りで2番目のキーでソートすることができます． 1000行おきにデータをサンプリングする1000行おきにファイルからデータをサンプリングしたいときとかは，perlでワンライナーを書くのが速いようです．$ perl -ne '$i++; print unless ($i % 1000)' 某所のコードゴルフによるとこれだけ短くでき
thonda 2012/01/22
*まとめ

UNIX

tips
リンク
第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記
というわけで参加してきました。第1回にこにこテキストマイニング勉強会 : ATND 目的テキストマイニングについての学習のスタートアップテキストマイニング技術に関して気軽に参加・議論することができる場の提供概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。この勉強会ではそうしたテキストマイニングを題材とし、用いられている要素技術とそれに関わる課題の議論、またテキストマイニングを実務に活かす方法について考えていきます。会場のオラクルセミナールームでは隣でPythonハッカソンが行われており、そちらにも知り合いがいたり飲み物が無料だったりして居心地の良い場所が形成されていました（入るまでが大変でしたが‥）。Python Hack-a-thon 201
thonda 2011/02/20
自然言語処理

NLP

datamining
リンク
そろそろHadoopについてひとこと言っておくか - nokunoの日記
もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleのMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存
thonda 2011/01/03
開発

hadoop

クラウド
リンク
1

はてなブックマーク

タグ

ブックマーク / d.hatena.ne.jp/nokuno (3)

お知らせ

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

今週のはてなブックマーク数ランキング（2024年6月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / d.hatena.ne.jp/nokuno (3)

テキストファイルを処理するときのUnixコマンドまとめ - nokunoの日記

第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記

そろそろHadoopについてひとこと言っておくか - nokunoの日記

お知らせ

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

今週のはてなブックマーク数ランキング（2024年6月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス