Code Archive Skip to content Google About Google Privacy Terms
個人的にテキストファイルを処理することが多いのですが,簡単な処理ならUnixのコマンドをパイプとリダイレクトで組み合わせてできることが多くあります.今回はそんななかでもちょっとマニアックなTIPSをまとめてみました. sortコマンドでタブ区切りのファイルを指定する最近知って驚愕したのがこれ.sortコマンドでタブ区切りのファイルを指定したいときは,Ctrl+v Tabでタブ文字を入力していたのですが,$ sort -t $'\t' -k 2,2 のようにしてタブ区切りで2番目のキーでソートすることができます. 1000行おきにデータをサンプリングする1000行おきにファイルからデータをサンプリングしたいときとかは,perlでワンライナーを書くのが速いようです.$ perl -ne '$i++; print unless ($i % 1000)' 某所のコードゴルフによるとこれだけ短くでき
Mac大流行なのでCygwinに需要ないかもしれないけど。一年間のCygwin体験をまとめてみた。今年1年で一番使ったツールで感謝してる。 CygwinはWindows環境にそのままLinuxのCUIツールを導入できる。もう「コマンドプロンプト」に拘る必要は薄くなりました。 僕は今年1年の一番の収穫はCygwinを使ったこと。 Cygwinを使うことでターミナルを使いこなせるようになった。そしてMacに移行してもターミナルさえあるから困らないと思えるようになりました。 コマンドプロンプトを捨てるべき理由 ・SSHコマンドでリモートサーバにアクセスしても文字化けする。 ・色・フォントがダサくて使い物にならない。 ・コマンドが少ない。grep したい。findしたい cmd.exeをすててMinttyを使おう。 Cygwinを使うと、minttyというPuttyベースの素晴らしい。ターミナルが
「不定期メモ」改め「中年IT技術者のどん詰まり人生脱却ブログ」 零細ソフトウェア会社の平社員。 中年なのに未だにプログラム作っているし社員数1桁なのに社長に嫌われて人生どん詰まり状態。 太くなり続ける腹。落ちていく集中力と体力。 なんの取り柄もない中年IT技術者がどん詰まり人生からの脱却にむけて足掻きます。 cygwinにはインストーラがありますが、アンインストーラはないようなので公式FAQに従い手動でアンインストールします 削除する手順は以下の通り Cygwin上でサービスを使っている (cygrunsrv を使っている) 場合は cygrunsrv -L で起動しているサービスを確認し cygrunsrv --stop service_name で止める。 inetd を起動するように設定している場合、inetd はリストに出てこないが止めておいた方がよい。 cygrunsrv --r
Mahout はやっぱり Hadoop の上で使ってこそでしょ。というわけで開発用にも Hadoop をセットアップしなければならない。 基本的に Hadoop は Linux で使うべき。Linux 上での疑似分散くらいまでなら結構簡単にセットアップできる。ネット上にいっぱい情報がある。Cloudera 使ってもいい(まだ使ったこと無いけど)。 スタンドアローンなら Windows でもそんなには難しくない。けど、疑似分散になると途端にやっかい。 そんなこんなで Windows 2008 x64 に Hadoop 0.21.0 を疑似分散でセットアップにチャレンジ。 最初に結論から。 Hadoop 0.21.0 は使うな。 Windows で Hadoop は使うな。 【追記】Mahout 0.4 が Hadoop 0.20.2 なので、最初からそれを使うのがベストだった。0.5-SNA
川口耕介さんを囲む会 : ATNDに参加してきました。目当てはHudsonのHadoopプラグインです。Hadoopプラグインの概要については2009-03-15 - 川口耕介の日記を、プラグインそのものについてはHadoop Plugin - hudson - Hudson Wikiを参照してください。 本編について すみません、Togetter - 「2010/11/11 川口耕介さんを囲む会」を参照してください。 質問内容と回答 Q.スレーブの追加を一括登録することは可能ですか? 出来ません。あったら便利そうですね、作ってほしいです。 Q.Windowsでも完全分散モードで動作しますか? 動作します。ただし、Cygwinは必要です。実際にSunで動かしてました。 Q.PigやHive、HBaseを組み込む予定はありますか? 作ってほしいです。 Q.Hadoopのバージョンは0.19で
HBaseは列指向DBMSで大規模分散処理に特化しているDBMSです。 大規模なデータ容量になってもパフォーマンスの劣化がおきにくいのが特徴で、 次世代のデータベースとして注目されています。 ここではHBaseをWindowsXPマシンにインストールする方法について記述します。 RDBMSとHBaseの違いをお手軽に?確認したいという方にお勧めです。 環境 HBaseをWindowsで利用するにはJDK6/Cygwin/SSHサービスが必要となります。 環境は2010-02-01時点の最新バイナリを利用しました。 WindowsXP Professional SP2 HBase-0.20.3 http://www.apache.org/dyn/closer.cgi/hadoop/hbase/ JDK 6 Update 18 http://java.sun.com/javase/ja/6/d
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く