タグ

ブックマーク / d.hatena.ne.jp/nokuno (3)

  • テキストファイルを処理するときのUnixコマンドまとめ - nokunoの日記

    個人的にテキストファイルを処理することが多いのですが,簡単な処理ならUnixのコマンドをパイプとリダイレクトで組み合わせてできることが多くあります.今回はそんななかでもちょっとマニアックなTIPSをまとめてみました. sortコマンドでタブ区切りのファイルを指定する最近知って驚愕したのがこれ.sortコマンドでタブ区切りのファイルを指定したいときは,Ctrl+v Tabでタブ文字を入力していたのですが,$ sort -t $'\t' -k 2,2 のようにしてタブ区切りで2番目のキーでソートすることができます. 1000行おきにデータをサンプリングする1000行おきにファイルからデータをサンプリングしたいときとかは,perlでワンライナーを書くのが速いようです.$ perl -ne '$i++; print unless ($i % 1000)' 某所のコードゴルフによるとこれだけ短くでき

    schrift
    schrift 2012/01/22
  • 自然言語処理勉強会@東京 のグループを作りました。 - nokunoの日記

    最近、統計・機械学習・データマイニング関係の勉強会に顔を出しているわけですが、自然言語処理の勉強会がなぜか無かったので作りたいと思い、とりあえずグループを作りました。きっと大学の研究室レベルとか研究会とかがいっぱいあるのだと思いますが、社会人でも週末で気軽に参加できるオープンな勉強会、という点では意義があるのではないかと思います。 自然言語処理勉強会@東京 | Google グループ まだ何もありませんが、興味がありましたらご参加ください。自然言語処理(Natural Language Processing; NLP)に関する勉強会です。自然言語処理について、理論と実践の両面について深く学び、発表と議論を通じて共有していくことを目的としています。 概要 主に東京で週末に開催されます。 発表者と会場提供を募集しています。 神経なんとかとの誤爆を避けるため、英名はtokyotextmining

    schrift
    schrift 2010/05/31
  • Social IMEクライアントのオープンソース化を検討中 - nokunoの日記

    サポート掲示板で質問があったので、クライアントのオープンソース化を検討しています。このエントリへの反応を参考にするため、オープンソース化を検討している経緯とかを書いてみます。 Social IMEは、はじめはひとりで開発していました。当初はAPIの公開なども考えておらず、クライアントとサーバーはセットで開発することを想定していました。通信の仕様が決まっていなかったため、迅速に開発を進めるためには仕様を試行錯誤で決めながら開発する必要があったからです。 さて、Social IMEは1年ほど前に独自プロトコルから標準的なHTTPプロトコルへ移行し、半年ほど前にWeb APIという形でサーバーの機能を公開しました。それによって(というか公開前に)ATOKでSocial IMEを使えるプラグインが開発されました。最近になってSocial IMEがニュースになると、APIを活用したMac版の開発者の

    schrift
    schrift 2009/03/07
  • 1