タグ

ブックマーク / d.hatena.ne.jp/nokuno (2)

  • テキストファイルを処理するときのUnixコマンドまとめ - nokunoの日記

    個人的にテキストファイルを処理することが多いのですが,簡単な処理ならUnixのコマンドをパイプとリダイレクトで組み合わせてできることが多くあります.今回はそんななかでもちょっとマニアックなTIPSをまとめてみました. sortコマンドでタブ区切りのファイルを指定する最近知って驚愕したのがこれ.sortコマンドでタブ区切りのファイルを指定したいときは,Ctrl+v Tabでタブ文字を入力していたのですが,$ sort -t $'\t' -k 2,2 のようにしてタブ区切りで2番目のキーでソートすることができます. 1000行おきにデータをサンプリングする1000行おきにファイルからデータをサンプリングしたいときとかは,perlでワンライナーを書くのが速いようです.$ perl -ne '$i++; print unless ($i % 1000)' 某所のコードゴルフによるとこれだけ短くでき

  • Social IMEをオープンソース化しました - nokunoの日記

    Social IMEのソースコードを公開しました。現在はサーバーサイドのみですが、クライアントサイドや古いバージョンも順次追加していきたいと思います。 social-ime - Project Hosting on Google CodeSocial IMEは、ユーザー参加型の新しい日本語入力ソフトウェアです。 みんなで単語や正しい変換結果を覚えさせることで、どんどん賢くなっていきます。このページは、日本語入力システムの開発に興味がある開発者・研究者向けのプロジェクトページです。Social IMEを構成する要素のうち、再配布可能なソースコードの公開を行っています。現在のところサーバーサイドの統計的かな漢字変換エンジンの公開を行っていますが、動作にはGoogle N-gram相当のデータが必要となります。 OSS化の経緯について私は、3年前に未踏に採択されてからWeb時代の日本語入力という

  • 1