タグ

ブックマーク / d.hatena.ne.jp/nokuno (5)

  • テキストファイルを処理するときのUnixコマンドまとめ - nokunoの日記

    個人的にテキストファイルを処理することが多いのですが,簡単な処理ならUnixのコマンドをパイプとリダイレクトで組み合わせてできることが多くあります.今回はそんななかでもちょっとマニアックなTIPSをまとめてみました. sortコマンドでタブ区切りのファイルを指定する最近知って驚愕したのがこれ.sortコマンドでタブ区切りのファイルを指定したいときは,Ctrl+v Tabでタブ文字を入力していたのですが,$ sort -t $'\t' -k 2,2 のようにしてタブ区切りで2番目のキーでソートすることができます. 1000行おきにデータをサンプリングする1000行おきにファイルからデータをサンプリングしたいときとかは,perlでワンライナーを書くのが速いようです.$ perl -ne '$i++; print unless ($i % 1000)' 某所のコードゴルフによるとこれだけ短くでき

  • 【これはすごい】Twitter検索を3倍高速化した記事の翻訳 - nokunoの日記

    これはすごい! というわけでTwitter検索を3倍高速化したという記事を翻訳してみました。Twitter Engineering: Twitter Search is Now 3x Faster2010年春。Twitterの検索チームは、我々の増え続けるトラフィックに対応し、エンドユーザにとっての遅延を減らし、我々のサービスの可用性を向上させ、新しい検索の機能を素早く開発できるようにするため、検索エンジンを書きなおす作業を始めた。 その努力の一部として、我々は新しいリアルタイム検索をリリースし、検索のバックエンドをMySQLからLuceneのリアルタイム版に変更した。そして先週、我々はRuby-on-Railsに取って代わるフロントエンドをローンチした。我々がBlenderと呼ぶJavaサーバーである。我々はこの変更によって検索のレイテンシが3分の1になり、検索機能の開発を促進できるよう

  • 第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記

    というわけで参加してきました。第1回 にこにこテキストマイニング勉強会 : ATND 目的テキストマイニングについての学習のスタートアップテキストマイニング技術に関して気軽に参加・議論することができる場の提供 概要テキストマイニングとは、例えば製品の評判をweb上のテキストから抽出したり、大量のアンケートテキストを分析するために用いられる技術であり、特にマーケティングの場で多くの利用例があります。この勉強会ではそうしたテキストマイニングを題材とし、用いられている要素技術とそれに関わる課題の議論、またテキストマイニングを実務に活かす方法について考えていきます。 会場のオラクルセミナールームでは隣でPythonハッカソンが行われており、そちらにも知り合いがいたり飲み物が無料だったりして居心地の良い場所が形成されていました(入るまでが大変でしたが‥)。Python Hack-a-thon 201

  • Quoraを支える技術 - nokunoの日記

    勉強になる記事を見つけたので気になったところを翻訳してみました。Quora’s Technology Examined | Phil Whelan's Blog はじめにQuoraはハイテク起業家の世界を体現しており、問題を見つけるのが難しいほどなめらかなシステムを提供している。この巧妙なシステムは回答者と質問者だけに支えられているわけではなく、よく練られたバックエンドシステムによっても支えられている。それは共同創業者がFacebookで磨きをかけた技術でもある。さほど驚くべきことでもなく、賢い人々は良く考えられたたくさんの賢い道具を使う。NoSQL信者たちはこう言って頭をかかえる:「なぜQuoraはCassandraやMongoDBやCouchDBのようなNoSQLではなく、MySQLをデータストアとして使うのか?」このエントリではQuoraについての技術的な情報をまとめ、考察を行う。彼

    shin1x1
    shin1x1 2011/02/04
    参考になる
  • Thriftを使って俺俺Key-Value Storeを作った - nokunoの日記

    っていうタイトルにしようと思ったんだけど、要するにThriftを使ってTxをサーバーとして使えるようにしました。 Thriftについてはこちら。Thriftインストールメモ - nokunoの日記 Txについてはこちら。Tx: Succinct Trie Data Structure READMETxThrift 1.00 2009/09/19動作環境:LinuxTxThriftはThriftを用いてTxをサーバーとして利用できるように拡張したソフトウェアです。TxThriftは、Txの持つ以下のような特徴を引き継いでいます。1. キーを圧縮して持つため、メモリー使用量が少ない2. 自然言語処理に必要なcommon prefix searchなどを高速に行うことができる3. 静的にインデックスを持つため、初期化後はキーの追加や削除はできないTxThriftの応用例として、以下のようなアプリ

  • 1