タグ

2010年7月13日のブックマーク (5件)

  • Hadoopを使わずにWikipediaのテキスト処理を400倍高速化 - tsubosakaの日記

    タイトルは釣りです。id:mamorukさんの書いたHadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記を読んで、そもそも1G程度のデータの単語頻度を数えるのに858分もかかるんだっけと思い、id:nokunoさんの資料を読んでみると単語頻度を求める際に a b a aみたいなデータを a 3 b 1に変形するのにsortしたファイルをuniq -cで処理するということをやっていた。これはあまり効率のよい方法ではなくて行数をNとしたときにO(N log N)の計算時間となる(文字列比較はO(1)でやれることにする)。 これに対して、単語の頻度をハッシュ表で保存すると理想的な条件の元ではO(N)の計算時間で頻度を求めることが出来、より高速に計算することが可能となることが期待される。 また、単語数をWとしたとき、C++mapのような二分探索木を使ってもO(N

    Hadoopを使わずにWikipediaのテキスト処理を400倍高速化 - tsubosakaの日記
    hiromark
    hiromark 2010/07/13
    酔ってないときにちゃんと読む。
  • 単語分割器Micterを公開しました - 射撃しつつ前転 改

    しばらく日記書いてなかったら、また文体忘れて敬体で書いちゃったよ…。でも常体に書き換えるのもめんどくさいのでこのままうpします。 単語分割器を作ったので、githubで公開しました。→http://github.com/tkng/micter 名前は単純にMIC segmenTERでmicterにしました。作ってから気づいたのですが、segmentという単語のうち、最後のtしか名前に入っていません。今更名前を変えるのも面倒なのでこのままにしておきますが、微妙に失敗した感がありますね…。 形態素解析器としては既にmecabやらchasenやらjumanやらがありますし、最近では単語分割&読み推定のkyteaもあります。そんなにいろいろある中でまた似たようなツールを書いたのは、自分のパッケージに取りこめる小さな単語分割器が欲しかったのが理由です。文章を単語に分割する機能だけあればいいんだけど、

    単語分割器Micterを公開しました - 射撃しつつ前転 改
    hiromark
    hiromark 2010/07/13
    GJ!要チェック。
  • NYの風物詩「爆発するマンホール」とその研究 | WIRED VISION

    前の記事 『Apple TV』が『iOS』で成功する理由 小惑星ルテティアに「超接写」:画像ギャラリー 次の記事 NYの風物詩「爆発するマンホール」とその研究 2010年7月13日 サイエンス・テクノロジー コメント: トラックバック (0) フィードサイエンス・テクノロジー Rachel Ehrenberg 2007年8月23日にニューヨーク市のBroadway and Wall Streetで爆発したマンホール。周りにいるのは警察官とCon Edison社の社員。Photo:Edouard H.R. Gluck(AP) ニューヨーク市では時おり、150キロ以上ある鋳鉄の円盤が、建物数階分の高さを飛び、派手な音を立てながら道路に戻ってくることがある。 1882年にトーマス・エジソンによって市の送電網が始まって以来、ニューヨーカーたちは、突然煙を噴出したり、火を噴いたり、爆発したりするマン

    hiromark
    hiromark 2010/07/13
    へえ
  • 自分の才覚に自信がなければ、真面目さは逆に足を引っ張る

    俺も院卒だけど。 何度やっても「人の話を聞け」と言われる。自分では、人に言われた事にものすごく気を付けているつもりなのに。ある時、もう、真面目になるのを諦めて、「不真面目になろう」、「人の話を逆に全く聞かないようにしよう」と思った。一旦、全部の注意をまっさらにして、自分が他人だったときに論理的に考えてやられると困るミスから潰していくようにした。他人に共感することはできなくとも、いい大学に入っているのだから、論理的に考えることは一応できる。そうしたら、だんだん、普通に作業できるようになった。 http://anond.hatelabo.jp/20100709111531 この感覚は非常によくわかるなあ。仕事全般じゃなくて人間関係全般でね。 もし元増田で話題になってる院卒の人が過去の俺と同じ問題を抱えてたと仮定すると、その人は多分何かにコンプレックスを抱えてるんだよね。一番ありがちなのは多分「

    自分の才覚に自信がなければ、真面目さは逆に足を引っ張る
    hiromark
    hiromark 2010/07/13
    わかるきもする。
  • [本日の一品]レトロ素材が復活の兆し~昔懐かしい“真鍮文具”

    hiromark
    hiromark 2010/07/13
    なんかいいなあ、こういうの。