タグ

2010年1月25日のブックマーク (3件)

  • NLTK Bookで教師なし形態素解析 - nokunoの日記

    意外と知られていないようなので、NLTK BookのSegmentationの節にある教師なし形態素解析(単語分割)について紹介してみます。 この手法では、テキストを「単語の辞書」と「単語IDの列」で表したときにその合計サイズが最小になるように単語分割の位置を最適化します。言い換えれば、単語の出現確率に一様分布を仮定して圧縮したときに、その圧縮効率を最大とするように単語を分割します。持橋さんの研究よりはるかに単純なモデルですが、原理としては近いものになります。最適化にはシミュレーテッドアニーリング(焼きなまし法)を使っていて、適当に初期化してからランダムに単語分割位置を変えて、評価関数にかけて良い結果になったら採用する、という操作を繰り返し行うものです。 NLTK Bookでは、英語のテキストからスペースを取り除いたものを用いて単語を抽出しています。これはかなり恣意的に選ばれたテキストで、

    mamoruk
    mamoruk 2010/01/25
    NLTKにこんなモデルが。
  • 八木博のシリコンバレービジネスブログ - 【SV】シリコンバレー内でNo1評価はApple

    Business Journalという情報誌が、シリコンバレー企業の尊敬度をまとめた。 AppleがダントツにTop、その次がGoogle この調査は読者を対象に先月行われたもので、私もAppleに一票入れている。 ここに掲げられた会社(Othersは除いて)6社は、いずれもスタートはベンチャー企業で、現在は時価総額が10兆円以上となっている。 Appleは20世紀にパソコンを開発し、21世紀にInternetを介した事業を展開してきた。 今週、発表が予想されるTabletは、どうやらMediaセンターを目指しているらしい。 これは、従来のMusic産業がiTunesに移行したことに匹敵する巨大な変化の可能性を含んでいる。 Appleがやると、何故か社会が動く感じがするのは、私の思い入れ過ぎだろいうか。 そして、Appleの行先に控えるのがGoogle、シリコンバレーの中で世界を変える会社

    mamoruk
    mamoruk 2010/01/25
    すごく他を引き離している
  • googleで「exoo」と入力してみろwwwwwwww:ハムスター速報

    googleで「exoo」と入力してみろwwwwwwww カテゴリ☆☆☆☆ 1 :以下、名無しにかわりましてVIPがお送りします:2010/01/24(日) 17:35:27.65 ID:gKPRj9Hx0 ぁあぃいぅうぇえぉおかがきぎくぐけげこごさざしじすずせぜそぞただちぢっつづてでとどなにぬねのはばぱひびぴふぶぷへべぺほぼぽまみむめもゃやゅゆょよらりる 自分でやりたい人用:http://www.google.co.jp/ 2 :以下、名無しにかわりましてVIPがお送りします:2010/01/24(日) 17:36:21.84 ID:oixmJJSd0 なにそれ怖い 3 :以下、名無しにかわりましてVIPがお送りします:2010/01/24(日) 17:37:04.88 ID:858RrMO40 マジでなったwww 4 :以下、名無しにかわりましてVIPがお送りします:20

    mamoruk
    mamoruk 2010/01/25
    よく調べた。。。