タグ

programmingとNLPに関するICHIROのブックマーク (3)

  • DO++

    2012年の個人的な総括を以下にまとめます。 子供が生まれました 無事子供が7月に生まれました。毎日子育てに翻弄していますが想像していたよりも大変で楽しい時間を過ごしています。 また、が実家に里帰り出産したため夏の間は、毎週末の実家に帰り車を運転して病院・お店に行くという、まるでの実家で生活して月〜金は東京で働いているような感覚で過ごしていました。 高速文字列を出しました 高速文字列の世界を12/27に出しました。 2012年の目標としてをだすということを考えていました。2010年夏頃からの話はいただいていましたが、結婚、会社(途中から経営陣に入ってさらに時間確保が困難に)、子育てと時間確保がどんどん困難になっていきずるずると伸びてしまっていました。 しかし、文字列解析の話は小さいころから扱っていた話(もう10歳ぐらいからの付き合い)で一度まとめてみたかったというのもありますし

    DO++
  • 新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改

    新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。 新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する(たぶん)最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは 実装が簡単 学習時間が短い 性能もそこそこよい という感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ

    新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改
  • Wikipediaのキーワードリンクを使って関連語データを作ってみた

    Wikipediaのキーワードリンクを使って関連語データを作ってみた 2007-06-09-3 [NLP][Programming][Algorithm] Wikipedia のキーワードリンクを使って関連語データ(関連キーワード集) を作ってみた。 Wikipedia のデータはダウンロードページからbz2形式のを取ってきた。 日のウィキペディアのXMLデータね。 (see Wikipedia:データベースダウンロード) で、Perlスクリプトで以下の関連語データ作成処理を行った。 (スクリプトはこの記事の末尾に載せておく) (1) 各キーワードページに含まれているキーワード(リンク)を取り出す。 例えばキーワードAのページにB,C,Dが含まれていたら、A => B,C,D というデータを蓄積。 またキーワードAが他のキーワードのページ(例えばX)に含まれていたら、それも蓄積。その場合

    Wikipediaのキーワードリンクを使って関連語データを作ってみた
    ICHIRO
    ICHIRO 2008/06/24
  • 1