タグ

NLPに関するICHIROのブックマーク (34)

  • 新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改

    新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。 新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する(たぶん)最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは 実装が簡単 学習時間が短い 性能もそこそこよい という感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ

    新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転 改
  • 最大マージンクラスタリング - DO++

    ここ数日、最大マージンクラスタリング(MMC, maximum margin clustering)なるものをサーベイしていました。 自分用にもメモ Maximum Margin Clustering, NIPS 2004 Maximum margin clustering made practical, ICML 2007 Efficient Maximum Margin Clustering via Cutting Plane Algorithm, SDM 2008 Efficient multiclass maximum margin clustering, ICML 2008 MMCは従来のSVM、Multi-class SVMと全く同じ定式化で次の二点だけが違います (1) 重み(dualの場合は各例に付くalpha)に加えクラス割り当ても含めて最適化問題を解く。 (2) (1)

    最大マージンクラスタリング - DO++
  • BVOP™ Business Value-Oriented Principles©

    Why do organizations need to adopt the BVOP now? BVOP™ transforms the way organizations manage both their projects and people. BVOP™ is a superset for organizational, project, product, and people management. The BVOP can be applied to any Agile or Waterfall methodologies directly or modified depending on your needs. The goals of the BVOP are to increase productivity, reduce wastes, and improve peo

    BVOP™ Business Value-Oriented Principles©
  • 僻地 - Bayesian Setの種明かし

    Bayesian Setとは集合D_Cが与えられたとき、そこから「類推」して、元の集合C⊃D_Cに入る元xを(「自信」の度合いを表す数値つきで)求めるというもの。ただし、D_Cの元やxは特徴データ{c_i}をもっているとする。で、原論文を読むとΓ関数がずらずらでてきておどろおどろしいのだけれど、実はやっていることは簡単だということに気がついたので、書いてみる。簡単のために、特徴はあるかないかの2値的とする。(一般的には連続量も扱える。)すると、Bayesian Setのアルゴリズムがやっていることは、xについて観測された特徴c毎に重みwを足していくだけである。重みwはハイパーパラメーターα、βを使って,と書ける。ハイパーパラメータというと難しいそうだが、α_t = (Nc:D_Cでcをもつ元の数) + α、β_t = (N-Nc:D_Cでcを持たない元の数) + βと定めるので、α、βは先

    ICHIRO
    ICHIRO 2008/10/30
    Bayesian Set
  • Bayesian Sets - mots quotidiens.

    Bayesian Sets (Ghahramani and Heller, NIPS 2005)は Google Sets と同じようなことをベイズ的に行うアルゴリズムです。 いくつかアイテムを入れると, それを「補完する」ようなアイテムを 返してくれます。 これは NIPS の accepted papers が出た去年の8月から気になっていて, 会議ではオーラルの発表もあって大体のやっていることはわかった ものの, 何と(会議の時も!)論文がなく, 直接Hellerに連絡して もらえるように頼んでいたところ, Online proceedings の締切りがあった 時に連絡があって, 読めるようになりました。(リンクは下のページ参照) 岡野原君に先に 紹介 されてしまいましたが, 以下は, 岡野原君が書いていない話。 Bayesian Sets は, アイテム集合 D に対して,

    ICHIRO
    ICHIRO 2008/10/30
    ベイジアンセットについて
  • Luceneでベイズ分類(experimental) | 関口宏司のLuceneブログ

    一定期間更新がないため広告を表示しています

    Luceneでベイズ分類(experimental) | 関口宏司のLuceneブログ
    ICHIRO
    ICHIRO 2008/10/30
    ベイズ分類
  • テキスト解析:ルビ振りAPI - Yahoo!デベロッパーネットワーク

    指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。

    テキスト解析:ルビ振りAPI - Yahoo!デベロッパーネットワーク
  • ヤフーのタレント名鑑に「関係ありそうな人物名」が登場!

    ヤフーのタレント名鑑に「関係ありそうな人物名」が登場! 2008-09-09-1 [WebTool][NLP] アナウンスはされてないみたいですが、Yahoo!JAPAN のタレント名鑑の個別タレントページに、「関係ありそうな人物名」という名目で、そのタレントと関係がありそうな人たちがタグクラウド風に表示されるようになりました。 例えば竹内結子だとこんな感じです。 「ああ、なるほどねー」的な。 ついついクリックしてタレントサーフィンしちゃいますね! それぞれの人物とどういう関係があるのかは明記してないですが、恋愛関係、婚姻関係、ライバル関係、競演関係、同郷関係、同じグループ関係などいろいろな関係が一緒くたになっています。 関係が分からない人物とは裏のつながりを邪推しちゃったり。 こういう関連ワード的なものは、自然言語処理やテキストマイニングの基礎的な知識でさくっといけますね。 個別タレント

    ヤフーのタレント名鑑に「関係ありそうな人物名」が登場!
  • Google Code Archive - Long-term storage for Google Code Project Hosting.

    Code Archive Skip to content Google About Google Privacy Terms

  • MeCab の辞書構造と汎用テキスト変換ツールとしての利用

    $Id: dic-detail.html 161 2008-02-03 09:58:46Z taku-ku $; 概要 単語辞書の構造を理解することで, MeCab を汎用的なテキスト変換ツールとして利用することができます. 例えば, ひらがな to カタカナ変換, ローマ字 to ひらがな変換, Auto Link等を MeCab だけで実行できます ファイル 単語辞書を構築するには, 最低以下のファイルを作成する必要があります. *.csv ファイル (単語辞書) matrix.def (連接表) unk.def (未知語用品詞定義) char.def (未知語の文字定義) dicrc (設定ファイル) *.csv ファイル 単語辞書です エントリは, 以下のような CSV で追加します. test,1223,1223,6058,foo,bar,baz 最初の4つは必須エントリで,

    ICHIRO
    ICHIRO 2008/09/04
  • Main

    Introduction C++ による文字列処理を補助するためのツールを公開しています.現在は,文字列の整列・照合用のライブラリと,はてなダイアリーキーワード抽出用正規表現をキーワード一覧に展開するライブラリがあります. Downloads http://nanika.osonae.com/Developing/hatena_keyword_decoder.tgz ライセンス未定(nanika と統合して BSD ライセンスに変更予定) 正規表現をキーワードの一覧に提供する機能を提供します. キーワードの一覧を取り出します. http://nanika.osonae.com/Developing/nanika_alpha.tgz BSD ライセンス 文字列処理を単純化するための機能を提供します. http://nanika.osonae.com/Developing/wakati.tgz

    ICHIRO
    ICHIRO 2008/09/04
    キーワード抽出
  • 汎用連想計算エンジン GETA ファミリー

    汎用連想計算エンジンGETA ファミリー   公開 Siteこのページでは, 汎用連想計算エンジンGETA を紹介しています. GETA の実装はいくつかありますが, そのうち公開されているものは現在 2 つあります. 汎用連想計算エンジンGETA ファミリー   公開HP初代 GETA はこちらから配布されています. 最新版は GETA3.2u です.GETAssocGETAssoc は, もうひとつの GETA の実装です. Last Modified Tue Jul 21 14:12 JST 2009

  • 発想支援ナビ

    発想支援ナビは、 入力した単語となにかしらの関連のある単語(関連ワード)と、 それらの関連度、利用例を一気にブラウズできるサイトです。 関連ワードは、「類語」「シソーラス」などと比べると、 語同士のつながりが非常に緩い・弱いものが多いため、 ブレインストーミング(一人ブレスト)、アイデア出し、企画会議などの、 思考の飛躍を必要とする場面での発想支援に非常に有用です。

  • Wikipediaのキーワードリンクを使って関連語データを作ってみた

    Wikipediaのキーワードリンクを使って関連語データを作ってみた 2007-06-09-3 [NLP][Programming][Algorithm] Wikipedia のキーワードリンクを使って関連語データ(関連キーワード集) を作ってみた。 Wikipedia のデータはダウンロードページからbz2形式のを取ってきた。 日のウィキペディアのXMLデータね。 (see Wikipedia:データベースダウンロード) で、Perlスクリプトで以下の関連語データ作成処理を行った。 (スクリプトはこの記事の末尾に載せておく) (1) 各キーワードページに含まれているキーワード(リンク)を取り出す。 例えばキーワードAのページにB,C,Dが含まれていたら、A => B,C,D というデータを蓄積。 またキーワードAが他のキーワードのページ(例えばX)に含まれていたら、それも蓄積。その場合

    Wikipediaのキーワードリンクを使って関連語データを作ってみた
    ICHIRO
    ICHIRO 2008/06/24