[B! NLP] [2ページ] ICHIROのブックマーク

新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転改

新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する（たぶん）最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは実装が簡単学習時間が短い性能もそこそこよいという感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ

ICHIRO 2008/12/17

リンク

最大マージンクラスタリング - DO++

ここ数日、最大マージンクラスタリング（MMC, maximum margin clustering)なるものをサーベイしていました。自分用にもメモ Maximum Margin Clustering, NIPS 2004 Maximum margin clustering made practical, ICML 2007 Efficient Maximum Margin Clustering via Cutting Plane Algorithm, SDM 2008 Efficient multiclass maximum margin clustering, ICML 2008 MMCは従来のSVM、Multi-class SVMと全く同じ定式化で次の二点だけが違います (1) 重み（dualの場合は各例に付くalpha)に加えクラス割り当ても含めて最適化問題を解く。 (2) (1)

ICHIRO 2008/12/12

リンク

BVOP™ Business Value-Oriented Principles©

Why do organizations need to adopt the BVOP now? BVOP™ transf orms the way organizations manage both their projects and people. BVOP™ is a superset for organizational, project, product, and people management. The BVOP can be applied to any Agile or Waterfall methodologies directly or modified depending on your needs. The goals of the BVOP are to increase productivity, reduce wastes, and improve peo

ICHIRO 2008/12/06

リンク

僻地 - Bayesian Setの種明かし

Bayesian Setとは集合D_Cが与えられたとき、そこから「類推」して、元の集合C⊃D_Cに入る元xを(「自信」の度合いを表す数値つきで)求めるというもの。ただし、D_Cの元やxは特徴データ{c_i}をもっているとする。で、原論文を読むとΓ関数がずらずらでてきておどろおどろしいのだけれど、実はやっていることは簡単だということに気がついたので、書いてみる。簡単のために、特徴はあるかないかの2値的とする。(一般的には連続量も扱える。)すると、Bayesian Setのアルゴリズムがやっていることは、xについて観測された特徴c毎に重みwを足していくだけである。重みwはハイパーパラメーターα、βを使って,と書ける。ハイパーパラメータというと難しいそうだが、α_t = (Nc:D_Cでcをもつ元の数) + α、β_t = (N-Nc:D_Cでcを持たない元の数) + βと定めるので、α、βは先

ICHIRO 2008/10/30

Bayesian Set

tech
NLP

リンク

Bayesian Sets - mots quotidiens.

Bayesian Sets (Ghahramani and Heller, NIPS 2005)は Google Sets と同じようなことをベイズ的に行うアルゴリズムです。いくつかアイテムを入れると, それを「補完する」ようなアイテムを返してくれます。これは NIPS の accepted papers が出た去年の8月から気になっていて, 本会議ではオーラルの発表もあって大体のやっていることはわかったものの, 何と(本会議の時も!)論文がなく, 直接Hellerに連絡してもらえるように頼んでいたところ, Online proceedings の締切りがあった時に連絡があって, 読めるようになりました。(リンクは下のページ参照) 岡野原君に先に紹介されてしまいましたが, 以下は, 岡野原君が書いていない話。 Bayesian Sets は, アイテム集合 D に対して,

ICHIRO 2008/10/30

ベイジアンセットについて

tech
NLP

リンク

Luceneでベイズ分類（experimental） | 関口宏司のLuceneブログ

一定期間更新がないため広告を表示しています

ICHIRO 2008/10/30

ベイズ分類

NLP
tech

リンク

テキスト解析:ルビ振りAPI - Yahoo!デベロッパーネットワーク

指定されたURLは存在しません。 URLが正しく入力されていないか、このページが削除された可能性があります。

ICHIRO 2008/10/14

リンク

ヤフーのタレント名鑑に「関係ありそうな人物名」が登場！

ヤフーのタレント名鑑に「関係ありそうな人物名」が登場！ 2008-09-09-1 [WebTool][NLP] アナウンスはされてないみたいですが、Yahoo!JAPAN のタレント名鑑の個別タレントページに、「関係ありそうな人物名」という名目で、そのタレントと関係がありそうな人たちがタグクラウド風に表示されるようになりました。例えば竹内結子だとこんな感じです。「ああ、なるほどねー」的な。ついついクリックしてタレントサーフィンしちゃいますね！それぞれの人物とどういう関係があるのかは明記してないですが、恋愛関係、婚姻関係、ライバル関係、競演関係、同郷関係、同じグループ関係などいろいろな関係が一緒くたになっています。関係が分からない人物とは裏のつながりを邪推しちゃったり。こういう関連ワード的なものは、自然言語処理やテキストマイニングの基礎的な知識でさくっといけますね。個別タレント

ICHIRO 2008/09/10

リンク

Google Code Archive - Long-term storage for Google Code Project Hosting.

Code Archive Skip to content Google About Google Privacy Terms

ICHIRO 2008/09/08

Library
NLP

リンク

MeCab の辞書構造と汎用テキスト変換ツールとしての利用

$Id: dic-detail.html 161 2008-02-03 09:58:46Z taku-ku $; 概要単語辞書の構造を理解することで, MeCab を汎用的なテキスト変換ツールとして利用することができます. 例えば, ひらがな to カタカナ変換, ローマ字 to ひらがな変換, Auto Link等を MeCab だけで実行できますファイル単語辞書を構築するには, 最低以下のファイルを作成する必要があります. *.csv ファイル (単語辞書) matrix.def (連接表) unk.def (未知語用品詞定義) char.def (未知語の文字定義) dicrc (設定ファイル) *.csv ファイル単語辞書ですエントリは, 以下のような CSV で追加します. test,1223,1223,6058,foo,bar,baz 最初の4つは必須エントリで,

ICHIRO 2008/09/04

sen
NLP

リンク

Main

Introduction C++ による文字列処理を補助するためのツールを公開しています．現在は，文字列の整列・照合用のライブラリと，はてなダイアリーキーワード抽出用正規表現をキーワード一覧に展開するライブラリがあります． Downloads http://nanika.osonae.com/Developing/hatena_keyword_decoder.tgz ライセンス未定（nanika と統合して BSD ライセンスに変更予定）正規表現をキーワードの一覧に提供する機能を提供します．キーワードの一覧を取り出します． http://nanika.osonae.com/Developing/nanika_alpha.tgz BSD ライセンス文字列処理を単純化するための機能を提供します． http://nanika.osonae.com/Developing/wakati.tgz

ICHIRO 2008/09/04

キーワード抽出

C
NLP

リンク

汎用連想計算エンジン GETA ファミリー

汎用連想計算エンジンGETA ファミリー公開 Siteこのページでは, 汎用連想計算エンジンGETA を紹介しています. GETA の実装はいくつかありますが, そのうち公開されているものは現在 2 つあります. 汎用連想計算エンジンGETA ファミリー公開ＨＰ初代 GETA はこちらから配布されています. 最新版は GETA3.2u です.GETAssocGETAssoc は, もうひとつの GETA の実装です. Last Modified Tue Jul 21 14:12 JST 2009

ICHIRO 2008/09/03

リンク

発想支援ナビ

発想支援ナビは、入力した単語となにかしらの関連のある単語（関連ワード）と、それらの関連度、利用例を一気にブラウズできるサイトです。関連ワードは、「類語」「シソーラス」などと比べると、語同士のつながりが非常に緩い・弱いものが多いため、ブレインストーミング（一人ブレスト）、アイデア出し、企画会議などの、思考の飛躍を必要とする場面での発想支援に非常に有用です。

ICHIRO 2008/07/23

リンク

Wikipediaのキーワードリンクを使って関連語データを作ってみた

Wikipediaのキーワードリンクを使って関連語データを作ってみた 2007-06-09-3 [NLP][Programming][Algorithm] Wikipedia のキーワードリンクを使って関連語データ（関連キーワード集）を作ってみた。 Wikipedia のデータはダウンロードページからbz2形式のを取ってきた。日本のウィキペディアのXMLデータね。 (see Wikipedia:データベースダウンロード) で、Perlスクリプトで以下の関連語データ作成処理を行った。（スクリプトはこの記事の末尾に載せておく） (1) 各キーワードページに含まれているキーワード（リンク）を取り出す。例えばキーワードAのページにB,C,Dが含まれていたら、A => B,C,D というデータを蓄積。またキーワードAが他のキーワードのページ（例えばX）に含まれていたら、それも蓄積。その場合

ICHIRO 2008/06/24

自然言語処理

リンク

はてなブックマーク

タグ

関連タグで絞り込む (28)

NLPに関するICHIROのブックマーク (34)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス