[B! nlp] [2ページ] nobu666のブックマーク

nobu666 id:nobu666

nlpに関するnobu666のブックマーク (24)

Aho Corasick 法 - naoyaのはてなダイアリー
適当な単語群を含む辞書があったとします。「京都の高倉二条に美味しいつけ麺のお店がある」*1という文章が入力として与えられたとき、この文章中に含まれる辞書中のキーワードを抽出したい、ということがあります。例えば辞書に「京都」「高倉二条」「つけ麺」「店」という単語が含まれていた場合には、これらの単語(と出現位置)が入力に対しての出力になります。この類の処理は、任意の開始位置から部分一致する辞書中のキーワードをすべて取り出す処理、ということで「共通接頭辞検索 (Common Prefix Search)」などと呼ばれるそうです。形態素解析、Wikipedia やはてなキーワードのキーワードリンク処理などが代表的な応用例です。 Aho Corasick 法任意のテキストから辞書に含まれるキーワードをすべて抽出するという処理の実現方法は色々とあります。Aho Corasick 法はその方法のひと
nobu666 2009/04/07
text

search

nlp

algorithm
リンク
大規模データを基にした自然言語処理 - DO++
人工知能基本問題研究会 (SIG-FPAI)でタイトルの題目で一時間ほど話してきました。発表資料 [pptx] [pdf] 話した内容は - 自然言語処理における特徴ベクトルの作り方と、性質 - オンライン学習, Perceptron, Passive Agressive (PA), Confidence Weighted Learning (CW) 確率的勾配降下法 (SGD) - L1正則化, FOLOS - 索引を用いた効率化, 全ての部分文字列を利用した文書分類で、スライドで70枚ぐらい。今までの発表とかぶっていないのはPA CW SGD FOLOSあたりでしょうかオンライン学習、L1正則化の話がメインになっていて、その両方の最終形の確率的勾配降下法 + FOLOSの組み合わせは任意の損失関数に対してL1/L2正則化をかけながらオンライン学習をとても簡単にできるという一昔前
nobu666 2009/03/16
japanese

presentation

nlp
リンク
ChaIME
ブラウザから使える IME としては AjaxIME が有名ですが、AjaxIME よりは仮名漢字変換モデルをがんばっているので、多少精度がよいようです。 ATOK 2007 はたまたま失敗する事例ばかり集めているので悪く見えますが、普段はもっとよいですね。言語モデルを Web コーパスから作り、仮名漢字変換モデルを新聞記事から作っているので、上記4つの硬い文は ChaIME でも正しく変換できることは予測可能ですが、下記4つは難しいです。このような文体で書かれたコーパス(ブログデータ?)から仮名漢字変換モデルを学習するとうまく行くかもしれません。統計的仮名漢字変換統計的仮名漢字変換についてページを分けました。既知の問題点(優先度順) unigram によるバックオフ(辞書引き回数が減る) 仮名漢字モデルの Google 日本語 N グラムからの推定現在2GBの辞書サイズ
nobu666 2008/03/14
ime

nlp
リンク
TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア
TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!の形態素解析のようにサーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。デモ日本語の文章を入力し、解析ボタンをクリックしてください。ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従って本ソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src
nobu666 2008/02/08
japanese

javascript

nlp

形態素解析
リンク
前のページ 1 2

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx