[B! nlp] Ctransのブックマーク

クラスタリングツール bayon がとてつもなく素晴らしいです！

クラスタリングツール bayon がとてつもなく素晴らしいです！ 2009-06-10-5 [Algorithm][Software] mixi の fujisawa さんによる、C++ で書かれたクラスタリングツール bayon がシンプルイナフで猛烈に素晴らしくてクールです。 - 軽量データクラスタリングツールbayon (mixi Engineers' Blog) http://alpha.mixi.co.jp/blog/?p=1049 - チュートリアル（Tutorial_ja - bayon） http://code.google.com/p/bayon/wiki/Tutorial_ja 詳細は上記URLを見てもらうとして、たまたま手元に250万件のデータ（ラベル＋特徴語リスト）があったのでさっそく試してみました。ドキュメント数250万件。各ドキュメントの特徴を現すキーの平

Ctrans 2009/06/11

nlp

リンク

はてなブックマークFirefox拡張, JavaScript で IS 法による Suffix Array 構築 - naoyaのはてなダイアリー

昨日、はてなブックマークFirefox拡張をリリースしました。おかげさまでベータ版からダウンロード数は累積で1万ダウンロードを突破し、アクティブユーザー数も伸びています。はてなブックマークFirefox拡張で新しいインターネットを体験しよう http://b.hatena.ne.jp/guide/firefox_addon 開発者の id:secondlife が g:subtech:id:secondlife:20090415:1239804170 で技術的な側面からのちょっとした TIPS なども紹介していますので、興味のある方はご一読ください。検索では思いのほか SQLite の like 検索が高速なのに驚いた。はてブ検索では、検索ワードから URL, Title, コメントにマッチしたものを表示していて、それ専用の search_data だかかんらかの検索用カラムがある。

Ctrans 2009/04/17

nlp

リンク

ベイズを学びたい人におすすめのサイト - download_takeshi’s diary

ベイジアンフィルタとかベイズ理論とかを勉強するにあたって、最初はなんだかよくわからないと思うので、そんな人にお勧めのサイトを書き残しておきます。 @IT スパム対策の基本技術解説（前編）綱引きに蛇口当てゲーム？！楽しく学ぶベイズフィルターの仕組み http://www.atmarkit.co.jp/fsecurity/special/107bayes/bayes01.html いくつかの絵でわかりやすく解説してあります。自分がしるかぎり、最もわかりやすく親切に解説してる記事です。数学とかさっぱりわからない人はまずここから読み始めるといいでしょう。茨城大学情報工学科の教授のページから http://jubilo.cis.ibaraki.ac.jp/~isemba/KAKURITU/221.pdf PDFですが、これもわかりやすくまとまってます。初心者でも理解しやすいし例題がいくつかあ

Ctrans 2009/04/09

nlp

リンク

Aho Corasick 法 - naoyaのはてなダイアリー

適当な単語群を含む辞書があったとします。「京都の高倉二条に美味しいつけ麺のお店がある」*1という文章が入力として与えられたとき、この文章中に含まれる辞書中のキーワードを抽出したい、ということがあります。例えば辞書に「京都」「高倉二条」「つけ麺」「店」という単語が含まれていた場合には、これらの単語(と出現位置)が入力に対しての出力になります。この類の処理は、任意の開始位置から部分一致する辞書中のキーワードをすべて取り出す処理、ということで「共通接頭辞検索 (Common Prefix Search)」などと呼ばれるそうです。形態素解析、Wikipedia やはてなキーワードのキーワードリンク処理などが代表的な応用例です。 Aho Corasick 法任意のテキストから辞書に含まれるキーワードをすべて抽出するという処理の実現方法は色々とあります。Aho Corasick 法はその方法のひと

Ctrans 2009/04/06

nlp

リンク

ノンパラベイズを勉強してみる (6) まとめ - nokunoの日記

長々と書いてきたベイズ関連のエントリについてまとめました。ノンパラベイズを勉強してみる (5) ベイズ階層言語モデルによる教師なし形態素解析 - nokunoの日記個人的には「言語モデルの性能最大化で、教師なし単語分割ができる」という基本の部分が目からうろこでした。ノンパラベイズを勉強してみる (4) 階層Pitman-Yor過程 - nokunoの日記Pitman-Yor過程はディリクレ過程の拡張で、観測回数を実際より低く見積もるディスカウント項が追加されているのが特徴です。ノンパラベイズを勉強してみる (3) 階層ディリクレ過程 - nokunoの日記階層ディリクレ過程はその名の通りディリクレ過程に階層構造を持ち込んだもので、これを使うとN-gramモデルのスムージングを理論的に導出することができるというものです。ノンパラベイズを勉強してみる (2) ディリクレ過程 - nokunoの

Ctrans 2009/04/06

nlp

リンク

http://kantan.nexp.jp/pat_pdf/T/2008/05/2008504605.pdf

Ctrans 2009/03/31

nlp

リンク

ベイズ階層言語モデルによる教師なし形態素解析

Ctrans 2009/03/30

nlp

リンク

大規模データを基にした自然言語処理 - DO++

人工知能基本問題研究会 (SIG-FPAI)でタイトルの題目で一時間ほど話してきました。発表資料 [pptx] [pdf] 話した内容は - 自然言語処理における特徴ベクトルの作り方と、性質 - オンライン学習, Perceptron, Passive Agressive (PA), Confidence Weighted Learning (CW) 確率的勾配降下法 (SGD) - L1正則化, FOLOS - 索引を用いた効率化, 全ての部分文字列を利用した文書分類で、スライドで70枚ぐらい。今までの発表とかぶっていないのはPA CW SGD FOLOSあたりでしょうかオンライン学習、L1正則化の話がメインになっていて、その両方の最終形の確率的勾配降下法 + FOLOSの組み合わせは任意の損失関数に対してL1/L2正則化をかけながらオンライン学習をとても簡単にできるという一昔前

Ctrans 2009/03/14

nlp

リンク

そろそろChaIMEについて一言いっておくか - 射撃しつつ前転改

2月は割とガンガンと開発をしてきたのだが、3月に入ってさすがにエネルギーが切れてきたので、一旦、気分転換にエントリに書いてみることにする。 ChaIMEというのは主に研究目的のかな漢字変換エンジンである。奈良先の小町さん(id:mamoruk)がメインで開発していて、自分もここしばらくはアクティブに開発している。こちらでデモを試すことができる。ChaIMEの特徴はひたすらに統計情報で変換をするところなのだが、今回はそういった話ではなく、もうちょっと一般的なかな漢字変換についての話をダラダラと書いてみようと思う。デモを見て分かる通り、今までのChaIMEはステートレスで、ひらがな列を入力に対してそれっぽい変換候補を複数出力してさぁ選べ、という形だった。文節境界を変更したり、文節毎に候補を出すことはできない。これは単に実装コストの問題で、研究用途で実験をする際には文節境界を変更してどうたらこ

Ctrans 2009/03/02

nlp

リンク

大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記

id:naoya さんのLatent Semantic Indexing の記事に触発されて、ここ1週間ほどちょくちょく見ている行列の近似計算手法について書いてみる。ここでやりたいのは単語-文書行列(どの単語がどの文書に出てきたかの共起行列)や購入者-アイテム行列(どの人がどの本を買ったかとか、推薦エンジンで使う行列)、ページ-リンク行列(どのページからどのページにリンクが出ているか、もしくはリンクをもらっているか。PageRank などページのランキングの計算に使う)、といったような行列を計算するとき、大規模行列だと計算量・記憶スペースともに膨大なので、事前にある程度計算しておけるのであれば、できるだけ小さくしておきたい(そして可能ならば精度も上げたい)、という手法である。行列の圧縮には元の行列を A (m行n列)とすると A = USV^T というように3つに分解することが多いが、も

Ctrans 2009/02/15

nlp

リンク

グーグル、オープンソースのスペルチェッカー「Hunspell」を自社の技術で強化

Googleの翻訳技術は、まったく別個のプロジェクトである同社のブラウザ「Google Chrome」や、さらにはオープンソースのスペルチェックパッケージ「Hunspell」を利用したその他のソフトウェアにまで、恩恵をもたらし始めた。 Chromeは、「WebKit」のスペルチェック機能とHunspellにある正しくつづられた単語の多言語ライブラリを組み合わせて、27言語のスペルチェックを提供している。しかしHunspellでは、広く使われている単語の多くが未収録のため、Googleは同社の翻訳技術を利用してそのギャップを埋め合わせた。 GoogleのプログラマーBrett Wilson氏とSiddhartha Chattopadhyay氏が米国時間2月11日付のブログ投稿で説明しているので、それを引用しよう。 Hunspellの辞書管理者はすばらしい仕事をやり遂げ、誰もが利用できる高品質

Ctrans 2009/02/13

great
nlp

リンク

はてなブックマーク

タグ

関連タグで絞り込む (1)

nlpに関するCtransのブックマーク (11)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス