タグ

2010年9月2日のブックマーク (9件)

  • untitled

    辻井研演習3 単語クラスタリングの諸考察 岡野原 大輔 04/05/24 1 背景 集合中の要素を、それらの間で定義される類似度や全体の整合性を基準にして似ている要素同士で分類する クラスタリング技術は多くの分野において、有効であることが示されてきた。自然言語処理分野においても、 単語を分類したり、文書を分類するなど、多くのケースで使用されている。 単語を Class に分類することの利点は、N-gram などの学習において、推定すべきパラメーター数に対し、 得られる情報が少ない場合に起こる Sparseness の問題が、Class N-gram を用いた補間 [2] によって解決さ れ、より頑健なモデルとなり、言語モデルの精度が向上することが挙げられる。他の利点として、文書クラス タリングにおいて、文書中の単語の出現状況を各文書の feature として用いて分類する場合、単語数

  • 言語知能研究グループ|NTTコミュニケーション科学基礎研究所|NTT R&D Website

    研究紹介 機械翻訳 自然言語の解析 離散構造アルゴリズム メンバー 井上 武(NTT未来ねっと研究所兼務) 大中 亮磨 岡 佑依 田中 貴秋 帖佐 克己 伝住 周平 永田 昌明 中村 健吾 西野 正彬 平尾 努 安田 宜仁 (グループリーダ) リソース JParaCrawl Webをもとに構築された1000万文を超える大規模日英対訳コーパスです。 単語親密度データベース 日語16.6万語に「語のなじみ深さ」を表わす数値(親密度)を付与したデータベースです。 日語 語彙大系 日語30万語を3000種類の意味属性で分類・収録したシソーラスや文型を含む大規模日語辞書です。 日英機械翻訳機能試験文 (3,700文) 機械翻訳システム評価用に使用している文例集です(池原悟、現鳥取大学教授作成)。 3,718の日英対訳文が収録されています。 試験文については、 文献(池原:1994a)を御覧下

    言語知能研究グループ|NTTコミュニケーション科学基礎研究所|NTT R&D Website
    gologo13
    gologo13 2010/09/02
  • latent Dirichlet allocation - 機械学習の「朱鷺の杜Wiki」

    latent Dirichlet allocation (LDA)† probabilistic latent semantic analysis (pLSA) を改良した,文書集合の生成モデル.各文書は,\(k\)個の話題に応じて発生した語で構成されている. 以下の過程で,文書に含まれる\(N\)個の語を生成する. \(N\sim\mathrm{Poisson}(\xi)\) … Poisson分布で語数を生成 \(\theta\sim\mathrm{Dir}(\alpha)\) … Dirichlet分布で,\(k\)個の話題を生成するモデルのパラメータを生成. \(N\)個のそれぞれの語\(w_n\)について (a) \(z_n\sim\mathrm{Multinomial}(\theta)\) … 多項分布で話題を生成 (b) 語\(w_n\)を,話題\(z_n\)で条件付けした分

    gologo13
    gologo13 2010/09/02
    LDAの論文いんよう数やばい。。。
  • Zinnia: 機械学習ベースのポータブルな手書き文字認識エンジン

    Zinnia: 機械学習ベースのポータブルなオンライン手書き文字認識エンジン [日語][英語] Zinniaは機械学習アルゴリズム SVM を用いたポータブルで汎用的な オンライン手書き文字認識エンジンです。Zinniaは組み込みの容易さと汎用性を高めるために、 文字のレンダリング機能は持っていません。Zinniaは文字のストローク情報を座標の連続として受け取り、 確からしい順にスコア付きでN文字の認識結果を返すだけに機能を限定しています。 また、認識エンジンは完全に機械学習ベースであるために、文字のみならずユーザの任意のマウス・ペンストロークに対して任意の文字列をマッピングするような認識エンジンを小コスト作成することができます。 主な特徴 機械学習アルゴリズムSVMによる高い認識精度 ポータブルでコンパクトな設計 -- POSIX/Windows (C++ STLのみに依存) リエント

    gologo13
    gologo13 2010/09/02
  • Zinniaの多クラス分類法 - 射撃しつつ前転 改

    ZinniaというSVMベースの新しい手書き文字認識エンジンがリリースされたので、早速ソースコードを少し読んでみた。 文字認識というのは、機械学習では多クラス分類という問題に分類される。しかもクラス数が認識したい文字数(数千文字程度だろう)分だけ存在するという、なかなか計算量的に厳しい問題である。二値分類器を使って多値分類器を構成する方法にはone vs rest, one vs one, その他にもいろいろあるらしいが、その中のどれを使っているのかというところに興味があった。Webによると、50〜100文字/秒の認識速度と書いてあったので、コードを読む前の予測としては、one vs oneかなーと思っていた。(速度的にはone vs oneの方がone vs restより速い。) しかし、そんな予想を裏切り、recognizer.cppの148行めあたりからには以下のようなコードが書いて

    Zinniaの多クラス分類法 - 射撃しつつ前転 改
    gologo13
    gologo13 2010/09/02
    たくらす分類の実装例の1つ
  • はてなで使えるUser Script大全 第3版 - あまたの何かしら。

    あれから2年もたって、何かしら図書館も2009年3月以降更新していない現況。 その上はてなはアップデートされているし、サービスが終了したのもあるし、スクリプトも増えてるしで、久々に更新するかな?!と思い立った、というわけです。 何かしら図書館で更新する予定です。 紹介する前に... 知ってました? 実ははてなは公式でスクリプトの掲載をしていたって。 ユーザースクリプトを投稿する お約束がありますけど、こっちに送ってくれたらはてなーとしてはいいのかなっ、と思います。 はじめに 「どのブラウザ向けに作られたのか」を目安にGreasemonkeyとUserJSでまとめていますが、面倒くさかったのでGreasemonkeyだけしか確認していません。 Opera/Safari/Google Chromeでの確認はしていません。 Greasemonkey以外の案内*1は、第2版をそのまま継承しています

    はてなで使えるUser Script大全 第3版 - あまたの何かしら。
    gologo13
    gologo13 2010/09/02
    user script
  • GmailのUIにタブっぽいナビゲーションを表示できるユーザースタイル「Gmail top tabs」 | Mozilla Re-Mix

    FirefoxやThunderbirdはWEBユーザーの必須アイテム。 初心者からヘビーユーザーまで使える!便利でクールなFirefox拡張機能(アドオン)の使い方やカスタマイズ、Mozilla関連情報をどうぞ。 Adobe 「Flash Player」を緊急アップデート。 by hoge (07/16) Adobe 「Flash Player」を緊急アップデート。 by H.I. (07/16) ウェブページから余計なコンテンツを排除して読みやすく表示できるFirefoxアドオン「Tranquility Reader」 by しんちゃん (07/11) YouTubeのHTML5動画に表示される広告をブロックしてくれるFirefoxアドオン「YouTube Advertisement Blocker」 by はち (06/17) ウェブページ上の不要なリンクを非表示にできるFirefox

  • Firefoxでページ内画像を一気にぶっこ抜けると聞いたので、リンク先の画像も取得できるようにしてみた: point of view point

    Firefoxでページ内画像を一気にぶっこ抜けると聞いたので、リンク先の画像も取得できるようにしてみた (追記) ここで書かれている画像抽出サービスは終了しました。Chromeの拡張とかでもっと手軽なものが出ているので。以下、記録として残します。 (追記終わり) 「あるページを見ていて、ここにある画像全部欲しい!ってときがありますよね。専用のダウンローダーもありますが、そういうときはFirefoxを使うと便利ですよ。」という話が、「Firefoxでページ内の画像を一気にぶっこ抜く方法」にあったので、その先を考える。 「表示されている画像はサムネイルでリンク先が元ファイルになっている場合用にリンク先の画像を一気にぶっこ抜く方法が知りたいです。」というはてブのコメントへの回答みたいな感じで。「ページ内の画像を抜き出すとかなんとか」の続きです。 ここで紹介する方法はFirefoxだけでできるとい

    gologo13
    gologo13 2010/09/02
    これ,masterbloodferの一般形?!
  • 腐女子のためのpixiv入門 - Tips - AZ store