タグ

algorithmとnlpに関するttakezawaのブックマーク (16)

  • Mallet: MAchine Learning for LanguagE Toolkit

    View the Project on GitHub mimno/Mallet Download ZIP File Download TAR Ball View On GitHub Mallet: MAchine Learning for LanguagE Toolkit MALLET is a Java-based package for statistical natural language processing, document classification, clustering, topic modeling, information extraction, and other machine learning applications to text. MALLET includes sophisticated tools for document classificati

  • 動的計画法は再帰で表せ

    動的計画法の説明は常に再帰関数で書き表すことにしています.いやゆるメモ化再帰です.参照透過な関数は,同じ引数に対して同じ値を返すので,保存しておけばいいという感覚です.計算量の見積もりも簡単で,引数の異なり数に関数中のループの上限をかければおしまいです.特に再帰で書くことに慣れていれば自明に書けますし,テーブルを使ったDPと違って,ループの順番を意識する必要がありません.このテクニックは学部時代に@ohkuraに教えてもらいました.関数型言語に触れた今でこそ当たり前に見えますが,当時は目から鱗だったのを覚えています. メモ化再帰と不動点に関する@kinabaさんの日記や,プログラミングコンテスト的には@chokudaiさんの記事が参考になります. 今更ですが,ちょっと例で説明します.フィボナッチ数を計算する関数fib(x)は再帰式で,fib(x) = fib(x - 1) + fib(x

  • SimString - A fast and simple algorithm for approximate string matching/retrieval

    A fast and simple algorithm for approximate string matching/retrieval SimString is a simple library for fast approximate string retrieval. Approximate string retrieval finds strings in a database whose similarity with a query string is no smaller than a threshold. Finding not only identical but similar strings, approximate string retrieval has various applications including spelling correction, fl

  • Incorporating Prior Knowledge into NLP with Markov Logic

    CREATED BY Jožef Stefan Institute Centre for Knowledge Transfer and Information Technologies

    Incorporating Prior Knowledge into NLP with Markov Logic
  • PRoxy Diary(2006-09-16) - Bayesian Sets

    _ [コンピュータ] Bayesian Sets何はともあれ一番目立つところにリンクをば。 ここのところちょっと時間が取れたので、以前から気になっていたBayesian Setsを実装してみました。Bayesian Setsは、ある単語を入力すると、それと関係が深い単語を推測して返してくれるというものです。Google Setsというサービスを聞いたことがある方もおられるかもしれませんが、やりたいことはあれと同じです。理論的な話に興味がある場合はここを参照するか、元論文に当たってください。 論文で「高速」と紹介されているだけあって、Wikipediaから17万文書を使って学習させたにも関わらず結構な速度で動いてくれています。辞書に登録されている単語数も44万と豊富。これだけのものを現実的な時間で捌いているというだけでも、かなり驚きです。無理やりアドホックに処理を端折って計算量を減らしている

  • 最大エントロピー原理 - Wikipedia

    最大エントロピー原理(さいだいエントロピーげんり、英: principle of maximum entropy)は、認識確率分布を一意に定めるために利用可能な情報を分析する手法である。この原理を最初に提唱したのは Edwin Thompson Jaynes である。彼は1957年に統計力学のギブズ分布を持ち込んだ熱力学(最大エントロピー熱力学(英語版))を提唱した際に、この原理も提唱したものである。彼は、熱力学やエントロピーは、情報理論や推定の汎用ツールの応用例と見るべきだと示唆した。他のベイズ的手法と同様、最大エントロピー原理でも事前確率を明示的に利用する。これは古典的統計学における推定手法の代替である。 今確率変数 X について、X が条件 I を満たす事だけが分かっており、それ以外に X に関して何1つ知らなかったとする。このとき、X が従う分布はどのようなものであると仮定するのが

    ttakezawa
    ttakezawa 2009/05/18
    最大エントロピーモデル ME
  • ライブドアブログ|無料で豊富な機能が充実

    絵日記 グルメ ライフスタイル・暮らし ペット 旅行海外 日記 ニュース スポーツ ビジネス・経済 趣味・創作 音楽 書籍・雑誌 漫画・アニメ ゲーム 受験・学校 ヘルス・ビューティ IT・家電 学問・科学 まとめ

    ライブドアブログ|無料で豊富な機能が充実
  • 連載:検索エンジンを作る|gihyo.jp … 技術評論社

    運営元のロゴ Copyright © 2007-2025 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。

    連載:検索エンジンを作る|gihyo.jp … 技術評論社
  • 統計的機械学習(Hiroshi Nakagawa)

    統計的機械学習 (under construction) 導入ppt pdf 情報の変換過程のモデル化 ベイズ統計の意義 識別モデルと生成モデル 次元の呪い 損失関数, bias, variance, noise 数学のおさらいppt pdf 線形代数学で役立つ公式 情報理論の諸概念 (KL-divergenceなど) 指数型分布族、自然共役 正規分布(条件付き、および事前分布) 評価方法ppt pdf 順位なし結果の評価(再現率、精度、適合率、F値) 順位付き結果の評価 線形回帰と識別ppt pdf 線形回帰 正規方程式 正規化項の導入 線形識別 カーネル法ppt pdf 線形識別の一般化 カーネルの構築法 最大マージン分類器 ソフトマージンの分類器 SVMによる回帰モデル SVM実装上の工夫 モデル推定ppt pdf 潜在変数のあるモデル EMアルゴリズム 変分ベイズ法 Expecta

  • TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア

    TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日語分かち書きソフトウェアです。 わずか25kバイトのソースコードで、日語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!形態素解析のように サーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの 観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。 デモ 日語の文章を入力し、解析ボタンをクリックしてください。 ダウンロード TinySegmenterはフリーソフトウェアです. 修正BSDライセンスに従ってソフトウェアを使用,再配布することができます. Download TinySegmenter version 0.2 使い方 <script type="text/javascript" src

    ttakezawa
    ttakezawa 2008/02/11
    TinySegmenter | は | Javascript | だけ | で | 書か | れ | た | 極め | て | コンパクト | な | 日本 | 語分 | かち | 書き | ソフトウェア | です | 。
  • 1000user以上のページをいち早く登録しているブックマーカー トップ20 - ブログ執筆中

    以前、「多くの人がブックマークしているページを、いち早く登録しているブックマーカーはよいブックマーカーで、よいブックマーカーがいち早く登録している新規ページは良いページが多い」という仮定の下、良いページ予測サービスを運用してたんですが、あまりに人が来なくてやめてしまいました(苦笑。ただ、このいち早く登録しているブックマーカーを算出するアイディアは面白いと思ったので、ここで結果を紹介します。 ただ注意してもらいたいのは、1000user以上のブックマークのみを見て算出した結果なので、高い順位のユーザーであっても、userが少ないページを大量にブックマーカーもいると思われます。なんでもかんでもブックマークしたから、このランキングに載っている可能性もあります。この結果をどれだけ信じるかは皆さんにお任せします。ただ、僕の考えではデータ量が圧倒的に足りないと思っています。 順位 user score

    1000user以上のページをいち早く登録しているブックマーカー トップ20 - ブログ執筆中
  • たつをの ChangeLog

    主にコンピュータ技術者向けの話題(プログラミング技術、ソフト紹介、サイト紹介、書籍紹介)を提供し続ける情報サイトです。が、最近は子育てや生活全般の情報も多くなり、「何でも情報サイト」になっています。ウェブ日記「 たつをの日記 」として1995年にスタート。場所や名前を変えながら現在に至ります。

  • MySQLでTF-IDFの計算、あと2つのベクトルの内積の計算 (2006-12-19)

    文を形態素分解し、必要な品詞をtfテーブルとdfテーブルに入れる。分析対象となる文書群すべてについてこの処理を行い、各形態素のTF-IDF値を求めて文書をベクトル化する。他の文書ベクトルと内積を比較し、小さい順に「似ている記事」を求めたい (クラスタリングとかは別途)。 HarmanによるTF値の正規化とSparok JonesによるDF値の正規化をする場合のTF-IDF値の計算式は以下のようになる (参考文献): tfidf(i,j) = log2(freq(i,j) + 1) / log2(NoT) * (log2(N / Dfreq(i)) + 1)

  • Text Classification with CEEK.JP NEWS - Ceekz Logs (Move to y.ceek.jp)

    総合演習(情報特別演習)では、自然言語処理を勉強しています。自然言語処理に興味はあったけど、何から手をつけてよいかわからなかったので、今年は、イロハを知ることを目的に勉強中。 とりあえずの成果として Text Classification with CEEK.JP NEWS を作ったので公開します。成果というよりは、途中経過ですな。 CEEK.JP NEWS の 2005年8月 の記事データを基に、テキストの分類を行います。対応しているカテゴリーは、社会、政治、国際、経済、電脳、スポーツ、エンターテイメントの7つです。 ニュース記事を基にしているので、ニュースの方が分類が上手くいくと思います。また、特定の新聞社に絞らずに、ニュース検索 CEEK.JP NEWS のカテゴリーデータで学習しているので、少々精度が悪いような気もしますが。 分類が困難なニュース記事を分類するために開発しています。

  • Text Classification with CEEK.JP NEWS

    CEEK.JP NEWS の2009年1月から2011年12月の記事データを基に、テキストの分類を行います。対応しているカテゴリーは「社会」「政治」「国際」「経済」「電脳」「スポーツ」「エンターテイメント」「サイエンス」の8つです。 ナイーブベイズ(Naive Bayes)分類法を用いており、概ね80%の精度で分類できます。 コンフュージョン・マトリックス(学習:2005年7月 / 判定:2005年8月) http://labs.ceek.jp/classify/cm.pdf 表の縦(グラフ)は、推定分野。表の横は、正解分野。 参考資料: 情報意味論(第8回) ベイズ学習 (櫻井研究室 情報意味論の講義資料) Tackling the Poor Assumptions of Naive Bayes Text Classifiers

  • [を] 形態素解析と検索APIとTF-IDFでキーワード抽出

    形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基中の基ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード

  • 1