タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

algorithmとNLPとnlpに関するniamのブックマーク (11)

  • スパムコメント、スパムブログ対策を強化しました - はてなダイアリー日記

    日、はてなダイアリーのスパムコメント、およびスパムブログ対策を強化いたしました。詳細は以下の通りです。 ゲストコメント投稿時の確認画像を改善 コメント許可が「ゲスト」、かつ「スパムコメント・トラックバックを拒否する」設定を有効にしている場合に表示される確認画像(captcha)を改善いたしました。 この確認画像は自動投稿プログラムによるスパムコメントを防止する目的で表示しておりますが、この対策が突破されたためスパムコメントが増えている状況となっておりました。機械的に解読しにくく改善することで、これまでよりもスパムコメントが書き込まれにくくなるよう対策いたしました。 スパムコメントの自動判定機能 付けられたコメントを自動判定して、スパムと疑われるコメントを「承認待ち」状態として管理者のみが確認できる機能を追加いたしました。スパム判定されたコメントはすぐには読者の目につかず、管理画面の「コメ

    スパムコメント、スパムブログ対策を強化しました - はてなダイアリー日記
    niam
    niam 2009/08/29
    syou6162さんのパワー.インターンってすげぇ.こんなことできるのか.うぉぉぉぉ.
  • plda - Google Code

    Code Archive Skip to content Google About Google Privacy Terms

    niam
    niam 2009/05/26
    並列化ってどうやったんだろう?Naiveには出来ないはずだけど。
  • Tutorial Main Page - SSL Tutorial: ACL 2008

    General Information June 15th, 2008. The Hyatt-Regency. Columbus, OH. 9:00 AM — 12:30 PM John Blitzer and Jerry Zhu SSL for NLP tutorial description. ACL 2008 ACL Tutorials Page Semi-supervised learning for NLP is a very broad topic, and we realize that we cannot possibly hope to cover all of it in a single tutorial. Because of this, we have provided several supplemental resources pages, each of w

  • mots quotidiens.

    信学会のノンパラメトリックベイズ講座をようやく書き終えました。 具体的な学習例(上のイメージ)や細かい図を描く必要があり, 結局連休後半からずっと かかった気がします。 最後のページではInfinite HMM (NIPS 2001) [pdf] の紹介をしています。 ちょうど岡野原君がohmmをリリースした所で, やたらとタイミングがいいのですが..。 HMMはよく考えるとかなり凄いモデルですが, 上のohmmも含め, 普通のHMMは 隠れ状態の数は事前にセットしておく必要があります。 これに対し, IHMMは隠れ状態の総数すらも観測データを見るだけで決めてくれる という驚異的なモデルで, 僕はD3の時(2003年くらい)に知って, かなり感動しました。 ただ, IHMMは理論を理解するのもそうですが, 実装がかなりややこしいので *1 僕は実際に実装はしていなかったのですが, 最近素晴

  • 出現頻度と連接頻度に基づく専門用語抽出 - yasuhisa's blog

    この前の続き。先週の週末にやるつもりだったけど、暇がなかった。 MeCabで区切った単語を再びつなげる - yasuhisa's blog 前回の流れとしては 専門用語を一つの単語として取ってくるのは難しい MeCabを使うと細かくなりすぎる 専門用語には名詞のsequenceが多そう じゃあ、名詞つなげてみればいいんじゃね? ということで名詞を繋げてみるだけというところをやりました(それだけ。。。)。id:niamさんがコメントしてくださったように"出現頻度と連接頻度に基づく専門用語抽出",自然言語処理, 2003を使うと専門用語らしさ(?)のようなスコア付けができるようなので、それをやってみることにしました。とりあえずp6のLR(CN)のところまでを実装。あとはスコア付けの関数を2つくらい用意して、評価指標の関数を用意すれば、という感じです。 # -*- coding: utf-8 -

    出現頻度と連接頻度に基づく専門用語抽出 - yasuhisa's blog
    niam
    niam 2009/05/23
    おぉ。TermExtract(言選)を実装してくださった。コメントがコードになると嬉しいですww
  • ohmm(オンラインEMによるHMM学習)をリリースしました - DO++

    Ohmm-0.01をリリースしました [Ohmm 日語] [Ohmm English] これは、以前のブログで書いた、オンラインEM法をそのまま素直に隠れマルコフモデル(HMM)に対し適用したライブラリです。 使う場合は、単語(アクセス履歴とかなんでもよい)に分けられているテキストを入力として与えれば、HMMによる学習を行い、結果を出力します。他で利用できるように、パラメータを出力したり、単語のクラスタリング結果を出力します。 HMM自体は、言語情報やアクセス履歴、生物情報(DNA)といったシーケンス情報において、前後の情報を用いて各要素をクラスタリングしたい場合に用います。 ライブラリの特徴はオンラインEMの特徴通り、従来のEMよりも速く収束します。一応標準的な最適化手法(スケーリング、スパースな期待値情報の管理)もいれているので、そこそこ高速に動きます 速度的には100万語、隠れ状

    ohmm(オンラインEMによるHMM学習)をリリースしました - DO++
  • Kernel Averaged Perceptron の話 - mtbrの日記

    要約すると、 カーネルパーセプトロンを使うくらいならサポートベクターマシンを使ったほうがいい という話。 以下、パーセプトロンとかカーネルとか基的なところばかり書きます。 <パーセプトロン> 正負ラベルを予測する二値分類を行うパーセプトロンの場合、以下のアルゴリズムで訓練する。 ・以下を、重みが収束するまで繰り返す 1. サンプル(正解ラベル付き)をランダムにとってくる 2. 現在の重みとサンプルの内積をとって、その符号(つまり予測されたラベル)が正しければ 1. へ 3. 重み = 重み - あるべき符号 * サンプル 推論(符号が未知のサンプルに対するラベルの予測)のときも、2. と同様に重みとの内積の結果の符号をとって返す。 パーセプトロンはオンラインで使える。 つまり、サンプルが次々と追加される場合でも、順序がランダム(変な偏りがない)と仮定できるなら、上記のアルゴリズムをそのま

    Kernel Averaged Perceptron の話 - mtbrの日記
  • latent Dirichlet allocation - 機械学習の「朱鷺の杜Wiki」

    latent Dirichlet allocation (LDA)† probabilistic latent semantic analysis (pLSA) を改良した,文書集合の生成モデル.各文書は,\(k\)個の話題に応じて発生した語で構成されている. 以下の過程で,文書に含まれる\(N\)個の語を生成する. \(N\sim\mathrm{Poisson}(\xi)\) … Poisson分布で語数を生成 \(\theta\sim\mathrm{Dir}(\alpha)\) … Dirichlet分布で,\(k\)個の話題を生成するモデルのパラメータを生成. \(N\)個のそれぞれの語\(w_n\)について (a) \(z_n\sim\mathrm{Multinomial}(\theta)\) … 多項分布で話題を生成 (b) 語\(w_n\)を,話題\(z_n\)で条件付けした分

  • 自然言語処理における半教師あり学習のテキスト - 武蔵野日記

    最近移動続きであまり研究に時間は割けないのだが、は読めるということでを2冊、サーベイ的な記事を3(うち2はチュートリアルスライドつき)を紹介する。まず Semisupervised Learning for Computational Linguistics (Chapman & Hall/CRC Computer Science & Data Analysis) 作者: Steven Abney出版社/メーカー: Chapman and Hall/CRC発売日: 2007/09/17メディア: ハードカバーこの商品を含むブログ (4件) を見る を読む。このの著者の Steven Abney はブートストラッピングの理論的解析をした人で、 Steven Abney. Bootstrapping. 40th Annual Meeting of the Association fo

    自然言語処理における半教師あり学習のテキスト - 武蔵野日記
  • 最長共通部分列問題 (Longest Common Subsequence) - naoyaのはてなダイアリー

    部分列 (Subsequence) は系列のいくつかの要素を取り出してできた系列のことです。二つの系列の共通の部分列を共通部分列 (Common Subsecuence)と言います。共通部分列のうち、もっとも長いものを最長共通部分列 (Longest Common Subsequence, LCS) と言います。 X = <A, B, C, B, D, A, B> Y = <B, D, C, A, B, A> という二つの系列から得られる LCS は <B, C, B, A> で、その長さは 4 です。長さ 2 の<B, D> の長さ 3 の <A, B, A> なども共通部分列ですが、最長ではないのでこれらは LCS ではありません。また、LCS は最長であれば位置はどこでも良いので、この場合 <B, D, A, B> も LCS です。 LCS は動的計画法 (Dynamic Prog

    最長共通部分列問題 (Longest Common Subsequence) - naoyaのはてなダイアリー
  • 文字列探索スターターキット - シリコンの谷のゾンビ

    最近重点的に勉強しているので,これまで集めた教科書情報,資料等へのリンクをまとめてみる.紹介している教科書はほとんど読んでいないので妄言注意. この他にお薦め教科書,勉強法があればぜひ教えてください. 文字列探索は検索対象テキストの中から転置インデクスのような外部データ構造を利用せずに目的の文字列を探索する課題です.文字列探索,文字列照合,パターンマッチなどとも呼ばれています(一番オーソドックスな呼び方はなんでしょう?) 教科書 和書で文字列探索だけを取り扱っているを見かけたことがない.アルゴリズムの探索の章にKMP法,BM法が紹介されているだけのケースが多い.注意してみるとAC法を扱っているが意外と少ないことに気がつく... (文字列探索でよい和書の情報募集中) 追記 (2009-04-02) Thanks to cubicdaiyaさん! 情報検索アルゴリズムにKMP法, BM法

    文字列探索スターターキット - シリコンの谷のゾンビ
  • 1