タグ

nlpに関するmakimotoのブックマーク (155)

  • Bootstrapping

    my biased thoughts on the fields of natural language processing (NLP), computational linguistics (CL) and related topics (machine learning, math, funding, etc.) There are many bootstrapping algorithms, but they all have (roughly) the same general form. Suppose we want to solve a binary classification problem. We do the following: Build (by hand) a classifier that predicts positive with high precis

  • 【インタビュー】Webはもっと人間に近くなる - 自然言語検索ベンチャーのQ-goの挑戦 (1) 検索エンジンはもっとヒトにやさしくあるべき | ネット | マイコミジャーナル

    現在のインターネット検索は、キーワードをベースとしている。だが、長い検索結果リストにうんざりしたり、リストの中から探している情報を得られなかった経験も多いだろう。自然言語とセマンティックを用いた検索技術を開発するベンチャー企業Q-go(オランダ)は、Webが人間のようになる時代が来ると信じている。同社のCEO、Marcel Smit氏に話を聞いた。 Q-go CEOのMarcel Smit氏 --Q-goについて教えてください。 創業は1999年です。検索エンジン開発を目的として設立しましたが、2000年に方針を転換しました。大企業サイトで情報を探しにくいという問題があることに気がつき、この分野にとりくむべく戦略を変えました。そして、このころに獲得した新しい資金を利用して、さまざまな国のコンピュータ言語学者と協業し、言語学的なアルゴリズムをソフトウェアプラットフォームに組み込みました。 た

  • Semi-Supervised Learning Survey

    Xiaojin Zhu Computer Sciences TR 1530 University of Wisconsin Madison [ Download the latest survey (July 19, 2008) ] Archives: [ July 19, 2008] [ June 24, 2007] [ December 9, 2006] This is an online publication. It surveys the field of semi-supervised learning, a branch under machine learning and more generally artificial intelligence. It originates as a chapter from the author's Ph.D. thesis. The

  • 夢十夜Remix

    夏目漱石『夢十夜』を形態素解析とマルコフ連鎖で再構成するスクリプトです。リロードするたび文章は変わります。 第534夜 こんな夢を見た。 ある七星の話をしていた。足には大きな藁沓を穿いて、黒い頭巾を被って、勝手口から出て行った。その時は母も笑った。 それから庭へ下りて、真珠貝で穴を掘った。真珠貝は大きな滑かな縁の鋭どい貝であった。 床屋の敷居を跨いだら、白い着物を着ている。商売をするなら水菓子屋に限ると云って無はちっとも現前しない。 なるほど八寸角の石が腰ほどの高さに立って見廻すと、四角な部屋である。窓が二方に開いて、掌を大将の方へ向いて青い茎が伸びて来た。 リロード

    makimoto
    makimoto 2007/12/05
  • DO++ : マルコフ情報源上で次の文字を予測する

    文字列(単語列)を解析する際、i番目の文字はその直前(N-1)文字のみ依存するというマルコフ情報源を仮定することはいろいろな場面で現れます。 例えば音声認識とか機械翻訳では、次の単語を直前(N-1)単語を使って予測するというN-gramモデルが古くから今でも使われてますし、データ圧縮でもこれと全く同じように履歴を使って次の文字を予測し、その予測確率を用いて符号化するPPMモデルがあります。 ここで問題になるのは、何文字前まで見れば次の文字を予測できるかということが一般のデータだと分からないということです。例えば4文字前まで見た場合より5文字前まで見たほうが次の文字が確実に予想できそうですが、4文字前までは過去のデータで何回もでているのに5文字になると途端に出現回数が少なくなってサンプル数が少なくなってしまい予測精度が低下してしまう問題があります。 そのため大抵は1,2,3..,N文字前の文

    DO++ : マルコフ情報源上で次の文字を予測する
    makimoto
    makimoto 2007/11/22
  • rubyneko - Rubyで簡単に形態素解析結果を使う

    「KOIL FACTORY PRO」で新たな視点でつくる「衣住遊」の体験型フェス「ほにゃらら+らDAY」が10月29日と30日に開催

    rubyneko - Rubyで簡単に形態素解析結果を使う
  • 辻井研演習3

    辻井研究室 情報科学演習3 2008年度 東京大学理学部情報科学科 4年生前期の情報科学演習3の 辻井研究室 の演習内容の紹介ページです。 目次 はじめに 課題一覧 はじめに 辻井研究室では、自然言語処理(あるいは計算言語学)に関する研究を行なっています。我々の最終的な目的は、以下の2つがあると考えています。 人間がふだん使っていることば(自然言語)という現象の性質や構造さらには人間の知能・知識の構造を、情報科学の観点から把握、記述すること。 自然言語が扱える「賢い」アプリケーション、例えば、機械翻訳や、対話システム、あるいは文章からの情報検索/抽出、などを可能にするプログラムの開発・基礎技術を構築すること。 前者は、計算機を利用して、自然言語の「文法」や「意味」をモデル化しようというものです。自然言語を扱うアプリケーションを実現するためには、「文法的に正しい」「意味の通った」文を生成した

    makimoto
    makimoto 2007/11/17
  • Speech and Language Processing (2nd Ed.): Updates

    Chapter 1: Introduction This chapter is largely the same with updated history and pointers to newer applications. (top) Chapter 2: Regular Expressions and Automata This chapter is largely the same with some bug fixes. (top) Chapter 3: Words and Transducers This new version of the chapter still focuses on morphology and FSTs, but is expanded in various ways. There are more details about the formal

    makimoto
    makimoto 2007/11/15
  • Google Sites: Sign-in

    Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode

  • Tx: Succinct Trie Data Structure

    English 概要 TxはコンパクトなTrieを構築するためのライブラリです.従来のTrieの実装(darts等)に比べ1/4〜1/10の作業領域量で辞書を保持することができ、数億〜十億キーワードなど大規模な辞書を扱うことが可能です.Trieは文字列からなるキー集合を処理するデータ構造で、キーが辞書に含まれているかのみではなく、キーのPrefixが含まれているかを高速に求めることができます.内部データ構造にはSuccinct Data StructureであるLevel-Order Unary Degree Sequence (LOUDS)を利用しています. ダウンロード Txはフリーソフトウェアです.BSD ライセンスに従ってソフトウェアを使用,再配布することができます. tx-0.12.tar.gz: HTTP Archives tx-0.11.tar.gz: HTTP tx

  • SlothLib Wiki

    2016-06-05 Task1/52 2016-04-24 Task1/51 Task1/49 2012-11-12 RecentDeleted Task1/50 2010-11-30 ダウンロード 2010-03-08 Alpha Release Ruby/SlothLib for Ruby 2009-09-16 Task1/20 2008-07-17 Java/ダウンロード 2008-04-24 Task1/48 2008-04-22 ユーザーズマニュアル/Web/ウェブ検索 Java/Visual Editorを持ちいたアプリケーションの作成 Java/Visual Editorを用いたアプリケーションの作成 Java/SlothLib for Java Java/Eclipseプロジェクトの準備 Java/前準備 2008-04-21 Java/WindowsでのEclipseの

  • 情報爆発プロジェクト 検索エンジン基盤 TSUBAKI

    TSUBAKI利用時の良かった点、問題点などご意見を頂けると幸いです。 ご意見は tsubaki あっと nlp.kuee.kyoto-u.ac.jp までお願い致します。

  • NLP Newsletter (Vol.14, No.3)

    makimoto
    makimoto 2007/11/07
    NLP2008は3月17日~21日に東大駒場キャンパスにて
  • Google Japan Blog: 大規模日本語 n-gram データの公開

    突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

    Google Japan Blog: 大規模日本語 n-gram データの公開
  • GSK2007-C Web日本語Nグラム第1版

    Nグラムは一般に公開されている日語のWebページでGoogleがクロールしたものから抽出されている。ただし、閲覧に特別な認証が必要なページや、metaタグにnoarchive,noindex 等が指定されているページは対象に入っていない。抽出対象となった文数は約200億文で、出現頻度20回以上の1〜7グラムを収録している。 データの詳細については付属のREADMEも参照のこと。

  • Searn: Search-based Structured Prediction

    Searn (searn.hal3.name) is a generic algorithm for solving structured prediction problems. This page contains papers, software and notes about using Searn for solving a variety of problems. Feel free to contact with questions or comments. I'm releasing a very simply and stripped down implementation of Searn (limited to sequence labeling with Hamming loss) that should answer some questions people h

  • Bep: 大規模コレクション向けの連想配列

    English 概要 Bepは大規模なコレクションからなる連想配列を扱うためのライブラリです.連想配列は文字列からなるキーを利用して任意のオブジェクトを登録・参照できるデータ構造です.C++ではSTL map, hash_mapなどが知られていますが,数千万から数億個のコレクションを処理する場合,使用メモリ量が非常に大きくなってしまう問題点がありました.Bepは内部に最小完全ハッシュ関数を利用し,従来の実装に比べ少ない作業領域量でコレクションを保持します.キー自体を除けば,1keyあたりの作業領域量は約3bitです(全体では,(keyを全てつなげた長さ) + (3/8*key種類数)バイト必要です) ダウンロード Bepはフリーソフトウェアです.BSD ライセンスに従ってソフトウェアを使用,再配布することができます. bep-0.01.tar.gz: HTTP 更新情報 2007-

  • HugeDomains.com

    Captcha security check fieldmining.com is for sale Please prove you're not a robot View Price Processing

    HugeDomains.com
  • きまぐれ日記: 情報抽出アルゴリズムEspresso の謎、私の勘違いでした。

    昨日のエントリーは私の完全な勘違いでした。大学数学やりなおします。orz 行列表現にはまちがいはないのですが、あの形はマルコフ連鎖そのものなので、 x_instance = A * x_instance の解は、x_instance = A^{n} * x_instance0 なので、x_instance0 の初期値 に依存します。A^{n} が収束し B になるとすれば、x_instance = B * x_instance0 となります。 A^{n} が収束することが条件ですが、相互情報量の最大値で正規化されているので、たぶん収束するでしょう。 しかし、Espresso のおもしろいところは, B が求まってしまえば、どんな初期値でもただ1回の行列のかけ算で 最終的な答えがでてしまうところです。 B は、全パターンと全インスタンスの類似度から生成される行列で、信頼度とは無関係です。相互

    makimoto
    makimoto 2007/10/16
  • きまぐれ日記: 情報抽出アルゴリズム Espresso 最終章

    Espresso を飲みながらさらに Espresso を考えていました。 r_instance = A^n * r_instance_0 となるのは間違いないと思います。A は P * P^{T}、さらに P = 1/|I||P| * pmi(i, p)/ maxpmi です。 A は、インスタンスどうしの類似度を表現した正方対称行列です。A_{i,j} はインスタンス i, j の類似度です。 類似度は、パターン個数次元からなるベクトルの内積で、各次元は pmi となります。 この形だと、r_instanc は r_instance_0 できまるので、初期値に依存してるように思えますが、A^n がいったい どういう意味を持つのかずっと考えていました。 A_{i,j} が 0, 1 の場合、A は無向グラフの接続行列となります。i,j がつながっている場合は A_{i,j} = 1となり

    makimoto
    makimoto 2007/10/15