
my biased thoughts on the fields of natural language processing (NLP), computational linguistics (CL) and related topics (machine learning, math, funding, etc.) There are many bootstrapping algorithms, but they all have (roughly) the same general form. Suppose we want to solve a binary classification problem. We do the following: Build (by hand) a classifier that predicts positive with high precis
現在のインターネット検索は、キーワードをベースとしている。だが、長い検索結果リストにうんざりしたり、リストの中から探している情報を得られなかった経験も多いだろう。自然言語とセマンティックを用いた検索技術を開発するベンチャー企業Q-go(オランダ)は、Webが人間のようになる時代が来ると信じている。同社のCEO、Marcel Smit氏に話を聞いた。 Q-go CEOのMarcel Smit氏 --Q-goについて教えてください。 創業は1999年です。検索エンジン開発を目的として設立しましたが、2000年に方針を転換しました。大企業サイトで情報を探しにくいという問題があることに気がつき、この分野にとりくむべく戦略を変えました。そして、このころに獲得した新しい資金を利用して、さまざまな国のコンピュータ言語学者と協業し、言語学的なアルゴリズムをソフトウェアプラットフォームに組み込みました。 た
Xiaojin Zhu Computer Sciences TR 1530 University of Wisconsin Madison [ Download the latest survey (July 19, 2008) ] Archives: [ July 19, 2008] [ June 24, 2007] [ December 9, 2006] This is an online publication. It surveys the field of semi-supervised learning, a branch under machine learning and more generally artificial intelligence. It originates as a chapter from the author's Ph.D. thesis. The
夏目漱石『夢十夜』を形態素解析とマルコフ連鎖で再構成するスクリプトです。リロードするたび文章は変わります。 第534夜 こんな夢を見た。 ある七星の話をしていた。足には大きな藁沓を穿いて、黒い頭巾を被って、勝手口から出て行った。その時は母も笑った。 それから庭へ下りて、真珠貝で穴を掘った。真珠貝は大きな滑かな縁の鋭どい貝であった。 床屋の敷居を跨いだら、白い着物を着ている。商売をするなら水菓子屋に限ると云って無はちっとも現前しない。 なるほど八寸角の石が腰ほどの高さに立って見廻すと、四角な部屋である。窓が二方に開いて、掌を大将の方へ向いて青い茎が伸びて来た。 リロード
文字列(単語列)を解析する際、i番目の文字はその直前(N-1)文字のみ依存するというマルコフ情報源を仮定することはいろいろな場面で現れます。 例えば音声認識とか機械翻訳では、次の単語を直前(N-1)単語を使って予測するというN-gramモデルが古くから今でも使われてますし、データ圧縮でもこれと全く同じように履歴を使って次の文字を予測し、その予測確率を用いて符号化するPPMモデルがあります。 ここで問題になるのは、何文字前まで見れば次の文字を予測できるかということが一般のデータだと分からないということです。例えば4文字前まで見た場合より5文字前まで見たほうが次の文字が確実に予想できそうですが、4文字前までは過去のデータで何回もでているのに5文字になると途端に出現回数が少なくなってサンプル数が少なくなってしまい予測精度が低下してしまう問題があります。 そのため大抵は1,2,3..,N文字前の文
「KOIL FACTORY PRO」で新たな視点でつくる「衣食住遊」の体験型フェス「ほにゃらら+らDAY」が10月29日と30日に開催
辻井研究室 情報科学演習3 2008年度 東京大学理学部情報科学科 4年生前期の情報科学演習3の 辻井研究室 の演習内容の紹介ページです。 目次 はじめに 課題一覧 はじめに 辻井研究室では、自然言語処理(あるいは計算言語学)に関する研究を行なっています。我々の最終的な目的は、以下の2つがあると考えています。 人間がふだん使っていることば(自然言語)という現象の性質や構造さらには人間の知能・知識の構造を、情報科学の観点から把握、記述すること。 自然言語が扱える「賢い」アプリケーション、例えば、機械翻訳や、対話システム、あるいは文章からの情報検索/抽出、などを可能にするプログラムの開発・基礎技術を構築すること。 前者は、計算機を利用して、自然言語の「文法」や「意味」をモデル化しようというものです。自然言語を扱うアプリケーションを実現するためには、「文法的に正しい」「意味の通った」文を生成した
Chapter 1: Introduction This chapter is largely the same with updated history and pointers to newer applications. (top) Chapter 2: Regular Expressions and Automata This chapter is largely the same with some bug fixes. (top) Chapter 3: Words and Transducers This new version of the chapter still focuses on morphology and FSTs, but is expanded in various ways. There are more details about the formal
Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode
English 概要 TxはコンパクトなTrieを構築するためのライブラリです.従来のTrieの実装(darts等)に比べ1/4〜1/10の作業領域量で辞書を保持することができ、数億〜十億キーワードなど大規模な辞書を扱うことが可能です.Trieは文字列からなるキー集合を処理するデータ構造で、キーが辞書に含まれているかのみではなく、キーのPrefixが含まれているかを高速に求めることができます.内部データ構造にはSuccinct Data StructureであるLevel-Order Unary Degree Sequence (LOUDS)を利用しています. ダウンロード Txはフリーソフトウェアです.BSD ライセンスに従って本ソフトウェアを使用,再配布することができます. tx-0.12.tar.gz: HTTP Archives tx-0.11.tar.gz: HTTP tx
2016-06-05 Task1/52 2016-04-24 Task1/51 Task1/49 2012-11-12 RecentDeleted Task1/50 2010-11-30 ダウンロード 2010-03-08 Alpha Release Ruby/SlothLib for Ruby 2009-09-16 Task1/20 2008-07-17 Java/ダウンロード 2008-04-24 Task1/48 2008-04-22 ユーザーズマニュアル/Web/ウェブ検索 Java/Visual Editorを持ちいたアプリケーションの作成 Java/Visual Editorを用いたアプリケーションの作成 Java/SlothLib for Java Java/Eclipseプロジェクトの準備 Java/前準備 2008-04-21 Java/WindowsでのEclipseの
TSUBAKI利用時の良かった点、問題点などご意見を頂けると幸いです。 ご意見は tsubaki あっと nlp.kuee.kyoto-u.ac.jp までお願い致します。
突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル
Searn (searn.hal3.name) is a generic algorithm for solving structured prediction problems. This page contains papers, software and notes about using Searn for solving a variety of problems. Feel free to contact with questions or comments. I'm releasing a very simply and stripped down implementation of Searn (limited to sequence labeling with Hamming loss) that should answer some questions people h
English 概要 Bepは大規模なコレクションからなる連想配列を扱うためのライブラリです.連想配列は文字列からなるキーを利用して任意のオブジェクトを登録・参照できるデータ構造です.C++ではSTL map, hash_mapなどが知られていますが,数千万から数億個のコレクションを処理する場合,使用メモリ量が非常に大きくなってしまう問題点がありました.Bepは内部に最小完全ハッシュ関数を利用し,従来の実装に比べ少ない作業領域量でコレクションを保持します.キー自体を除けば,1keyあたりの作業領域量は約3bitです(全体では,(keyを全てつなげた長さ) + (3/8*key種類数)バイト必要です) ダウンロード Bepはフリーソフトウェアです.BSD ライセンスに従って本ソフトウェアを使用,再配布することができます. bep-0.01.tar.gz: HTTP 更新情報 2007-
Captcha security check fieldmining.com is for sale Please prove you're not a robot View Price Processing
昨日のエントリーは私の完全な勘違いでした。大学数学やりなおします。orz 行列表現にはまちがいはないのですが、あの形はマルコフ連鎖そのものなので、 x_instance = A * x_instance の解は、x_instance = A^{n} * x_instance0 なので、x_instance0 の初期値 に依存します。A^{n} が収束し B になるとすれば、x_instance = B * x_instance0 となります。 A^{n} が収束することが条件ですが、相互情報量の最大値で正規化されているので、たぶん収束するでしょう。 しかし、Espresso のおもしろいところは, B が求まってしまえば、どんな初期値でもただ1回の行列のかけ算で 最終的な答えがでてしまうところです。 B は、全パターンと全インスタンスの類似度から生成される行列で、信頼度とは無関係です。相互
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く