[B! nlp] [4ページ] makimotoのブックマーク

TechCrunch Japanese アーカイブ » グーグル研究部門トップNorvigが自然言語検索をクサす

makimoto 2007/12/19

google
nlp

リンク

Bootstrapping

my biased thoughts on the fields of natural language processing (NLP), computational linguistics (CL) and related topics (machine learning, math, funding, etc.) There are many bootstrapping algorithms, but they all have (roughly) the same general form. Suppose we want to solve a binary classification probl em. We do the following: Build (by hand) a classifier that predicts positive with high precis

makimoto 2007/12/12

リンク

【インタビュー】Webはもっと人間に近くなる - 自然言語検索ベンチャーのQ-goの挑戦 (1) 検索エンジンはもっとヒトにやさしくあるべき | ネット | マイコミジャーナル

現在のインターネット検索は、キーワードをベースとしている。だが、長い検索結果リストにうんざりしたり、リストの中から探している情報を得られなかった経験も多いだろう。自然言語とセマンティックを用いた検索技術を開発するベンチャー企業Q-go(オランダ)は、Webが人間のようになる時代が来ると信じている。同社のCEO、Marcel Smit氏に話を聞いた。 Q-go CEOのMarcel Smit氏 --Q-goについて教えてください。創業は1999年です。検索エンジン開発を目的として設立しましたが、2000年に方針を転換しました。大企業サイトで情報を探しにくいという問題があることに気がつき、この分野にとりくむべく戦略を変えました。そして、このころに獲得した新しい資金を利用して、さまざまな国のコンピュータ言語学者と協業し、言語学的なアルゴリズムをソフトウェアプラットフォームに組み込みました。た

makimoto 2007/12/10

リンク

Semi-Supervised Learning Survey

Xiaojin Zhu Computer Sciences TR 1530 University of Wisconsin Madison [ Download the latest survey (July 19, 2008) ] Archives: [ July 19, 2008] [ June 24, 2007] [ December 9, 2006] This is an online publication. It surveys the field of semi-supervised learning, a branch under machine learning and more generally artificial intelligence. It originates as a chapter from the author's Ph.D. thesis. The

makimoto 2007/12/06

リンク

夢十夜Remix

夏目漱石『夢十夜』を形態素解析とマルコフ連鎖で再構成するスクリプトです。リロードするたび文章は変わります。第534夜こんな夢を見た。ある七星の話をしていた。足には大きな藁沓を穿いて、黒い頭巾を被って、勝手口から出て行った。その時は母も笑った。それから庭へ下りて、真珠貝で穴を掘った。真珠貝は大きな滑かな縁の鋭どい貝であった。床屋の敷居を跨いだら、白い着物を着ている。商売をするなら水菓子屋に限ると云って無はちっとも現前しない。なるほど八寸角の石が腰ほどの高さに立って見廻すと、四角な部屋である。窓が二方に開いて、掌を大将の方へ向いて青い茎が伸びて来た。リロード

makimoto 2007/12/05

nlp

リンク

DO++ : マルコフ情報源上で次の文字を予測する

文字列（単語列）を解析する際、i番目の文字はその直前(N-1)文字のみ依存するというマルコフ情報源を仮定することはいろいろな場面で現れます。例えば音声認識とか機械翻訳では、次の単語を直前(N-1)単語を使って予測するというN-gramモデルが古くから今でも使われてますし、データ圧縮でもこれと全く同じように履歴を使って次の文字を予測し、その予測確率を用いて符号化するPPMモデルがあります。ここで問題になるのは、何文字前まで見れば次の文字を予測できるかということが一般のデータだと分からないということです。例えば4文字前まで見た場合より5文字前まで見たほうが次の文字が確実に予想できそうですが、4文字前までは過去のデータで何回もでているのに5文字になると途端に出現回数が少なくなってサンプル数が少なくなってしまい予測精度が低下してしまう問題があります。そのため大抵は1,2,3..,N文字前の文

makimoto 2007/11/22

nlp

リンク

rubyneko - Rubyで簡単に形態素解析結果を使う

「KOIL FACTORY PRO」で新たな視点でつくる「衣食住遊」の体験型フェス「ほにゃらら+らDAY」が10月29日と30日に開催

makimoto 2007/11/18

リンク

辻井研演習3

辻井研究室情報科学演習3 2008年度東京大学理学部情報科学科 4年生前期の情報科学演習3の辻井研究室の演習内容の紹介ページです。目次はじめに課題一覧はじめに辻井研究室では、自然言語処理（あるいは計算言語学）に関する研究を行なっています。我々の最終的な目的は、以下の2つがあると考えています。人間がふだん使っていることば（自然言語）という現象の性質や構造さらには人間の知能・知識の構造を、情報科学の観点から把握、記述すること。自然言語が扱える「賢い」アプリケーション、例えば、機械翻訳や、対話システム、あるいは文章からの情報検索／抽出、などを可能にするプログラムの開発・基礎技術を構築すること。前者は、計算機を利用して、自然言語の「文法」や「意味」をモデル化しようというものです。自然言語を扱うアプリケーションを実現するためには、「文法的に正しい」「意味の通った」文を生成した

makimoto 2007/11/17

nlp

リンク

Speech and Language Processing (2nd Ed.): Updates

Chapter 1: Introduction This chapter is largely the same with updated history and pointers to newer applications. (top) Chapter 2: Regular Expressions and Automata This chapter is largely the same with some bug fixes. (top) Chapter 3: Words and Transducers This new version of the chapter still focuses on morphology and FSTs, but is expanded in various ways. There are more details about the formal

makimoto 2007/11/15

nlp

リンク

Sign in - Google Accounts

Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode

makimoto 2007/11/14

nlp
mysql

リンク

Tx: Succinct Trie Data Structure

English 概要 TxはコンパクトなTrieを構築するためのライブラリです．従来のTrieの実装（darts等）に比べ1/4〜1/10の作業領域量で辞書を保持することができ、数億〜十億キーワードなど大規模な辞書を扱うことが可能です．Trieは文字列からなるキー集合を処理するデータ構造で、キーが辞書に含まれているかのみではなく、キーのPrefixが含まれているかを高速に求めることができます．内部データ構造にはSuccinct Data StructureであるLevel-Order Unary Degree Sequence (LOUDS)を利用しています．ダウンロード Txはフリーソフトウェアです．BSD ライセンスに従って本ソフトウェアを使用,再配布することができます. tx-0.12.tar.gz: HTTP Archives tx-0.11.tar.gz: HTTP tx

makimoto 2007/11/12

リンク

SlothLib Wiki

2016-06-05 Task1/52 2016-04-24 Task1/51 Task1/49 2012-11-12 RecentDeleted Task1/50 2010-11-30 ダウンロード 2010-03-08 Alpha Release Ruby/SlothLib for Ruby 2009-09-16 Task1/20 2008-07-17 Java/ダウンロード 2008-04-24 Task1/48 2008-04-22 ユーザーズマニュアル/Web/ウェブ検索 Java/Visual Editorを持ちいたアプリケーションの作成 Java/Visual Editorを用いたアプリケーションの作成 Java/SlothLib for Java Java/Eclipseプロジェクトの準備 Java/前準備 2008-04-21 Java/WindowsでのEclipseの

makimoto 2007/11/10

nlp
library

リンク

情報爆発プロジェクト検索エンジン基盤 TSUBAKI

TSUBAKI利用時の良かった点、問題点などご意見を頂けると幸いです。ご意見は tsubaki あっと nlp.kuee.kyoto-u.ac.jp までお願い致します。

makimoto 2007/11/08

リンク

NLP Newsletter (Vol.14, No.3)

makimoto 2007/11/07

NLP2008は3月17日~21日に東大駒場キャンパスにて

nlp

リンク

Google Japan Blog: 大規模日本語 n-gram データの公開

突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか？実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」と「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

makimoto 2007/11/02

nlp
corpus

リンク

GSK2007-C Web日本語Nグラム第1版

Nグラムは一般に公開されている日本語のWebページでGoogleがクロールしたものから抽出されている。ただし、閲覧に特別な認証が必要なページや、metaタグにnoarchive,noindex 等が指定されているページは対象に入っていない。抽出対象となった文数は約200億文で、出現頻度20回以上の１〜７グラムを収録している。データの詳細については付属のREADMEも参照のこと。

makimoto 2007/11/01

google
nlp

リンク

Searn: Search-based Structured Prediction

Searn (searn.hal3.name) is a generic algorithm for solving structured prediction probl ems. This page contains papers, software and notes about using Searn for solving a variety of probl ems. Feel free to contact with questions or comments. I'm releasing a very simply and stripped down implementation of Searn (limited to sequence labeling with Hamming loss) that should answer some questions people h

makimoto 2007/10/31

リンク

Bep: 大規模コレクション向けの連想配列

English 概要 Bepは大規模なコレクションからなる連想配列を扱うためのライブラリです．連想配列は文字列からなるキーを利用して任意のオブジェクトを登録・参照できるデータ構造です．C++ではSTL map, hash_mapなどが知られていますが，数千万から数億個のコレクションを処理する場合，使用メモリ量が非常に大きくなってしまう問題点がありました．Bepは内部に最小完全ハッシュ関数を利用し，従来の実装に比べ少ない作業領域量でコレクションを保持します．キー自体を除けば，1keyあたりの作業領域量は約3bitです（全体では，(keyを全てつなげた長さ) + (3/8*key種類数)バイト必要です）ダウンロード Bepはフリーソフトウェアです．BSD ライセンスに従って本ソフトウェアを使用,再配布することができます. bep-0.01.tar.gz: HTTP 更新情報 2007-

makimoto 2007/10/28

リンク

HugeDomains.com

Captcha security check fieldmining.com is for sale Please prove you're not a robot View Price Processing

makimoto 2007/10/26

nlp
tool

リンク

きまぐれ日記: 情報抽出アルゴリズムEspresso の謎、私の勘違いでした。

昨日のエントリーは私の完全な勘違いでした。大学数学やりなおします。orz 行列表現にはまちがいはないのですが、あの形はマルコフ連鎖そのものなので、 x_instance = A * x_instance の解は、x_instance = A^{n} * x_instance0 なので、x_instance0 の初期値に依存します。A^{n} が収束し B になるとすれば、x_instance = B * x_instance0 となります。 A^{n} が収束することが条件ですが、相互情報量の最大値で正規化されているので、たぶん収束するでしょう。しかし、Espresso のおもしろいところは, B が求まってしまえば、どんな初期値でもただ1回の行列のかけ算で最終的な答えがでてしまうところです。 B は、全パターンと全インスタンスの類似度から生成される行列で、信頼度とは無関係です。相互

makimoto 2007/10/16

nlp

リンク

はてなブックマーク

タグ

関連タグで絞り込む (36)

nlpに関するmakimotoのブックマーク (155)

お知らせ

今週のはてなブックマーク数ランキング（2025年4月第3週）

今週のはてなブックマーク数ランキング（2025年4月第2週）

今週のはてなブックマーク数ランキング（2025年4月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス