[B! Programming][nlp][text] jjzakのブックマーク

jjzak id:jjzak

Programmingとnlpとtextに関するjjzakのブックマーク (3)

ノート/テキストマイニング/NLTK - 東邦大学理学部情報科学科　山内のサイト
サイトトップノートマイニング ├マイニング ├バスケット解析 ├バスケット解析をＲで ├図書貸出をＲで └ テキストマイニング ├テキストマイニングTM ├TMとシソーラス ├PubMedをTM ├TMとMeSH ├TMとNLTK ├テキストマイニングとtagger ├医薬品添付文書ＤＢ ├論文の処理1 └ 分子進化学 ├分子進化学 └ Pythonと論文アクセス ├Pythonを使ってみる ├PythonでPubMed ├Pythonで...続き └ CUDA ├GPU ├Programming Guide ├Selandメモ ├数値積分 └ ACS、PHPからLDAP ├ACS導入 ├新規ホスト移行 ├再度やり直し ├OpenLDAP導入 └ Linuxでビデオ ├Linuxでビデオデータを作る ├AVIフ
jjzak 2011/02/20
nlp

text

study

programming

nltk
リンク
[NLP][機械学習] 言語モデル覚え書き - tsubosakaの日記
この文章について最近言語モデル方面にも少し興味があるので自分の知識を整理する意味で書いてみた。NLPは専門ではないので、おかしなことを書いてある可能性がありますがその場合はご指摘ください。本文章ではn-gramモデル、単語の出現確率がn-1個前の単語のみに依存するモデルを考える。問題 who is * という文が与えられたときに*にくる文字の確率を求めることを考える。この場合だと*には例えばheが当てはまるかもしれないが, isが入ることはまずなさそうに思える。このことは文法的にも説明ができると思うが、文法のルールを作るのは大変だし、文法的に正しい単語の中でどれが出やすいかということはできない。一方で機械学習を使った言語モデルの文脈では文法的知識を余り持たず、与えられたコーパスから自動的に出やすい単語/表現を学習する方針をとる。最尤推定一番簡単なモデルとしては最尤推定を使うもの
jjzak 2010/08/24
algorithm

text

programming

nlp

ai
リンク
KyTea (京都テキスト解析ツールキット)
English 京都テキスト解析ツールキット(KyTea、「キューティー」)は、日本語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。特徴ダウンロード・インストールプログラム仕様解析：手法の詳細, 入出力の形式, API 学習：モデル学習, 入手可能なモデル KyTeaを使った分野適応開発情報特徴 KyTeaには以下の機能が揃っています：単語分割：分かち書きされていないテキストを適当な単語または形態素に分割する。読み推定・品詞推定：かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。分類器の学習にはLIBLINEARを使用してい
jjzak 2010/08/24
programming

software

text

language

japanese

nlp
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx