サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
アメリカ大統領選
plata.ar.media.kyoto-u.ac.jp
レシピを対象とした研究・開発が近年さかんになってきています.そこでは,レシピの手順文書に対して形態素解析した結果を素材として用いることが多いですが,その準備には意外と手間がかかります.このような素材の準備は,研究・開発に依存することは少なく,共通化できる処理も多いと考えています.少しでも前準備の労力を減らし,本来の研究に打ち込める環境を提供するため,我々は本マニュアルを公開しました.これによって,レシピを対象とした研究・開発がますますさかんになっていくことを期待しています. 本マニュアルは,レシピの手順文書を入力として,単語分割結果や品詞判別結果,食材・道具などの判別結果,終止形復元結果を出力する方法を記したものです. 例えば,以下のような結果が得られます. 入力 糸蒟蒻を下茹でします。 形態素解析結果 糸/名詞/名詞-普通名詞-一般+/し 蒟蒻/名詞/名詞-普通名詞-一般+/こんにゃ
日本語 English(old version) EDA係り受け解析器 EDA(えだ)は単語係り受け解析器です。 日本語のように左から右に行く係り受けや、英語のように左や右に行く係り受けの両方を扱えます。 ちなみにEDAというのはEasily adaptable Dependency Analyzerの省略です。 ダウンロード・インストール モデルのページ テキスト解析 モデル学習 アノテーション ダウンロード・インストール ソースコードのダウンロード 最新版はこちらです。 過去のリリース: EDA 0.3.4, EDA 0.3.3, EDA 0.3.2, EDA 0.3.1, EDA 0.3.0, EDA 0.2.0, EDA 0.1.2, EDA 0.1.1, EDA 0.1.0 インストール ソースコードをダウンロードしてから、解凍してmakeを実行します。 tar xzvf eda
線形SVMのライブラリであるLIBLINEARを使って単語分割の分類問題を解く方法を説明します。機械学習についてや学習の方法などについては吉野さんの説明が詳しいのでそちらを見てください。ここでは吉野さんのページの内容を知っていることを前提として説明します。 吉野さんのページではRubyを使って素性のデータを作り、それを用意されている実行ファイルに渡して学習という方法をとっていましたが、ここではC/C++から直接LIBLINEARを扱う方法を説明します。 環境について 吉野さんの説明ではOSはWindows、文字コードはSJISでしたがここでは環境はLinux/EUCとします。 実際に実装してみる ここではまず吉野さんのページと同様に、前後一文字とその種類を素性として学習して単語の境界を判別します。 準備 LIBLINEARはlinear.hをインクルードすることで使えます。また、コーパス
このページでは、ウェブデータ、現代日本語書き言葉コーパスから作成した音声認識用と仮名漢字変換用のN-gramを配布しています。 コーパス N-gram 音声認識用N-gram 仮名漢字変換用N-gram ダウンロード コーパス ここでは、N-gramを作成するために利用したコーパスについて説明します。 ウェブコーパス: ウェブコーパスは京都大学 黒橋・河原研究室において、2010年12月~2011年3月にクロールし、文抽出したコーパスの一部です。N-gramの作成には、このうちの2万ページ、20万ページ、200万ページ、3000万ページを用いました。 現代日本語書き言葉コーパス: 現代日本語書き言葉コーパス(BCCWJ)は雑誌、新聞、白書、教科書、国会議事録、インターネット上の書き言葉などを対象としたコーパスです。 コーパスの統計情報 各コーパスに関する文数、単語数、文字数について次の
確率的言語モデルとその応用 森 信介 京都大学 学術情報メディアセンター 2011 年 6 月 16 日 吾輩は / わがはいは 猫である / ねこである Noisy Channel Input Output わがはいは ねこである 吾輩は 猫である 確率的言語モデル 日本語の文の出現確率 P(我輩は猫である) > P(我が背は猫である) 出現しやすい文に高い値を 他のモデルと連携するために確率にする 単語の出現確率の積 P(我輩は猫である) = P(我輩) ×P(は | 我輩) ×P(猫 | 我輩 は ) ×P(である | 我輩 は 猫) 確率を単語分割済みコーパスから推定 f(我輩 は 猫 である) P(である | 我輩 は 猫) = f(我輩 は 猫) 生成的な確率モデルによるアプローチ 雑音のある通信路モデル (Noisy Channel Model) ise
KyTeaを用いた音声対話用言語モデル作成 作成手順の概要 発音を推定する KyTea モデルを作成する 対話書き起こしと適応分野テキストを上記 KyTea で処理 適応分野特有のクラスをクラス記号に置き換える クラス内の単語の生成確率の決定 言語モデルの作成 1. 発音を推定する KyTea モデルを作成する (KyTea Ver.0.13) KyTeaにデフォルトで付属しているモデルは発音ではなく読み(正確にはキーボード入力可能な仮名の列)を推定するためのモデルなので、 発音を推定するためのモデルを別途作成する必要がある % train-kytea -full CSJ+BCCWJ.wordpron -dict UNI.wordpron -model CSJ+BCCWJ+UNI.bin KyTea用モデルファイル(単語分割+発音推定) CSJ+BCCWJ+UNI.bin % trai
目指せ5[bit/文字] (言語モデルをつくろう) 2007/06/07 内容 概論 文字0-gramモデル |X| = 6878 (BT incl.) H = -log2 1/|X| = log2 6878 = 12.75[bit/文字] 文字1-gramモデル 課題 文字1-gramモデルによるカバー率とエントロピーの計算 回答例 カバー率 = 477/491 = 0.971487 Σ -logP(x) = 3538.643736 文字数 = 491 (BT incl.) H = 7.207[bit/文字] 参考文献 An Estimate of an Upper Bound for the Entropy of English Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, Jennifer C. L
仮名漢字変換 統計的なモデル(クラス2-gramモデル)を用いる方法を1998年に世界で初めて(!?)提案しました。 当時は、開発者が一生懸命手で書いた規則を用いる方法が主流でした。 確率的手法は理論的なので、保守が容易であったり発展性が格段に高いのが利点です。 実際、分野適応が容易であったり、単語の自動獲得などに発展させることができます。 モデルやコードを簡素化した統計的仮名漢字変換が、以下の SIMPLE リンクからダウンロードで きます。 詳細の解説はいずれ書きますが、とりあえずよい解説に譲ります。 リンク SIMPLE (Statistical Input Method for Personal Learning and Education; 仮) or KyKC (休憩しぃ)? simple.tar ダウンロード (とりあえず再配布不可です) 統計的仮名漢字変換の学習用 単語と読
このページを最初にブックマークしてみませんか?
『http://plata.ar.media.kyoto-u.ac.jp/』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く