自然言語処理の研究で役立つツールを集めてみました。 音声認識CMU Sphinx: 広く利用されている音声認識プログラム。 Juicer: 重み付き有限状態トランスデューサを利用した音声認識デコーダ。 Julius: 音声認識システムの開発・研究のためのオープンソースの高性能な汎用大語彙連続音声認識エンジン。 言語モデルIRSTLM: 言語モデルの学習・格納ツール。 kenlm: メモリ効率とスピードを重視した言語モデル保持ツール。 Kylm: 重み付き有限状態トランスデューサーの出力や未知語の文字ベースモデル化などの機能が揃っている言語モデルツールキット。Javaで実装。 RandLM: 乱択データ構造であるBloom Filterを用いることで、膨大な言語モデルを少ないメモリで保持するツールキット。 SRILM: 効率的なn-gram言語モデルツールキット。様々な平滑化手法(Knese
English 京都テキスト解析ツールキット(KyTea、「キューティー」)は、日本語など、単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。 特徴 ダウンロード・インストール プログラム仕様 解析:手法の詳細, 入出力の形式, API 学習:モデル学習, 入手可能なモデル KyTeaを使った分野適応 開発情報 特徴 KyTeaには以下の機能が揃っています: 単語分割:分かち書きされていないテキストを適当な単語または形態素に分割する。 読み推定・品詞推定:かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。 線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。 分類器の学習にはLIBLINEARを使用してい
Classes Spring 2024: Advanced NLP (CS11-711 @ CMU) Fall 2022: Advanced NLP (CS11-711 @ CMU) Spring 2022: Multilingual NLP (CS11-737 @ CMU) Fall 2021: Advanced NLP (CS11-711 @ CMU) Spring 2021: Neural Networks for NLP (CS11-747 @ CMU) Fall 2020: Multilingual NLP (CS11-737 @ CMU) Spring 2020: Neural Networks for NLP (CS11-747 @ CMU) Fall 2019: Machine Translation and Sequence-to-sequence Models (CS1
I am an Associate Professor at the Carnegie Mellon University Language Technology Institute in the School of Computer Science, and work with a bunch of great students in my lab NeuLab. Prospective Students/Visitors: Please see the contact info page for more info. Research My research focuses on machine learning and natural language processing. In particular, I am interested in basic research and a
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く