English 概要 TxはコンパクトなTrieを構築するためのライブラリです.従来のTrieの実装(darts等)に比べ1/4〜1/10の作業領域量で辞書を保持することができ、数億〜十億キーワードなど大規模な辞書を扱うことが可能です.Trieは文字列からなるキー集合を処理するデータ構造で、キーが辞書に含まれているかのみではなく、キーのPrefixが含まれているかを高速に求めることができます.内部データ構造にはSuccinct Data StructureであるLevel-Order Unary Degree Sequence (LOUDS)を利用しています. ダウンロード Txはフリーソフトウェアです.BSD ライセンスに従って本ソフトウェアを使用,再配布することができます. tx-0.12.tar.gz: HTTP Archives tx-0.11.tar.gz: HTTP tx
という文に対して、私の、高い、ワインを、二宮さんに、飲まれた、という各文節間の係り受け関係「私の→ワインを」・「高い→ワインを」・「ワインを→飲まれた。」・「二宮さんに→飲まれた」を求めることです。 機械学習を用いた日本語係り受け解析は、ここ数年自然言語処理におけるホットトピックの一つとなっていて、我々のグループでも、最高精度の結果を出したことがあります(参考文献[1])。その当時より、研究室内で機械学習のためのライブラリが充実してきているので、演習の1ヶ月という短期間でも最新の研究に匹敵する結果(精度90%程度)を出すことができるかもしれません。 課題内容 本課題のメインテーマである機械学習とは、簡単に言えば、ある現象に関して既存のデータの振る舞いから未知のデータの振る舞いを推定する確率モデルを作るということです。この課題の文脈にこれを当てはめれば、日本語の係り受けという言語現象に関して
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く