タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

corpusとwikipediaに関するhrsttのブックマーク (1)

  • Wikipediaのデータからコーパス作成

    SIMPLE 用の学習コーパスを作成する方法について書いています. SIMPLEとは,統計的仮名漢字変換の学習用に作成された,単語と読みの組を単位とする1-gramモデルベースの変換エンジンのことです.ここで書かれているコーパス作成方法はWikipediaのデータに限らない一般的なデータに対して適用可能です. 流れ WikipediaのデータからWP2TXTを利用して日語テキストを抽出 KyTeaによって抽出した日語テキストを単語分割し,単語の読みを付与 準備する物 Wikipedia:データベースダウンロード の jawiki-latest-pages-articles.xml.bz2 WP2TXT 0.1.0 WP2TXT: Wikipedia to Text Converter Wikipediaの圧縮データから日語テキストを抽出するために使用します ここではコマンドラインで作

  • 1