タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

corpusに関するhrsttのブックマーク (3)

  • Wikipediaのデータからコーパス作成

    SIMPLE 用の学習コーパスを作成する方法について書いています. SIMPLEとは,統計的仮名漢字変換の学習用に作成された,単語と読みの組を単位とする1-gramモデルベースの変換エンジンのことです.ここで書かれているコーパス作成方法はWikipediaのデータに限らない一般的なデータに対して適用可能です. 流れ WikipediaのデータからWP2TXTを利用して日語テキストを抽出 KyTeaによって抽出した日語テキストを単語分割し,単語の読みを付与 準備する物 Wikipedia:データベースダウンロード の jawiki-latest-pages-articles.xml.bz2 WP2TXT 0.1.0 WP2TXT: Wikipedia to Text Converter Wikipediaの圧縮データから日語テキストを抽出するために使用します ここではコマンドラインで作

  • 大規模コーパスを無料で手に入れることのできるサイトまとめ - nokunoの日記

    大規模コーパスを無料で手に入れることのできるサイトについて、Quoraで質問したところ回答があったのでまとめてみました。質問してから気づいたのですが、QuoraにはText Corporaというカテゴリがあってその中に似た質問がいくつかあったので、合わせてまとめています。Text Corpora - Quora今回のエントリは主に英語のコーパスに関するものなので、日語コーパスの情報については以下のエントリをご覧ください。NLP関係のリソースまとめ - nokunoの日記大規模データのエントリが伸びており、この問題に関心のある人の多さが伺えますね。NLP屋としてはやはり、大規模データの中でもテキストデータ(コーパス)に興味のあるところです。 大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記 タグ付きコーパス(ツリーバンク)Penn Tree bankWSJ C

  • NLP関係のリソースまとめ - nokunoの日記

    先日オープンソースのtrieライブラリについてまとめましたが、それ以外にも家での開発に使えるリソースが増えてきました。 コーパス WikipediaコーパスTwitterコーパスBaiduコーパスWebコーパスWikipedia対訳コーパスオープンソース対訳コーパスMS-IMEコーパス 辞書 WikipediaタイトルはてなキーワードIPAdicUnidicalt-cannadicSKK評判辞書

  • 1