タグ

!tumblr-techとコーパスに関するtyruのブックマーク (3)

  • N-gram コーパス - 日本語ウェブコーパス 2010

    概要 ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです.各 N-gram コーパスには,頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています. N-gram コーパスの構築においては,Google N-gram コーパスと同様の前処理を施しています.句点・感嘆符・疑問符を文の区切りとして利用しているので,「モーニング娘。」や「Yahoo!」などの固有名詞については,不適切な文の区切りがおこなわれています.また,文の区切りは削除するようになっているため,コーパス中に句点・感嘆符・疑問符は出現しません. 形態素 N-gram コーパス,文字 N-gram コーパスともに,文境界マーク(<S>,</S>)は採用していますが,未知語トークン(<UNK>)は採用していません.また,文字 N-gram コーパ

  • 単語の尤度比データを公開しました - nokunoの日記

    不自然言語処理では単語の尤度比を使ってコーパスの性質を調べたわけですが、そのデータはGoogle N-gramに依存しているため公開は見送るつもりでした。ところで昨日、id:s-yata氏が作成中のウェブコーパスから集計したN-gramデータを公開されました。ウェブコーパスの一部から形態素 N-gram コーパスを作成しました - やた@はてな日記ということで、さっそく尤度比をとってみました。対象は以下の3つです。 yata氏のコーパス Wikipedia N-gram Baidu N-gram(合計とキャリア別)データはtar.bz2に固めてgithubにアップロードしました。http://github.com/downloads/nokuno/nokuno/rate.tar.bz2

  • Baidu Japan(バイドゥ株式会社)

    このページをブックマーク登録されていた方は、 お手数ですがブックマークの変更をお願いいたします。 なお、このページは5秒後に自動的にジャンプします。 自動的にジャンプしない場合は、下記のリンクをクリックして下さい。

  • 1