[B! corpus] hrsttのブックマーク

hrstt id:hrstt

corpusに関するhrsttのブックマーク (3)

Wikipediaのデータからコーパス作成
SIMPLE 用の学習コーパスを作成する方法について書いています． SIMPLEとは，統計的仮名漢字変換の学習用に作成された，単語と読みの組を単位とする1-gramモデルベースの変換エンジンのことです．ここで書かれているコーパス作成方法はWikipediaのデータに限らない一般的なデータに対して適用可能です．流れ WikipediaのデータからWP2TXTを利用して日本語テキストを抽出 KyTeaによって抽出した日本語テキストを単語分割し，単語の読みを付与準備する物 Wikipedia:データベースダウンロードの jawiki-latest-pages-articles.xml.bz2 WP2TXT 0.1.0 WP2TXT: Wikipedia to Text Converter Wikipediaの圧縮データから日本語テキストを抽出するために使用しますここではコマンドラインで作
hrstt 2011/08/28
wikipedia

corpus
リンク
大規模コーパスを無料で手に入れることのできるサイトまとめ - nokunoの日記
大規模コーパスを無料で手に入れることのできるサイトについて、Quoraで質問したところ回答があったのでまとめてみました。質問してから気づいたのですが、QuoraにはText Corporaというカテゴリがあってその中に似た質問がいくつかあったので、合わせてまとめています。Text Corpora - Quora今回のエントリは主に英語のコーパスに関するものなので、日本語コーパスの情報については以下のエントリをご覧ください。NLP関係のリソースまとめ - nokunoの日記大規模データのエントリが伸びており、この問題に関心のある人の多さが伺えますね。NLP屋としてはやはり、大規模データの中でもテキストデータ（コーパス）に興味のあるところです。大規模データを無料で手に入れることのできるサイトまとめ - nokunoの日記タグ付きコーパス（ツリーバンク）Penn Tree bankWSJ C
hrstt 2011/06/22
corpus

NLP
リンク
NLP関係のリソースまとめ - nokunoの日記
先日オープンソースのtrieライブラリについてまとめましたが、それ以外にも家での開発に使えるリソースが増えてきました。コーパス WikipediaコーパスTwitterコーパスBaiduコーパスWebコーパスWikipedia対訳コーパスオープンソース対訳コーパスMS-IMEコーパス辞書 WikipediaタイトルはてなキーワードIPAdicUnidicalt-cannadicSKK評判辞書
hrstt 2011/06/22
NLP

corpus
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx