[B! 日本語][コーパス] norry_gogoのブックマーク

norry_gogo id:norry_gogo

日本語とコーパスに関するnorry_gogoのブックマーク (1)

日本語ウェブコーパス 2010
概要本コーパスの HTML アーカイブは，ipadic-2.7.0 の見出し語をシードとして，かつての Yahoo! Web API による検索結果に含まれるウェブページを収集したものです．テキストの抽出においては，文字コードを UTF-8 に統一した後，いくつかの記号をデリミタとして文への分割をおこない，さらに文を構成する文字の種類や数によるフィルタリングを施しています．N-gram コーパスについては，テキストアーカイブに出現する頻度 10 以上の N-gram を収録しています．本コーパスの英語名称は Nihongo Web Corpusn 2010 (NWC 2010) です．謝辞本コーパスの作成においては，様々なウェブサービス，ツール，コーパスを利用させていただきました．開発者・研究者の皆様に感謝いたします．コーパスの作成・保存・配布には Amazon Web Serv
norry_gogo 2011/01/30
日本語

形態素解析

コーパス
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx