[B! コーパス][あとで] rti7743のブックマーク

rti7743 id:rti7743

コーパスとあとでに関するrti7743のブックマーク (1)

日本語ウェブコーパス 2010
概要本コーパスの HTML アーカイブは，ipadic-2.7.0 の見出し語をシードとして，かつての Yahoo! Web API による検索結果に含まれるウェブページを収集したものです．テキストの抽出においては，文字コードを UTF-8 に統一した後，いくつかの記号をデリミタとして文への分割をおこない，さらに文を構成する文字の種類や数によるフィルタリングを施しています．N-gram コーパスについては，テキストアーカイブに出現する頻度 10 以上の N-gram を収録しています．本コーパスの英語名称は Nihongo Web Corpusn 2010 (NWC 2010) です．謝辞本コーパスの作成においては，様々なウェブサービス，ツール，コーパスを利用させていただきました．開発者・研究者の皆様に感謝いたします．コーパスの作成・保存・配布には Amazon Web Serv
rti7743 2011/01/29
自然言語処理

コーパス

あとで
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx