[B! 検索][corpus] zanninoのブックマーク

zannino id:zannino

検索とcorpusに関するzanninoのブックマーク (1)

概要国語研日本語ウェブコーパス（NWJC）
データの構築手法についてウェブアーカイブの構築で用いられる Heritrix クローラを運用することで1年間にわたって3か月おきに、固定した約1億URLのウェブページを収集しました。得られたウェブページはnwc-toolkitを用いて、日本語文抽出と正規化を行いました。コピーサイトの問題を緩和するために、文単位の単一化（文の異なりをとること）を行いました。形態素解析器MeCab-0.996 と形態素解析用辞書UniDic-2.1.2を用いて形態素解析を行い、さらにUniDic 主辞規則に基づく係り受け解析器CaboCha-0.69により係り受け解析を行っています。参考文献について『国語研日本語ウェブコーパス』国際論文誌： Masayuki Asahara, Kikuo Maekawa, Mizuho Imada, Sachi Kato, Hikari Konishi (20
zannino 2017/03/07
コーパスとは「テキストや発話を大規模に集めてデータベース化した言語資料」。日本語コーパスと検索システムが公開中。アレクサ日本語版早く使ってみたい。

コーパス

自然言語処理

形態素解析

corpus

検索

ビッグデータ
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx