You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
mecab-ipadic-neologdを使って形態素解析すると語彙が増えすぎてしまうんじゃないかという心配があったので調べてみた。 (追記訂正:最初のデータは間違っていました。ごっそり消してwikipediaの詳細データだけ掲載します。すみません。) コーパスのテキスト量と増加率の関係を見たかったのでwikipediaの日本語版を項目数(記事数)で483分割して処理。コーパスNo.がおおよそのコーパステキスト量に該当します。コーパスNo.10はNo.1のおおよそ10倍のテキスト量。ただあくまで「項目数」での分割なので正確なデータでは無いです。 コーパスNo デフォルト NEolodg 増加率(%) 1 46258 58556 26.6 2 68258 88678 29.9 3 84709 111791 32.0 4 99337 132455 33.3 5 113074 152992 35
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く