タグ

ブックマーク / blog.mwsoft.jp (2)

  • 青空文庫のデータでword2vecした出力結果のメモ : mwSoft blog

    Wikipediaのデータに続いて、青空文庫のデータ(10,975タイトル、554MB)をword2vecに突っ込んでみた。 青空文庫は普通にgithubに置いてある(https://github.com/aozorabunko/aozorabunko)ので、そこからcloneし、ルビや改頁指定などは除去。タイトル、底などに関する記述も除去。 ホントはあと1500タイトルほど文書があるはずなんだけど、不要な部分を除去する処理を噛ませた時にうまくいかなかったのをすっ飛ばしたので1万タイトル程度に収まる。 形態素解析時に姓名は連結、カタカナの連続は連結。中黒の前後も連結。動詞は基形に変換している。 以下、distanceの結果。 田中 天野, 佐藤, 河崎, 津下, 大村, 服部, 中村憲吉, 土屋文明, 主筆, 塩田真 佐藤 森田,藤田,梅原,友枝,河村,小林,田中,西村,若井,河崎,茂

    laislanopira
    laislanopira 2014/05/26
    青空文庫は奥ゆかしいというか、時代を感じさせる結果に
  • Wikipediaのデータでword2vecした出力結果のメモ : mwSoft blog

    ここのところ遅ればせながらword2vecと戯れ中。学習にかかる時間も短いし、うまく使えばいろいろ役に立ちそう。 とりあえずWikipediaのデータを突っ込んだ結果などを。 形態素解析時に、姓と名を連結してみたり、接尾語と接頭語を連結してみたり、カタカナの連続を連結してみたりしている。 以下はdistanceした時の上位。上が入力ワード、下が出力されたワード。 田中 高橋, 佐藤, 岡田, 鈴木, 橋, 渡辺, 山, 前田, 藤井, 佐々木 鈴木 佐藤, 田中, 伊藤, 高橋, 渡辺, 加藤, 山, 斉藤, 佐々木, 中西 上は良い例。悪い例として、中村を入力すると妙な結果が出た。 中村 里子, 中津川初, 繪, 田中, 天海春香役, 天海春香, 今井, 三浦, 加藤, 吉田 中村繪里子さんという声優さんがいて(一般的な人名でないため、繪と里子が別れてしまっている)、中津川初と天海

    laislanopira
    laislanopira 2014/05/26
    「中村」が「天海春香」に引っ張られすぎ。ウィキペに限らずネットの文章を使うとこういう歪みが出るだろう
  • 1