タグ

形態素解析に関するhell0w0rldのブックマーク (2)

  • 「圧縮新聞」を作った - phaの日記

    僕は昔からロボットがロボットなりに変な文章を生成して喋ったりする人工無脳とかそういう仕組みが好きで、最近はそのへんの仕組みを勉強していました。それで大体仕組みの基はわかったので簡単なスクリプトを書いてみたよ。 圧縮新聞 このスクリプトはウェブ上にある新聞社とかのニュースの文章を元にして、バラバラにして圧縮してまとめた文章を作るので、ざっと眺めるだけでその日起こった事件の全体が何となくわかるかもしれません。リロードするたび文章は変わります。 生成例 しょうゆ・みそ業界大手のNOVA(大阪市)が入った郵便小包は、北朝鮮の鉄道網を連結する計画だったらしいことが21日、わかった。タンクに灯油を補給した。検案の結果、財政難などをほとんど与えずに6者協議の外相会議の早期再開に期待を表明した国と製薬会社に賠償を求めた。その後、死亡した。 しくみ こういった人工無脳みたいな文章生成をするには形態素解析

    「圧縮新聞」を作った - phaの日記
  • どんなページもルー大柴ナイズ

    来月仕事海外に行くことになりそうなので、買っただけで読んでなかった カタカナ英語 を取り出して読んでたのですが、TV 付けて酒飲みながらじゃあ勉強にならない。カタカナ英語といえば ルー大柴 だよなあ、と脱線しはじめる。 「ディスイヤーは私にとって再チャレンジのファンデーション作りのイヤーだった」(原文) ↓ 翻訳すると「今年は私にとって再挑戦の基礎作りの年だった」 ということは何か普通の文章をルー化するスクリプトをすぐ書けそうな予感。ルーさんが使いそうな単語を片っ端からマップにしてもいいけど、それはめんどい。それより、文章を形態素解析 → 単語を英訳 → 英語をカタカナ読みに翻訳 → というようにすれば楽に書けるんじゃないか?と発展。 形態素解析は MeCab でいいよね 単語の和英は、Excite みたいなネットを介すやつだと遅いので、フリーの英和辞書を探す。EDICT proje

    どんなページもルー大柴ナイズ
  • 1