miyagawaさんのエントリーやはてなダイアリーTagCloud の影響で、第2次タグクラウドブームがおきています(脳内調査)。 そこで流行にオイラも乗ってみましたよ。巷で話題の著作権切れ作品をタグクラウド化してみました。 桜の樹の下には(梶井基次郎) →タグクラウド化 作り方はmiyagawaさんとほぼ同じです(おそらく)。 青空文庫からHTML::TreeBuilder::XPath + HTML::Selector::XPathでタイトル、作者、本文を切り出した後、本文をText::MeCabで形態素解析して"名詞,一般"のみ集計しHTML::TagCloudでタグクラウド化しました。 ゴミっぽい仮名文字も入っていますが("つて"が多いのは"乗つて"等の旧表現の所為か?)、結構いい感じにできたので他の著作権切れも試してみました 山椒大夫(森鴎外) →タグクラウド化 瓶詰地獄(夢野久