_ [ruby][planet] Ruby で日本語を簡単にバラバラにする方法 (この記事はRuby Advent Calendar jp: 2010 : ATNDの8日目です。前日はtakano32さんでした。) 日本語をバラバラにする方法っていくつかあるみたいですが,そのうちn-gramと形態素解析を簡単に使えるようにしてみました.形態素解析を使う場合にはYahooの日本語形態素解析を内部で用いているのでYahooのアプリケーションIDを登録して下さいね.Ruby1.9 で動きます. # -*- coding: utf-8 -*- module StringTokenizer require 'uri' require 'net/http' require 'rexml/document' class IdIsNotSetException < Exception; end def