形態素解析もどきを改良してみた 「JavaScript で形態素解析もどき」を少し改良してみました。今までは漢字、ひらがな、カタカナ、英数字、記号などで分けていただけなので、 「今日はいい天気でした。」 という文章を解析すると 「今日|はいい|天気|でした|。」 となって、「はいい」などと変な区切りができたりしていました。 そこで、助詞で区切ってから、その後で漢字、ひらがな、などで分けるようしてみました。そうすると 「今日|は|いい|天気|で|した|。」 という感じで分けることができます。 ただ、 「とても大きい」 という文章だと 「と|て|も|大|きい」 となってしまったりで、問題もありますが。 JavaScript のソースはこんな感じです。 function SimpleAnalyzer() { this.re = new RegExp; this.re.compile("[一-龠々