3/20の言語処理学会内にて、Googleが主催する大規模日本語データ公開に関する特別セッションというのがあるらしい。Googleでは、日本語の言語処理研究推進のため大規模日本語データの公開を検討しており、その仕様を決定するために現場の研究者/技術者の皆様の声を吸い上げたいということのようだ。 ここで思い出したが、つい先日にYahoo! Japanが Yahoo!知恵袋のデータを情報関連技術研究コミュニティに対して無償で提供するというニュースがあった。 この時は、書き言葉と話し言葉の中間的存在としてブログやQ&Aサイトなどのテキスト情報が急増しており、これを研究対象として利用できることで研究の幅が広がるということだったが、Googleのデータも非常に多様かつ巨大な情報の塊を研究対象にできるというのは意義のあることだと思う。これを使って、どんな研究ができるだろう?