国立情報学研究所(NII)と国立国語研究所は4月23日、「Yahoo!ブログ」に投稿された記事データを利用した研究を始めると発表した。「w」(笑、ワラ)などネット独特の表現やくだけた文章を含んだブログの内容を分析できる言語解析ツールや、コーパス(言語分析用データベース)などの構築を目指す。データはヤフーが無償で提供する。 4月25日以降に投稿されるYahoo!ブログの記事から季節ごとに数回ずつ、合計500万語以上を抽出。固有名詞や個人の特定に結びつく可能性のある表現を除外し、研究に利用する。全体に公開している記事のみが対象。Yahoo!IDには、「ユーザーがYahoo!で発信したコンテンツを、ヤフーが無償で非独占的に複製する権利を許諾する」という規約があるため、規約に同意していないユーザーでも投稿できるブログコメントは提供データに含まない。 ブログデータは、言語学の研究や、ブログの内容を分