こんにちは、プロダクト事業部の水野貴明、萩原正人&マーケティング部の上之山奈津希です。 Baiduは、自然言語処理に興味を持たれていたり、学んでいたり、研究されている方や、おもしろいものを作ってみたいエンジニアの方の研究や非商用のサービス開発などのに活用いただくため、「Baidu コーパスダウンロード広場」を開設し、「Baidu ブログ・掲示板時間軸コーパス」を公開いたしました。 Baidu ブログ・掲示板時間軸コーパス Baidu ブログ・掲示板時間軸コーパスは、Baiduがクロールしたウェブデータから、掲示板の書き込みおよびブログの本文を、書き込まれた正確な時間とともに抽出し時系列に並べたデータを元にして作成したユニークでほかにはない(※)コーパスです。掲示板が普及した2000年1月~2010年7月の期間に対して、各1ヶ月ごとにスライスし、Nグラム(1グラム~3グラム)の統計を計算して