概要 ショートショートを予め用意したカテゴリに自動分類する。 R環境を通して、MeCabで形態素解析しナイーブベイズを使ってカテゴリを推測する。 環境設定 -> RMeCab のインストールと R を用いたテキスト処理(形態素解析など) -> ニコニコ大百科データからMeCab辞書を生成する 入力 フォルダにショートショートを格納する。 yyMMddhhmmss(フォルダ) |ーakga_01.txt(ショートショート) |ー : |ー : |ーakga_06.txt |ーnkmk_01.txt |ー : |ー : |ーnkmk_06.txt |ーxxxx_01.txt |ー : |ー : |ーxxxx_04.txt ※ファイルの接頭辞がカテゴリ名を表す。 akga/nkmkファイルが訓練データ。xxxxファイルが検証データ。 xxxx_01.txt,xxxx_02.txt=akga xx
![Rで自然言語処理。ナイーブベイズで文書分類を試みる - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/96dce58bd03f22d8c25e26d1ba225eb9b7c5e3c2/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9UiVFMyU4MSVBNyVFOCU4NyVBQSVFNyU4NCVCNiVFOCVBOCU4MCVFOCVBQSU5RSVFNSU4NyVBNiVFNyU5MCU4NiVFMyU4MCU4MiVFMyU4MyU4QSVFMyU4MiVBNCVFMyU4MyVCQyVFMyU4MyU5NiVFMyU4MyU5OSVFMyU4MiVBNCVFMyU4MiVCQSVFMyU4MSVBNyVFNiU5NiU4NyVFNiU5QiVCOCVFNSU4OCU4NiVFOSVBMSU5RSVFMyU4MiU5MiVFOCVBOSVBNiVFMyU4MSVCRiVFMyU4MiU4QiZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnR4dC1jbGlwPWVsbGlwc2lzJnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9MWY2YTJiYzgwNDY3MDY5Mjc4ZWQ3OTAyYTdkMTIzZTc%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTYxNiZ0eHQ9JTQwbmV6dXEmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zNiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTUxOGM5ZDlkMjcwNjc0NmNhZmZhMzlkYjAwNTkwNzE5%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3D52caf89116d73d5c6493ddd49ba01b2c)