エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
日本語テキストのカテゴリをtf-idfとランダムフォレストで学習する〜livedoor ニュースを題材に - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
日本語テキストのカテゴリをtf-idfとランダムフォレストで学習する〜livedoor ニュースを題材に - Qiita
はじめに 世間的には既にやり尽くされた感のあるネタではありますが、日本語テキストの扱いに慣れるには... はじめに 世間的には既にやり尽くされた感のあるネタではありますが、日本語テキストの扱いに慣れるにはよい題材だなと思ったので、Qiitaに書いてみます。 今回使うものは下記の通りです。 python(anaconda3-2.5.0) sklearn mecab livedoor ニュースコーパス NHN Japan株式会社が運営する「livedoor ニュース」のうち、下記のクリエイティブ・コモンズライセンスが適用されるニュース記事を収集し、可能な限りHTMLタグを取り除いて作成したものです。 http://www.rondhuit.com/download.html を利用させていただきます。 機会学習をやる上でデータの準備は最も時間が掛かる仕事のうちの一つですが、こうして整形したデータを用意していただけるのは本当にありがたいことです。 tarの中身を展開すると、下記のようになります。 l