こんにちは、初心者です。 適当なニュース記事があったとして、ニュースのカテゴリを推測するみたいな、よくあるやつをやってみました。Python3.3を使いました。 何をやるの? データセットはlivedoorニュースコーパスを使いました。 http://www.rondhuit.com/download.html#ldcc クリエイティブ・コモンズライセンスが適用されるニュース記事だけを集めてるそうです。 トピックニュース、Sports Watch、ITライフハック、家電チャンネル 、MOVIE ENTER、独女通信、エスマックス、livedoor HOMME、Peachy というクラスがあります。 データは、1記事1テキストファイルの形式で、クラス別のディレクトリにいっぱい入っています。 これを学習して、未知の文章に対して、お前は独女通信っぽい、お前は家電チャンネルっぽい、みたいに、分類が
この記事はCompetitive Programming Advent Calendar 2014 - PARTAKE24日目の記事です。関連記事に実装編もあります。 ランダムフォレストのつくりかた(C++の実装例つき) - じじいのプログラミング 今年は、TopCoderの機械学習マッチに積極的に参加して、経験もいろいろ詰めたので、そのノウハウを公開しようと思います。 自分のやり方は我流なので、アドバイスをいただけると、とてもうれしいです。 この記事にはランダムフォレストの説明はありません。ネット上に良い記事が多くあります。「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京の記事は読みやすいと思いました。 この中のコツのいくつかは、ランダムフォレストに限らず使えると思います。 実装はないので、RやPython
Random Forest メディア: ペーパーバック クリック: 27回この商品を含むブログ (1件) を見る Random Forest Random Forestとは Random forest - Wikipedia Random forests - classification description 機械学習の方法論の一つで決定木ベースの集団学習アルゴリズムを取り入れたものです。説明変数の依存が少ないことや学習が高速であることが特徴として挙げられています。英語サイトの方で特徴として紹介されているRFの内容について記述します。 Features 大きなデータに対して効率よく処理される。 変数の削除をすることなく入力した数千の変数を扱う事ができる。 どの変数が分類に対して重要なのかを計算して与えてくれる。 木の構築処理中に一般的なエラーの偏りの無い計算を生成する。 高い割合でデータ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く