2012年4月17日のブックマーク (4件)

  • 第3回 ベイジアンフィルタを実装してみよう | gihyo.jp

    さらに詳細な利用方法が知りたい方は、Yahoo!デベロッパーズネットワークのマニュアルを参照してください。 ベイジアンフィルタの実装 ここから格的にベイジアンフィルタの実装に入っていきます。 その前に、まずは先程のリスト1のコードを利用して入力された文章をわかち書きし、単語の集合を返す関数を作成しnaivebayes.pyとして保存しましょう。こちらも先程のmorphological.pyと同様にutf-8で保存してください。 リスト2 文章の分割をする関数(naivebayes.py) # -*- coding: utf-8 -*- import math import sys #yahoo!形態素解析 import morphological def getwords(doc): words = [s.lower() for s in morphological.split(doc)

    第3回 ベイジアンフィルタを実装してみよう | gihyo.jp
    yt81
    yt81 2012/04/17
    機械学習 はじめよう:第3回 ベイジアンフィルタを実装してみよう|gihyo.jp … 技術評論社
  • Webページの自動カテゴライズ (nakatani @ cybozu labs)

    パストラックは、「社会」「政治」「スポーツ」などのカテゴリごとにページのランキングを見る機能があります。 パストラックの注目・人気・定番のページ一覧で右上のセレクトボックスからカテゴリを選ぶと、そのカテゴリの一覧が表示されます。 例: 「政治」の人気ページ一覧(人気ページ=昨日・今日あたりによく見られたページ)http://pathtraq.com/popular?category=Politics「スポーツ」の注目ページ一覧(注目ページ=ここウン時間によく見られたページ)http://pathtraq.com/popular?m=upcoming&category=Sports「車/二輪」の人気ページ一覧http://pathtraq.com/popular?category=Motor「/グルメ」の注目ページ一覧http://pathtraq.com/popular?m=upcomi

    yt81
    yt81 2012/04/17
    ベイズ理論勉強中。Webページの自動カテゴライズ (nakatani @ cybozu labs)
  • AnyEvent::Twitter::Streamでベイジアンフィルタの様子を見る - メメメモモ

    ツイートストリームをベイジアンフィルタでカテゴリ分けしていく様子を見てみました。 カテゴリとしてハッシュタグを利用します。 ハッシュタグが付いているツイートは、フィルタの学習テキストとなります。 ハッシュタグが付いていないツイートは、どのハッシュタグに近い内容となっているのかを推定します。 これを行なうプログラム。 use strict; use warnings;use lib './lib'; use utf8; use FindBin::libs; use Text::MeCab; use Classifier; use Classifier::Filter::DBI; use Encode; use Config::Pit; use AnyEvent::Twitter::Stream; use DBI; use DBIx::Class; my ($username, $passwo

    AnyEvent::Twitter::Streamでベイジアンフィルタの様子を見る - メメメモモ
    yt81
    yt81 2012/04/17
    ベイズ理論勉強中。AnyEvent::Twitter::Streamでベイジアンフィルタの様子を見る - メメメモモ
  • 「日本語テキストを分類するベイジアンフィルタ」を簡単につくるyo - download_takeshi’s diary

    数週間前の話になりますが、「はてブのリニューアル会見」の記事を読んでいたところ、はてブにも「自動カテゴライズによる記事分類」の機能が搭載されるとか。。。 同じようなタイミングで「似たようなモノ」というか「ほぼ同じようなモノ」を作っていたので、すごーくインスパイアされてしまいました。ジュワ〜。(アドレナリンの放出音) 数週間たってもいまだ興奮冷めやらぬ状態なので、今日はその件について書いてみようと思います。 Lingua::JA::Categorize - a Naive Bayes Classifier for Japanese document. http://search.cpan.org/~miki/Lingua-JA-Categorize-0.00001/ 「はてブのパクリ」ではありません。「ベイジアンによる日語テキスト分類器」を「簡単に作る」ことを目的としたモジュールです。 も

    「日本語テキストを分類するベイジアンフィルタ」を簡単につくるyo - download_takeshi’s diary
    yt81
    yt81 2012/04/17
    ベイズ理論勉強中。「日本語テキストを分類するベイジアンフィルタ」を簡単につくるyo - ダウンロードたけし(寅年)の日記