タグ

NLPとspamに関するYasSoのブックマーク (3)

  • ワードサラダ技術について

    後半部分が重要で、未来の挙動が現在の値だけで決定され、過去の挙動と無関係である ということです。 さて、実例です。たとえば次の文章を考えてみます。 「通信販売大手セシールは9日、生命保険の販売に格参入する方針を明らかにした。」 まず形態素解析するとこんな感じになります。 通信 名詞,サ変接続,*,*,*,*,通信,ツウシン,ツーシン 販売 名詞,サ変接続,*,*,*,*,販売,ハンバイ,ハンバイ 大手 名詞,一般,*,*,*,*,大手,オオテ,オーテ セシール 名詞,固有名詞,組織,*,*,*,セシール,セシール,セシール は 助詞,係助詞,*,*,*,*,は,ハ,ワ 9 名詞,数,*,*,*,*,9,キュウ,キュー 日 名詞,接尾,助数詞,*,*,*,日,ニチ,ニチ 、 記号,読点,*,*,*,*,、,、,、 生命 名詞,一般,*,*,*,*,生命,セイメイ,セイメイ 保険 名詞,一般

  • ワードサラダ - Wikipedia

    ワードサラダ(英: word salad)とは、文法としては正しいが、意味が破綻している文章のこと[1]。言葉のサラダ(ことばのサラダ)とも。 精神医学にて[編集] 精神医学では思考障害の一つに分類され、認知症、統合失調症、頭部損傷患者、言動性チックなどにみられる。 コンピューティングにて[編集] 検索エンジンの検索結果やブログ、迷惑メールに多く見られる。 検索エンジンやメールのスパムフィルタを回避して、閲覧者を特定のウェブサイトに誘導することを目的としている。 誘導先のサイトは、アドセンスやアフィリエイト収益のみを目的としたサイトや、アダルト・違法サイト、閲覧者をウイルスに感染させることを目的としたサイトが多い。過去に著名人や企業が保有しており、所有権が失効したドメインを悪用したケースも存在する。 ワードサラダは多くの場合、検索エンジンの検索結果やRSSなどのウェブ上に存在する文章を元に

    YasSo
    YasSo 2009/07/06
  • 【言語処理】Perlでspamフィルタを作る

    1 :デフォルトの名無しさん:2006/11/13(月) 18:19:03 相談できる相手がいないのでここで知識を得たいと思いスレ立てしました。 Perlでのより良いプログラミングの話以外に、spamフィルタ技術の話全般で 切磋琢磨したいです(切磋琢磨という表現はおこがましいとは思いますが。。) 一応動くものは作ったので上げたいと思うのですが perlは初めて1ヶ月ほどな上、人に見せるつもりで書いたプログラムではないので かなり読みにくいと思います。 (作っているものはbsfilterやPOPFileのようなベイズを基にしたクライアント側のフィルタです) 2 :デフォルトの名無しさん:2006/11/13(月) 18:26:32 動くものが欲しければ既存のもの使えば良いじゃない 技術的な話なら書籍なり論文集なり漁れば良いじゃない あとなぜに Perl? 3 :デフォルトの名無しさん:20

  • 1