タグ

形態素解析と2chに関するamayanのブックマーク (2)

  • ふいんきり?だ? Web Service

    だいぶ前に作った「ふいんきり〜だ〜」の機能を Web サービスとして提供することにしました。任意の日語文書の内容を解析して、2ちゃんねるでいうとどこの板のふいんき(←なぜか変換できない)に似ているかを教えてくれるプログラムです。要は、2ch のスレッドタイトルのデータをもとにして、文書のトピックを推定するというということ。開発者さん向け。 Yahoo! の日形態素解析 Web サービスにインスパイヤされて、手持ちのネタをちょっと改造しました。 10月27日、同一URLは1時間キャッシュするように改造しました。取得先への負担軽減と、サービスのスピードアップをはかりました。 できること 投げられてきた文書、もしくは取得した Web ページの内容が2ちゃんねるとまちBBSのどこの板に似ているか、類似度ランキングを作ります。 ……というとなんだかフザケているようですが、「数学」とか「B級グ

    amayan
    amayan 2007/11/05
    テキストを形態素解析して雰囲気の近い板リストを返すAPI。
  • MeCab 2ch語辞書 - NeverBlog::Likk::Unexistable;

    2chdic.070813.zip 83's : MeCab用、2ちゃんねる辞書からお借りしたMeCab用2ch語辞書が自分の使っているmecab version 0.95 に対応してなかったので、色々修正。 コストもほんの少しだけ頑張ってみたけど、面倒なんで大部分がお借り元と一緒の3206です。暇を見てちゃんとコスト考えようかね。 自分で何か付け加えたりとかはしていないので、最近の2ch語にも対応しておりません。 左・右接続IDはデフォルトのIPA辞書の品詞・形態を元にしました。というか、デフォルトの辞書も左右のID一緒問題ないのかな。 辞書の追加の仕方は 家を参照してください。 糞スレ立てんな、ヴォケが 糞スレ 名詞,一般,*,*,*,*,糞スレ,クソスレ,クソスレ 立てん 動詞,自立,*,*,一段,体言接続特殊,立てる,タテン,タテン な 助詞,終助詞,*,*,*,*,な,ナ,ナ

    MeCab 2ch語辞書 - NeverBlog::Likk::Unexistable;
  • 1