タグ

2010年1月19日のブックマーク (6件)

  • MySQLでTF-IDFの計算、あと2つのベクトルの内積の計算 (2006-12-19)

    文を形態素分解し、必要な品詞をtfテーブルとdfテーブルに入れる。分析対象となる文書群すべてについてこの処理を行い、各形態素のTF-IDF値を求めて文書をベクトル化する。他の文書ベクトルと内積を比較し、小さい順に「似ている記事」を求めたい (クラスタリングとかは別途)。 HarmanによるTF値の正規化とSparok JonesによるDF値の正規化をする場合のTF-IDF値の計算式は以下のようになる (参考文献): tfidf(i,j) = log2(freq(i,j) + 1) / log2(NoT) * (log2(N / Dfreq(i)) + 1)

  • “検察が逮捕したい人”一覧 - Chikirinの日記

    検察が極めて恣意的に“逮捕したい人を逮捕する”ことに、多くの人が気づき始めています。 新聞やテレビなどのマスコミは“検察の広報部隊”と化しているので、この点についてネットメディアの意義は非常に大きいと言えます。 今日は“検察が逮捕したがる人の類型”をまとめておきます。 類型1:内部告発者、裏切り者 一時は自分達の仲間だったのに、内部告発しようなどという“ええ格好しい”はとりあえず逮捕。特にマスコミの取材をうけようなんてありえないので、速攻逮捕です。 例:三井環元大阪高等検察庁公安部長 平成14年に、検察内部での不正資金流用等について内部告発。 この件について、ジャーナリストの鳥越俊太郎氏とのインタビューが予定されていた。が、その予定時刻の数時間前に急遽、全然関係ない(超微罪)で別件逮捕される。 これにはマスコミも皆震え上がり、その後の報道はぴたりと止まった。 自分が勤めていた外務省の内幕を

    “検察が逮捕したい人”一覧 - Chikirinの日記
    matsubobo
    matsubobo 2010/01/19
  • SimpleAPI vol.2 - 最寄り駅Webサービス & 最寄り駅モバイル地図

  • naoyaのはてなダイアリー - はてなダイアリーキーワード抽出モジュール

    一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいのではないか、という話になりました。 竹迫さんがその日のうちに作ってくれたプロトタイプで、アルゴリズムの改善とパラメータのチューニングを行ったところ、十分な品質が出そうなので、書き直して公開することにしました。 と、サイボウズラボの奥さんが Lingua::JA::Summarize という Mecab を使ったキーワード抽出モジュールをリリースして GJ です。 で、これにインスパイアされてというか、そういえばはてなブックマークもエントリーのキーワード抽出とかやってるなあと思って、中を見てみたらえらい実装が汚かったw もとい、中の実装方法はというと、普通にはてなダイア

    naoyaのはてなダイアリー - はてなダイアリーキーワード抽出モジュール
    matsubobo
    matsubobo 2010/01/19
  • 大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe

    第80回知識ベースシステム研究会を開催したが,二日間で58名の方々に参加して頂き,積極的に議論に加わって頂いた.この場を借りて,参加してくれた方々に感謝したい.大変遅くなった(爆)が,Googleの工藤拓氏による招待講演「大規模テキスト処理を支える形態素解析技術」の概要を,このブログで報告しておきたい.工藤氏の専門分野は統計的自然言語処理と機械学習であるが,日形態素解析エンジンMeCabの開発者であり,他にも自然言語処理関連の有益なツールや,Webベースの日本語入力を可能にするAjax IMEのようなユニークなサービスを提供しているなど,時代をリードする研究開発者の一人である.彼の活動に興味があれば,彼のブログ「きまぐれ日記」は必見だろう. なお,当日は弊社側の不手際で,予定していた工藤氏の重要なデモをおこなうことができなかった.弊社はネットワーク会社であるにもかかわらず,ネットワーク

    大規模テキスト処理を支える形態素解析技術(工藤拓氏・Google) - Cafe Babe
  • Google Japan Blog: 大規模日本語 n-gram データの公開

    突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

    Google Japan Blog: 大規模日本語 n-gram データの公開