タグ

形態素解析に関するmock_frogのブックマーク (5)

  • 第6回 N-gramと形態素解析との比較 | gihyo.jp

    これまでに、N-gramと形態素解析の2つの検索エンジンの、見出し語の切り出し方法を説明しました。今回は、2つの見出し語の切り出し方法を比較し、それぞれの得意な点、不得意な点を明らかにしていきます。 2つの手法の概要 はじめに、2つの手法をおさらいしてみます。 形態素解析 検索対象のテキストを形態素解析を行い分かち書きを行う 分かち書きした単位を見出し語として転置インデックスを作成する 転置インデックスを元に検索を行う N-gram 検索対象のテキストをN文字単位の文字列片に分解する 分解した文字列片を見出し語として転置インデックスを作成する 検索語をN文字単位の文字列片に分け検索を行う 文字列の出現位置情報を利用すれば、漏れのない完全一致の検索が可能 大きな違いは、「⁠転置インデックスの見出し語をどのように作るか」というプロセスが異なる点です。形態素解析は構文解析を行って分かち書きを行う

    第6回 N-gramと形態素解析との比較 | gihyo.jp
    mock_frog
    mock_frog 2009/09/04
    形態素解析とN-gramの特徴比較。
  • 連載:検索エンジンを作る|gihyo.jp … 技術評論社

    運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。

    連載:検索エンジンを作る|gihyo.jp … 技術評論社
  • ニュースの可視化サイト『Newsgraphy』を公開しました - kaisehのブログ

    のニュースを地図化して俯瞰できる『Newsgraphy』というサービスを作りました。 Newsgraphy 6月に公開して大きな反響をいただいたHatenarMapsの可視化手法を、Yahoo!のトピックスAPIから取得したニュース記事に適用して、いろいろと機能強化を施したものがNewsgraphyです。Mashup Award 4thにも応募しています。 追記(2008/9/26): 「HatenarMapsの可視化手法を適用」と書きましたが、これは二次元平面へのマッピング手法(Voronoi Treemap)のことで、クラスタリング手法は含んでいません。Newsgraphyは、Yahoo!で分類済みのニュースカテゴリ階層を使用しています。 ニュースの可視化と言えばnewsmapが有名ですが、newsmapよりも面白くて実用性の高いサイトを目指して開発しました。 以下、Newsgra

    ニュースの可視化サイト『Newsgraphy』を公開しました - kaisehのブログ
    mock_frog
    mock_frog 2008/09/28
    ニュースを可視化して地図上にマッピングするサービス『Newsgraphy』の開発者の記事。記事の古さによって色分けもできるとか。トピックの名称が出る基準とか知りたい!
  • SBM研究会で発表した"私がチャレンジしたSBMデータマイニング"のスライド - Ryoの開発日記 Neo!

    SBM研究会で"私がチャレンジしたSBMデータマイニング"という発表を行いましたが、そのスライドを置いておきます。 ・[2008/7/21 22:43 version final] ・http://www.slideshare.net/rawwell/sbm-presentation #リンク切れしていたので、どなたかがSlideshareにアップしたものにリンクw Change Logs ・2010/8/23 リンク切れを解決 ・2008/7/21 22:43 version final  初版の2倍以上にスライドを増やした。また、"個人による高性能データマイニング"の話を追加した。 ・2008/7/16 23:45 version 1.1  TF-IDFの説明が間違っているとの指摘を受け、説明部分を修正 ・2008/7/12 23:53 version 1  公開 SBM研究会の体験記

    SBM研究会で発表した"私がチャレンジしたSBMデータマイニング"のスライド - Ryoの開発日記 Neo!
    mock_frog
    mock_frog 2008/07/16
    ソーシャルブックマーク(SBM)の発表資料。発表も聞いてみたかった
  • mixi Engineers’ Blog » mixi日記キーワードランキングの秘密

    皆さん、先月の半ば頃からmixiのトップページの3列目に「日記キーワードランキング」というコーナーが登場していたのをご存じでしょうか。手前味噌ながら、これはとても面白い機能で、毎日ランキングが更新される度に素敵なランキングが作られていて悦に入っているmikioです。今回は日記キーワードランキングの秘密についてお話します。 日記キーワードランキングとは、日記に書かれた言葉の使用頻度を統計的に処理して、今話題になっている度合を算出し、その上位をランキング形式で表示する機能です。トップページには5位までが表示されるので、それをチェックするだけで最新の流行を把握することができます。さらに「30位までを読む」に進むと30位までのキーワードとその関連日記が表示されます。詳細を知りたい場合はキーワードをクリックすると、そのキーワードで日記検索をした結果を見ることができます。一通り見るのに10分くらいでし

    mixi Engineers’ Blog » mixi日記キーワードランキングの秘密
    mock_frog
    mock_frog 2007/06/29
    mixi内のキーワードランキングの作り方。アルゴリズムが公開されている例が少ないので参考になる
  • 1