タグ

説明とsearchに関するtorutoのブックマーク (11)

  • テキストからの評判分析と 機械学習

    テキストからの評判分析と 機械学習 鍜治伸裕 東京大学 生産技術研究所 講演の前に • 想定している聴衆 – 評判分析について専門的なことを知らない – 機械学習(ML)の素養を持っている • 講演の内容 – 評判分析という分野の解説 – 評判分析における ML の適用事例の紹介 • お断り – 自然言語処理(NLP)の話に特化 – ML を使っている論文を私の好みで選んで紹介 評判分析を概観する 評判分析はこんな技術 • 例: Yahoo!ブログ検索における「VAIO」の検索結果 肯定的評判と否定的評判の 書き込み数を集計して表示 肯定的な書き込みと否定的 な書き込みを分類して提示 背景: CGMの出現 • CGM – Consumer Generated Media のこと – 例えば Amazon に投稿されたレビューやブログなど – 一般人が作成,発信するコンテンツである点がポイン

  • Web spam Identification Through Content and Hyperlinks - 日々の勉強の航跡

    J. Abernethy, O. Chapelle, C. Castillo Web spam Identification Through Content and Hyperlinks In Proceedings of Fourth International Workshop on Adversarial Information Retrieval on the Web 2008. Apr. 論文の在処 概要 いろいろなページのfeaturesを全部利用して、それぞれに重みを付けてWeb spamを発見しようと言うアイディア。 重みを付ける方法をSVM-likeな方法で学習する。 SVM+グラフのリンク構造+スラック変数。 結果はかなり良いみたい。Web Spam ChallengeのTrack 穸のAUCでは一番だったらしい。 1. INTRODUCTION 不当やり方でいくつかの

    Web spam Identification Through Content and Hyperlinks - 日々の勉強の航跡
  • Home

    Each year, the Pulitzer Prize award is given to those in newspaper, magazine, online journalism, literature, and musical composition for their achievements. This year, for 2024, amongst the 45 journalists who have been selected as finalists, five people’s entries are AI-powered. While the extent of the use of artificial intelligence in their submissions isn’t yet…

  • The IDF(inverse document frequency) page

    Professor Emeritus Professor Stephen Robertson Department of Library and Information Science My current email address is not too hard to find, but I may also be contacted through LinkedIn. I'm now retired from paid work, but I am still a visiting Professor at University College London, Department of Computer Science. I spent 15 years, from 1998 to 2013, as a researcher at the Microsoft Research La

  • 検索メイニアック!: tf-idf (ティーエフ・アイディーエフ)とKaren

    情報検索入門シリーズ。 "Maniac"という英単語は、あえてカタカナで書くならマニアックではなくメイニアックである。 そういうわけでこのブログのタイトルは「検索メイニアック」である。 さて、マニアックとメイニアックはどちらが一般的に使われる語だろうか? 「マニアック」のウェブ検索結果 「メイニアック」のウェブ検索結果 ということでマニアックの「ヒット数」のほうが圧倒的に多い。 この「ヒット数」のことを文書頻度(document frequency)という。略してdf。 「メイニアック」のようにdfの低い語のほうが、一般にはクエリターム(検索キーワード)として有用である。 つまり欲しい文書(個々の検索対象。例えば単一のウェブページ)を特定するのにより役立つ。 例えば、「検索」と「メイニアック」という2つのクエリタームで検索を行いたい場合、 「検索」のウェブ検索結果 を見

    toruto
    toruto 2008/09/04
    「idfの概念を発明したのが私の英ケンブリッジ大学時代の恩師Karen Sparck Jonesであるということ。」と言う話。
  • mixi Engineers’ Blog » かんたん友人検索 その壱

    朝7時30分に起きて駒沢公園をジョギングすること10日目のmikioです。だいぶ体が軽くなってきて、そろそろ体型にも変化が出てくるかなと期待する毎日です。さて、以前の記事で予告した通り、Tokyo Dystopiaを使ったmixi内の検索機能をインディーズ機能としてリリースしました。「かんたん友人検索」という名のとおり、mixiの登録ユーザを対象として友人や知人を簡単に検索する機能です。操作を簡潔にしながらも、マイミクシィのつながりなどを使って検索精度を高めているのが特徴です。 シンプルにした 見た目として最も大きな特徴は、従来の友人検索よりも入力フィールドの数を減らしたことです。従来では「姓」「名」「ニックネーム」「性別」「年齢(下限)」「年齢(上限)」「血液型」「現住所(都道府県)」「現住所(市区町村)」「出身地(都道府県)」「出身地(市区町村)」「趣味」「職業」「キーワード」「写真」

    mixi Engineers’ Blog » かんたん友人検索 その壱
    toruto
    toruto 2008/08/19
    検索操作を行っている人となるべく共通点が多い人を優先的に表示するのが妥当だと考えられます。/マイミクシィのつながりを解析して/
  • Introduction to Information Retrieval 輪講第7回 : no hacking, no life

    たつをさんが主催するIIR輪講の第7回に参加してきました。 (今回が初参加。誘って頂きありがとうございます!) 最初に、恒例(らしい)のnaoyaさんからの前回の復習がありました。 「転置インデックスの圧縮は、Termを保存する辞書と、Termの出現位置を保存するPostingの両方が圧縮対象で、それぞれ・・・(省略)などの方法があります」という話で、すごいわかりやすい説明だったので、これだけでもとてもためになりました。拙作のLuxではインデックスの圧縮はまだ実装していないので、5章を見ていろいろやってみようと思います。postingsに関しては、variable byte encodedが圧縮率や実装のしやすさの面でよさそうな感じがしました。 その後、題の6章の「Scoring, term weighting and the vector space model」について担当の能登

  • MapReduce - naoyaのはてなダイアリー

    "MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること

    MapReduce - naoyaのはてなダイアリー
  • 連載:検索エンジンを作る|gihyo.jp … 技術評論社

    運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。

    連載:検索エンジンを作る|gihyo.jp … 技術評論社
  • 株式会社ブログウォッチャー

    スマートフォン向け位置情報データサービス。独自開発SDKによりスマートフォンの位置情報データを保有。広告・プッシュ通知・分析などの様々なソリューションを提供。

    株式会社ブログウォッチャー
  • NEC、利用者の意図を推定して効率的に検索する技術を開発

    NECは4月6日、利用者が情報検索時にシステムから提示される検索ルールの中から、検索時の意図に近いものを選択することにより、検索結果を効率的に抽出する技術を開発したと発表した。 この技術は、(1)日語の文書を自動解析し、単語に人名・地名・商品名などの属性を自動的に付与して構造化した文書データに変換する技術と、(2)構造化した文書データに対して、システムが作成した抽出ルールを適用し、ルールに該当する部分を文書から取り出す技術、(3)利用者の簡単な指示から抽出ルールを絞り込み、利用者の意図を推定して最終的な抽出ルールを作り出す技術――の3つをもとに開発された。 これにより、たとえば「新製品」の「発売」に関する検索などといった単語の使われ方を特定した検索や、あるいは、「歯磨き粉」「口臭消臭剤」「デンタルフロス」といった「オーラルケア製品」の一括検索のような、その単語の上位概念も含めた包括的な検

    NEC、利用者の意図を推定して効率的に検索する技術を開発
  • 1