[B! 説明][search] torutoのブックマーク

toruto id:toruto

説明とsearchに関するtorutoのブックマーク (11)

テキストからの評判分析と機械学習
テキストからの評判分析と機械学習鍜治伸裕東京大学生産技術研究所講演の前に • 想定している聴衆 – 評判分析について専門的なことを知らない – 機械学習（ML）の素養を持っている • 講演の内容 – 評判分析という分野の解説 – 評判分析における ML の適用事例の紹介 • お断り – 自然言語処理(NLP)の話に特化 – ML を使っている論文を私の好みで選んで紹介評判分析を概観する評判分析はこんな技術 • 例： Yahoo!ブログ検索における「VAIO」の検索結果肯定的評判と否定的評判の書き込み数を集計して表示肯定的な書き込みと否定的な書き込みを分類して提示背景: CGMの出現 • CGM – Consumer Generated Media のこと – 例えば Amazon に投稿されたレビューやブログなど – 一般人が作成，発信するコンテンツである点がポイン
toruto 2009/05/20
機械学習

search

資料

説明

自然言語処理

algorithm
リンク
Web spam Identification Through Content and Hyperlinks - 日々の勉強の航跡
J. Abernethy, O. Chapelle, C. Castillo Web spam Identification Through Content and Hyperlinks In Proceedings of Fourth International Workshop on Adversarial Information Retrieval on the Web 2008. Apr. 論文の在処概要いろいろなページのfeaturesを全部利用して、それぞれに重みを付けてWeb spamを発見しようと言うアイディア。重みを付ける方法をSVM-likeな方法で学習する。 SVM＋グラフのリンク構造＋スラック変数。結果はかなり良いみたい。Web Spam ChallengeのTrack 穸のAUCでは一番だったらしい。 1. INTRODUCTION 不当やり方でいくつかの
toruto 2008/12/18
web

search

論文

説明
リンク
Home
Each year, the Pulitzer Prize award is given to those in newspaper, magazine, online journalism, literature, and musical composition for their achievements. This year, for 2024, amongst the 45 journalists who have been selected as finalists, five people’s entries are AI-powered. While the extent of the use of artificial intelligence in their submissions isn’t yet…
toruto 2008/12/14
personalize

recommendation

search

読み物

説明
リンク
The IDF(inverse document frequency) page
Professor Emeritus Professor Stephen Robertson Department of Library and Information Science My current em ail address is not too hard to find, but I may also be contacted through LinkedIn. I'm now retired from paid work, but I am still a visiting Professor at University College London, Department of Computer Science. I spent 15 years, from 1998 to 2013, as a researcher at the Microsoft Research La
toruto 2008/09/04
research

検索

search

説明

資料
リンク
検索メイニアック！: tf-idf (ティーエフ・アイディーエフ)とKaren
情報検索入門シリーズ。 "Maniac"という英単語は、あえてカタカナで書くならマニアックではなくメイニアックである。そういうわけでこのブログのタイトルは「検索メイニアック」である。さて、マニアックとメイニアックはどちらが一般的に使われる語だろうか？「マニアック」のウェブ検索結果「メイニアック」のウェブ検索結果ということでマニアックの「ヒット数」のほうが圧倒的に多い。この「ヒット数」のことを文書頻度(document frequency)という。略してdf。「メイニアック」のようにdfの低い語のほうが、一般にはクエリターム(検索キーワード)として有用である。つまり欲しい文書(個々の検索対象。例えば単一のウェブページ)を特定するのにより役立つ。例えば、「検索」と「メイニアック」という2つのクエリタームで検索を行いたい場合、「検索」のウェブ検索結果を見
toruto 2008/09/04
「idfの概念を発明したのが私の英ケンブリッジ大学時代の恩師Karen Sparck Jonesであるということ。」と言う話。

search

検索

説明

読み物
リンク
mixi Engineers’ Blog » かんたん友人検索その壱
朝7時30分に起きて駒沢公園をジョギングすること10日目のmikioです。だいぶ体が軽くなってきて、そろそろ体型にも変化が出てくるかなと期待する毎日です。さて、以前の記事で予告した通り、Tokyo Dystopiaを使ったmixi内の検索機能をインディーズ機能としてリリースしました。「かんたん友人検索」という名のとおり、mixiの登録ユーザを対象として友人や知人を簡単に検索する機能です。操作を簡潔にしながらも、マイミクシィのつながりなどを使って検索精度を高めているのが特徴です。シンプルにした見た目として最も大きな特徴は、従来の友人検索よりも入力フィールドの数を減らしたことです。従来では「姓」「名」「ニックネーム」「性別」「年齢（下限）」「年齢（上限）」「血液型」「現住所（都道府県）」「現住所（市区町村）」「出身地（都道府県）」「出身地（市区町村）」「趣味」「職業」「キーワード」「写真」
toruto 2008/08/19
検索操作を行っている人となるべく共通点が多い人を優先的に表示するのが妥当だと考えられます。/マイミクシィのつながりを解析して/

mixi

search

記事

説明

読み物
リンク
Introduction to Information Retrieval 輪講第7回 : no hacking, no life
たつをさんが主催するIIR輪講の第7回に参加してきました。 (今回が初参加。誘って頂きありがとうございます！) 最初に、恒例（らしい）のnaoyaさんからの前回の復習がありました。「転置インデックスの圧縮は、Termを保存する辞書と、Termの出現位置を保存するPostingの両方が圧縮対象で、それぞれ・・・(省略)などの方法があります」という話で、すごいわかりやすい説明だったので、これだけでもとてもためになりました。拙作のLuxではインデックスの圧縮はまだ実装していないので、5章を見ていろいろやってみようと思います。postingsに関しては、variable byte encodedが圧縮率や実装のしやすさの面でよさそうな感じがしました。その後、本題の6章の「Scoring, term weighting and the vector space model」について担当の能登
toruto 2008/05/19
search

検索

説明

資料
リンク
MapReduce - naoyaのはてなダイアリー
"MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること
toruto 2008/05/12
google

search

programming

perl

algorithm

説明

資料
リンク
連載：検索エンジンを作る｜gihyo.jp … 技術評論社
運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。
toruto 2008/04/26
自然言語処理

検索

algorithm

programming

search

web

資料

説明
リンク
株式会社ブログウォッチャー
スマートフォン向け位置情報データサービス。独自開発SDKによりスマートフォンの位置情報データを保有。広告・プッシュ通知・分析などの様々なソリューションを提供。
toruto 2007/10/17
奥村研

データマイニング

説明

search
リンク
NEC、利用者の意図を推定して効率的に検索する技術を開発
NECは4月6日、利用者が情報検索時にシステムから提示される検索ルールの中から、検索時の意図に近いものを選択することにより、検索結果を効率的に抽出する技術を開発したと発表した。この技術は、（1）日本語の文書を自動解析し、単語に人名・地名・商品名などの属性を自動的に付与して構造化した文書データに変換する技術と、（2）構造化した文書データに対して、システムが作成した抽出ルールを適用し、ルールに該当する部分を文書から取り出す技術、（3）利用者の簡単な指示から抽出ルールを絞り込み、利用者の意図を推定して最終的な抽出ルールを作り出す技術――の3つをもとに開発された。これにより、たとえば「新製品」の「発売」に関する検索などといった単語の使われ方を特定した検索や、あるいは、「歯磨き粉」「口臭消臭剤」「デンタルフロス」といった「オーラルケア製品」の一括検索のような、その単語の上位概念も含めた包括的な検
toruto 2007/04/07
search

検索

説明

読み物
リンク
1