タグ

thesisに関するuchiuchiyamaのブックマーク (147)

  • 検索メイニアック!: 地図ではないMAP

    情報検索入門シリーズ。 情報検索の研究をやっている人で、MAPと聞いて地図を思い浮かべるひとはあまりいないだろう。 検索メイニアックにとってMAPとは、現在最も広く使われている情報検索評価指標、Mean Average Precisionを意味する。 再現率と精度のトレードオフについては再現率と精度のエントリおよびhobokingさんへのお返事で述べた。 Average Precisionは再現率と精度を統合した評価指標で、順位つき検索結果の評価に適している。 (ところで最近、検索結果の順位を明示しない検索エンジンがあるが、 個人的には潔く順位くらいは示してくれたほうが使い勝手がいいと思う。) 検索結果の上位から順番に、文書(例えばwebページ)が正解であるかそうでないか調べていく。 そして、正解を見つけるたびに精度を計算する。 例えば、1位が不正解、2位が正解である場合、2

  • 検索メイニアック!: 再現率と精度とSwanson

    情報検索入門シリーズ。 検索システムを評価する際の古典的な評価尺度に再現率(recall)と精度(precision)がある。 再現率とは検索における「もれ」の少なさを、精度は検索における「ごみ」の少なさを意味する。 「もれ」とは、来検索すべきであるのに検索できなかった文書(webページ、新聞記事、画像など、検索の単位となるもの)、 「ごみ」とは、来検索すべきでないのに検索してしまった文書のことである。 再現率=検索された正解文書数/正解文書数 精度=検索された正解文書数/検索された文書数 例えばある検索要求に対し、来検索されるべき文書(すなわち正解)が10件あり、 実際検索された全文書数は20件で、うち5件だけが正解(適合文書=relevant documentsという)であったとする。 この場合、再現率は10件中5件なので0.5、精度は20件中5件なので0.25。

  • フレッシュアイニュース - (404) ページがありません

    お探しのページが見つかりません(404 Not found) フレッシュアイをご利用いただき、ありがとうございます。 お客様がアクセスしようとしたページ(URL)またはサービスは見つかりませんでした。 トップページに移動して必要な情報をお探し下さい。 10秒後にトップページに移動します。 移動しない場合は、お手数ですが下記URLをクリックしてください。 http://www.fresheye.com/

  • 検索メイニアック!: 情報検索のポエム

  • リコメンドの裏側 : LINE Corporation ディレクターブログ

    『livedoor グルメ』の根岸です。今日はlivedoor グルメにも実装されている「リコメンド(=お勧め)」機能の話です。 マクドナルドの「ご一緒にポテトもいかがですか?」という店員の接客コメントは、誰もが知っている典型的な決まり文句ですよね。でも、誰にでもポテトをオススメするのは、芸がない。「俺はイモが嫌いなんだ!」っていう人だって絶対にいます。 インターネットでOne-to-Oneマーケティングの時代になると、ユーザーの動向を分析し、各ユーザーごとに興味を持ちそうな商品を予想して、お勧めするようになりました。たとえば、『Amazon』にログインして「マイストア」を選ぶと、それまでの購買履歴をもとにお勧め商品がリストアップされます。 僕のマイストアだと、 『笑う大天使(ミカエル)』 『ウォーターボーイズ』 『リンダリンダリンダ』 などのDVDが、リストアップされています。上記はいず

    リコメンドの裏側 : LINE Corporation ディレクターブログ
  • 論文の差し替えをお願いしてはいけない理由 - アルゴリズムマニア2.0

    ■論文の差し替えをお願いしてはいけない理由 初めて予稿集作りなるものを体験した。 けっこうしんどい。 やることはPDFにした論文を集めて、 目次等、ヘッダーフッターをつけて、結合するだけなのだけれど、 結合の時の順番や、フッターの文字や目次につけるページ番号など、 ミスするポイントがいくつもあるため、神経が擦り減る。 だから、PDFを結合した後に、「差し替えお願いします」なんて来るものなら、 「なめんな、ゴルァー」ということになるので、差し替えはあまりしない方が良いだろう。 といっても、「どーせ、3日間くらいは差し替え合戦だろうなぁー」という目論見もあるので、 3日以内なら許容してもらえるとは思う。 いずれにせよ、時間を守ることは大人のマナーだから、 差し替えがよろしくないのは言うまでもない。 だけれど、論文が締切前に徹夜にて完成することも多々あるわけで・・・ まあ、常日頃からマナーを守る

  • 検索メイニアック!: tf-idf (ティーエフ・アイディーエフ)とKaren

    情報検索入門シリーズ。 "Maniac"という英単語は、あえてカタカナで書くならマニアックではなくメイニアックである。 そういうわけでこのブログのタイトルは「検索メイニアック」である。 さて、マニアックとメイニアックはどちらが一般的に使われる語だろうか? 「マニアック」のウェブ検索結果 「メイニアック」のウェブ検索結果 ということでマニアックの「ヒット数」のほうが圧倒的に多い。 この「ヒット数」のことを文書頻度(document frequency)という。略してdf。 「メイニアック」のようにdfの低い語のほうが、一般にはクエリターム(検索キーワード)として有用である。 つまり欲しい文書(個々の検索対象。例えば単一のウェブページ)を特定するのにより役立つ。 例えば、「検索」と「メイニアック」という2つのクエリタームで検索を行いたい場合、 「検索」のウェブ検索結果 を見

  • The IDF(inverse document frequency) page

    Professor Emeritus Professor Stephen Robertson Department of Library and Information Science My current email address is not too hard to find, but I may also be contacted through LinkedIn. I'm now retired from paid work, but I am still a visiting Professor at University College London, Department of Computer Science. I spent 15 years, from 1998 to 2013, as a researcher at the Microsoft Research La

  • Alternatives to Bpref

    Alternatives to Bpref Tetsuya Sakai NewsWatch, Inc. Official Japanese blog at FreshEye: http://voice.fresheye.com/sakai/ ACM SIGIR 2007 / July 24 / Amsterdam NewsWatch and FreshEye • 1996: Toshiba launches NewsWatch, Inc.  (Japanese news clipping service) • 1998: Toshiba launches FreshEye, Inc.        (Japanese Web search engine) • 2002: NewsWatch and FreshEye are merged • 2006: Yahoo! JAPAN ac

  • 検索メイニアック!: 50年前の情報検索の論文

    情報検索入門シリーズ。 検索のための文書のスコア付け手法として最も基的なtf-idfの、 idf(inverse document frequency)の部分の考案者がKaren Sparck Jonesであることについては 以前述べた。ではtf(term frequency)の考案者は? 答えはベクトル空間モデルの発明者Gerard Salton、ではなくて、H.P. Luhnだろう。 ちょうど半世紀前に書かれた文献[1]にこんな文が出てくる。 There is also the probability that the more frequently a notion and combination of notions occur, the more importance the author attaches to them as reflecting the essen

  • Amazon.co.jp: 日本語練習帳 (岩波新書 新赤版 596): 大野晋: 本

    Amazon.co.jp: 日本語練習帳 (岩波新書 新赤版 596): 大野晋: 本
  • 理科系の作文技術 - 木下 是雄

    理科系の作文技術 - 木下 是雄
  • (高速な)Wikipediaのオフラインリーダーを構築する - YAMDAS現更新履歴

    Building a (fast) Wikipedia offline reader 確かに Wikipedia のオフラインリーダーってあると便利だよなと思うのだが、これを実現するには、単に Wikipedia のレプリカだけでは不十分で、検索もできないといけない。 この高速な検索を実現する Wikipedia オフラインリーダーを Thanassis Tsiodras という人が作っている。彼は最後に以下のように書いている。 追伸:オープンソースの世界ってすごくね? 僕はこれを二日で作れたし、その大半は適当なツールを探すのに費やしたんだ。マジ信じらんない……これらのツールをいじくり回し、200行にも満たないコードを書いただけで……あっという間! ネタ元はやはり Slashdot。

    (高速な)Wikipediaのオフラインリーダーを構築する - YAMDAS現更新履歴
  • ポストSVM候補 - アルゴリズムマニア2.0

    電子情報通信学会情報・システムソサイエティ誌第12巻第2号超平面のオンライン学習における近年の展開畑埜 晃平より超平面の学習と言えば、PerceptronやSVMが代表的ですが、Perceptronと並ぶ基アルゴリズムにWinnowというのがあるそうです。で、PerceptronとWinnowの中間にp-norm Perceptronというのがあるそうです。このp-normPにはBregmanダイバージェンスという概念が登場するみたいです。このBregmanDはユークリッド距離やKLダイバージェンスの一般化らしいです。p-NormPの拡張にALMAがあるそうです。ALMAはp-normマージン最大超平面の近似解を計算できるそうです。SVMは2次計画を解く必用がありますが、これに対してALMAは計算量のアドバンテージがあるみたいです。以下、ALMAの文献。O. L. Mangasarian

  • livedoor Techブログ : 好きなガンダムのセリフ,何ですか ?

    こんにちは。検索グループ解析チームの nabokov7 です。 今回は、ライブドアLislogというサービスのデータをちょっと拝借して、「クラスタリング」という解析手法を紹介したいと思います。 ちなみにこの Lislog というサービスは,ぱっと見ただの投票サービスのようですが (実際そういう使い方もできるんですが),ユーザ一人一人がどれかひとつのアイテムに投票するのではなく,各ユーザが自分なりの「俺的○○ベスト10」や「俺的○○の10のリスト」などを公開・共有し,その結果「全体の人気ランキング」が集計される,という点で通常の投票サイトとは少し違っています。 (従って,リスログの「全体のランキング」とはただの投票数ランキングではなく,「より多くのユーザのリストで高いランクになったアイテムほど,全体のランキングでも上位になる」というアルゴリズムになっています。) ここへクラスタリングを導入す

  • Mac OSXを使ってHTML2PDF·wkpdf MOONGIFT

    URL先の情報を取得して、その結果を画像にするようなサービスは数多い。サイトに貼り付けたりする際のツールとして利用している人も数多いだろう。 今回はちょっと趣向を変えて、HTMLPDFに展開する技術だ。Mac OSXでならそれも手軽に行える。 今回紹介するオープンソース・ソフトウェアはwkpdfHTMLPDFに変換するコマンドラインツールだ。 Mac OSXとあって、レンダリングエンジンにはWebKitを採用している。そしてターミナル上でレンダリングしたいURLまたはHTMLファイルを指定して、出力先ファイルを設定すればPDFファイルが出力される仕組みだ。 A4横向きの出力や、背景画像を印刷する、しないといった設定も行える。画面の大きさが変えられないのが残念だが、それでも手軽にキャプチャできるのは便利だ。 サイトのキャプチャデータを必要とするケースは多い。Mac OSXがあれば、PD

    Mac OSXを使ってHTML2PDF·wkpdf MOONGIFT
  • Weka: Data Mining Software in Java

    Wekaというものを使ってみた。存在は1年以上前から知っていたが、機械学習アルゴリズムのJavaによる「ライブラリ」だと思っていた。しばらくの間研究に必要なプログラムをC++またはRubyで書いていたので、Wekaに目を向けることはなかった。 いまBlog関連でやっている研究で、ある問題に文書分類アルゴリズムを使ってみようと思った。今回のテーマでは研究用プログラムをJavaで書いてみていて(書くの楽ちんだしね!)、C++のときに使っていたTinySVMや自作のNaiveBayes, AdaBoostライブラリの代わりになるものとして自然とWekaに目がいった。 Wekaをダウンロードして、ホームページに目を通すと、単なるライブラリではないことが分かる。たくさんの機械学習アルゴリズムが実装されており、それぞれのアルゴリズムは必要なパラメータを設定できるようになっている。さらに、たとえばスペー

  • 第7回 受動的インタフェース | WIRED VISION

    第7回 受動的インタフェース 2007年8月10日 IT コメント: トラックバック (0) テレビ画面でWebを楽しむ「ウェブテレビ」というものが注目されたことがありますが、全く流行せずに消えてしまいました。普及しなかった理由はいろいろあるでしょうが、そもそもパソコン上でブラウザを使うときは、前かがみな姿勢で能動的に面白い情報を捜すスタイルが普通なのに対し、テレビというものはソファーにのけぞったり床に寝転がったり、余裕の体勢で受動的に利用するのが普通ですから、両者を同じ機械で扱うというのはそもそも無理があったような気がします。 パソコン上でも何もかも能動的に操作をするのが良いわけではありません。プログラムを起動して時刻を知るよりも画面のどこかに時計を表示しておく方が楽ちんですし、最近は「Widget」を使って天気やニュースなど画面に様々な情報を常に表示させている人もいます。こういう便利系

  • 私のブックマーク: 情報検索

    古くはデータベース研究の一分野で扱われていた情報検索だが、 WWWの普及にともなって近年多くの分野から注目を集めている。 研究の方向としては、検索の対象を多言語の文書や画像・音声に広げるという方向と、 文書を「索引語の集合によって特徴付けられたアトミックな対象」としてとらえる“古典的な”見方自体を修正・拡張するという方向の二つの軸に分解できるように思う。 後者は、文書の言語的特徴や、ユーザの状況や文書間の参照関係といった背景情報を検索にとり入れるものであり、 情報抽出や質問応答などへとつながってゆく。 著者の研究範囲が後者に偏っているので、ここで紹介する情報もそちらに偏っている。 また、情報検索や情報抽出およびその周辺情報に関しては学会誌2004年5月号の特集「WWW上の情報の知的アクセスのためのテキスト処理」や1999年1月号の第一回「私のブックマーク」などでもすでにとりあげられており

  • 自動ソーシャルブックマークサービスPathtraqは第二のGoogleになるか?:TKMR.blog.show

    サイボウズラボからリリースされたPathtraqに興味津々です。 http://pathtraq.com/ ざっくり言うと「アクセス解析&共有サービス」または「自動ソーシャルブックマークサービス」で、ユーザ(参加者)がFireFoxかIEの拡張をインストールして、日々アクセスしたWebサイトの履歴をPathtraqが保存・解析するサービス。 実際リリースの数日前に「ページ滞在時間に応じてdel.icio.usに自動postするGreasemonkeyスクリプト」なんて同じ方向性のアイデアが(別の場所から)生まれて来てる通り、これは出てくるべくして出てきたサービスな気がする。何故か「ついに来たか」と感じた。「気になったページをブックマーク」なんてかったるいこと言わずに、もう全部ページブックマークしようぜと。これは何処かGoogle的発想を感じる。フィルタリング/ランク付け/クラスタリングなん