タグ

ブックマーク / komachi.hatenablog.com (11)

  • 10年後の全文検索エンジン - 武蔵野日記

    朝はかぼちゃフレークをべさせてみる。予想通りいつきがよい。あとはこれをおかゆに混ぜてべさせたときの反応だろうか。 先日のDSIRNLP勉強会がきっかけで、[twitter:@feeblefakie] さんから『検索エンジン自作入門』をいただく。ありがたい。 検索エンジン自作入門?手を動かしながら見渡す検索の舞台裏 作者: 山田浩之,末永匡出版社/メーカー: 技術評論社発売日: 2014/09/25メディア: Kindle版この商品を含むブログ (1件) を見るの内容を紹介されていたときも、「検索エンジンと言いながらもほぼ丸一冊転置インデックスについて説明しているで、ここまで転置インデックスについて丁寧に説明したはないと思う」とおっしゃっていた通り、非常に詳しく転置インデックスについて書かれている。 こういうについてくる擬似コードは、「擬似」コードなのに既に書ける人でないと理解

    10年後の全文検索エンジン - 武蔵野日記
  • 研究の新規性と独創性 - 武蔵野日記

    id:ny23 さんの 機械学習×MapReduceが参考になる。 自分の中で一昨年から今年の春くらいまで、自然言語処理アルゴリズムを並列分散化するというテーマがブームだったが、夏休みを経てだいぶ熱が薄れてしまった。上記エントリでもまとめられているように、大規模データで回したければ単純にデータを分割して各繰り返しごとに平均化すればよいという話が実用上は使い勝手がよいだろうし、実データでは学習より素性抽出のほうが遥かに遅かったりするので学習の重さはあまり関係なかったり (ny23 さんも書かれているように、そこも並列化しないといけない)。 あと、@kashi_pong さんの研究に対するスタンスとも通じるところがあるが、追記部分に激しく同意。 これだけ色々な学会で発表されるほど流行るとフォローするのも大変だろうな.個人的には,人がわんさか集まってるトピックだと,自分がちょっと考えて思いつくよ

    研究の新規性と独創性 - 武蔵野日記
  • TOEFL iBT は会場を慎重に選ぶべき - 武蔵野日記

    に付き合って TOEFL iBT を受験する。昔 TOEFL は紙ベースの試験だったらしいのだが、自分が初めて受けた2002年当時はすでにコンピュータベースの試験(CBT)になっていて、最後に受けた2005年以降インターネットベースの試験(iBT)になっていたのであった。iBT といっても試験会場まで行かないといけないし、前のように平日も含めいつでも受けられるようになっていないので、サービス後退した気がする。 iBT の目玉はライティングとスピーキングで、これまで TOEFL では選択式の読解問題とリスニングと筆記試験だけだったのだが、筆記試験が拡充された(これまでは1問だったのが2問に)のと、以前は存在しなかった喋る試験が導入されたことが大きく違う。 新しい試験になって受けたのは初めてなのだが、CBT のときは260点だか270点だか取れていたのでなめていたら、読解問題で時間が足りない

    TOEFL iBT は会場を慎重に選ぶべき - 武蔵野日記
  • 博士で身につけるべき研究力とは穴埋め問題の作成能力 - 武蔵野日記

    研究室生活 基礎文法最速マスターでも、著名な id:next49 さんの 発声練習 と並んで取り上げられて恐縮しているが、そういうわけで少し研究に関するエントリを書いてみる (笑) 理系のための「即効!」卒業論文術―この通りに書けば卒論ができあがる (ブルーバックス) 作者: 中田亨出版社/メーカー: 講談社発売日: 2010/01/21メディア: 新書購入: 10人 クリック: 78回この商品を含むブログ (12件) を見る を読んでみた。これはやればできる卒業論文の書き方をまとめたものらしいが、ぶっちゃけ web で公開されているもののほうが、卒論の書き方の指南書としてはおもしろい。しかしながら、こちらののほうは、卒論を書くということ以外の話が充実しているので、それはそれで読む価値あると思う(とくに博士に進むか迷っている人とか)。あと、上記のページには「エンジニア・職業研究者をめざす

    博士で身につけるべき研究力とは穴埋め問題の作成能力 - 武蔵野日記
  • NAIST 自然言語処理学講座的大学院時代の過ごし方 - 武蔵野日記

    研究室に行って id:smly くんに(昨日聞かれた)プロジェクト実習の追加の話をしたりなど。そうこうしていると、ご飯一緒に行きませんか、と言われたので shirayuくん、junta-m くんの4人で回転寿司をべに行く。 NAIST で出会いはありますかという話もあったりしながら(自分の答えとしては、外に出た方が見つかりますよ、というものだけど(笑))、大学院生活どう過ごしたらいいのかという話が出たので、ここでも再掲しておく。一応 NAIST の自然言語処理学講座、つまり松研ならこんな感じかな?というガイドラインなので、NAIST でも他の分野のことは知らない(分野によって研究スタイルはかなり異なる)し、自然言語処理でも他の大学はどうか分からない(東大とか京大とかと比べると、文系出身者が1-2割いるということに加え、分野外から来る人が過半数というのは大きな特徴だと思う)ので、この話を

    NAIST 自然言語処理学講座的大学院時代の過ごし方 - 武蔵野日記
  • ウェブ系の研究をするなら Microsoft に行くべき - 武蔵野日記

    SIGIR 2009 の採択論文が発表されていたようだ。SIGIR というのは情報検索に関する世界で一番権威ある国際会議で、情報系の国際会議ランキングでもトップ10にランクインしている。その採択数が一番多いのは Microsoft、二番目が Yahoo! 次いで Google (でも3だけ)という結果に。 なぜ採択数(率)が問題になるかというと、情報系の国際会議というのは最新の研究成果を発表する場であり、投稿された論文に2人以上の査読者がついて各項目について点数をつけ、一定点数以上のものだけを採択するので、国際会議のランクに応じてそれなりのクオリティの論文が書けないとそもそも通らないし、1人で書ける論文の量にも限界があるので大量に通せる研究機関は研究者の層も厚いことが分かるからである。 上記リンク先でも書いてあるが再度引用すると、 38% of the papers have at le

    ウェブ系の研究をするなら Microsoft に行くべき - 武蔵野日記
    mogwaing
    mogwaing 2009/04/28
    Microsoftの研究成果って多くの人に届いてるのかな?特にmsn
  • 教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記

    今日は daiti-m さんの教師なし単語分割話と id:nokuno さんの Social IME 話を聞きに行くため、仕事を午前中で終えて一路郷へ。第190回自然言語処理研究会(通称 NL 研、えぬえるけんと発音する)。六木から大江戸線で麻布十番、南北線に乗り換えて東大前で降りたのだが、ちょっと失敗して10分以上 Social IME の話を聞き逃してしまう。残念。 というわけで最初の発表については nokuno さん自身による発表スライドおよびshimpei-m くんのコメントを見てくれたほうがいいと思うが、個人的に思うのは(直接も言ったけど)研究発表とするならポイントを絞ったほうがいいんじゃないかなと。 研究の背景と目的 従来手法の問題点を指摘 それらを解決できる手法を提案(3つ) までは非常にいいのだが、そこから先がそのうちの1つしか説明・評価していないので、ちょっと述べてい

    教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記
  • Google の PageRank に関する参考書 - 武蔵野日記

    今日は理論的な話をするのではなく、単なる参考書についてのポインタ。今週時間取って Google's Pagerank and Beyond: The Science of Search Engine Rankings 作者: Amy N. Langville,Carl D. Meyer出版社/メーカー: Princeton Univ Pr発売日: 2006/07/03メディア: ハードカバー購入: 6人 クリック: 50回この商品を含むブログ (11件) を見る をちゃんと読んでいるのだが、なかなかこのはよい。そんなに分厚くないのだが、理論的な話と実装の話がバランス取れていて、ときどき入っている小話(中国の検索がどうだとか、Google が株式公開したときの Dutch Auction はどうだとか)もおもしろいGoogle's PageRank と書いてはいるが、Kleinberg

    Google の PageRank に関する参考書 - 武蔵野日記
  • 最大マージン kNN と SVM の関係: kNN も最近はがんばっています - 武蔵野日記

    先日書いた機械学習における距離学習の続き。 kNN (k-nearest neighbour: k 近傍法)は Wikipedia のエントリにも書いてある通り、教師あり学習の一つで、あるインスタンスのラベルを周辺 k 個のラベルから推定する手法。memory-based learning と呼ばれることもある。単純に多数決を取る場合もあれば(同点を解決する必要があるが)、近いインスタンスの重みを大きくする場合もあるのだが、いずれにせよかなり実装は単純なので、他の機械学習との比較(ベースライン)として使われることも多い。 簡単なアルゴリズムではあるが、1-NN の場合このアルゴリズムの誤り率はベイズ誤り率(達成可能な最小誤り率)の2倍以下となることが示されたり、理論的にもそれなりにクリアになってきているのではないかと思う。また、多クラス分類がちょっと一手間な SVM (pairwise に

  • 大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記

    id:naoya さんのLatent Semantic Indexing の記事に触発されて、ここ1週間ほどちょくちょく見ている行列の近似計算手法について書いてみる。ここでやりたいのは単語-文書行列(どの単語がどの文書に出てきたかの共起行列)や購入者-アイテム行列(どの人がどのを買ったかとか、推薦エンジンで使う行列)、ページ-リンク行列(どのページからどのページにリンクが出ているか、もしくはリンクをもらっているか。PageRank などページのランキングの計算に使う)、といったような行列を計算するとき、大規模行列だと計算量・記憶スペースともに膨大なので、事前にある程度計算しておけるのであれば、できるだけ小さくしておきたい(そして可能ならば精度も上げたい)、という手法である。 行列の圧縮には元の行列を A (m行n列)とすると A = USV^T というように3つに分解することが多いが、も

    大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記
  • ブートストラップによるパターン抽出 - 武蔵野日記

    午後は情報検索に関するトーク。shima さんたちのチームの話が気になったのでメモ。 Ni Lao, Hideki Shima, Teruko Mitamura and Eric Nyberg. Query Expansion and Machine Translation for Robust Cross-Lingual Information Retrieval. NTCIR-7. 2008. この論文、言語横断検索のためにいろいろなことをやっているのだが、自分が気になったのはクエリ展開(query expansion)の部分。クエリ展開とはたとえば「カーネギーメロン大学」と「CMU」が同義語であった場合、「カーネギーメロン大学」と入れて「CMU」のページも検索してくれると嬉しいよね、という話で、それを自動的に展開してあげましょう、という内容なのだが、この同義語・言い換えをどう見つける

    ブートストラップによるパターン抽出 - 武蔵野日記
    mogwaing
    mogwaing 2009/01/21
    query expansion
  • 1