タグ

ブックマーク / tech.preferred.jp (3)

  • MinHashによる高速な類似検索 - Preferred Networks Research & Development

    年が明けてもう一ヶ月経ちましたね.岡野原です. 今日はMinHashと呼ばれる手法を紹介します.これは特徴ベクトルの高速な類似検索に利用することができます(クローラーの文脈だとShingleとして知られている). 今や世の中のあらゆる種類のデータが,高次元のバイナリベクトルからなる特徴ベクトルで表されて処理されるようになってきました.例えば文書データであれば文書中に出現する単語やキーワードの出現情報を並べた単語空間ベクトル(Bag of Words)で表し,画像データも,SIFTをはじめとした局所特徴量を並べた特徴ベクトル(とそれをSkecth化したもの)として表せます.行動情報や時系列データも特徴量をうまく抽出する.グラフデータもFast subtree kernels[1]と呼ばれる方法で非常に効率的に特徴ベクトルに変換することができ,グラフの特徴をよく捉えることができるのが最近わかっ

    MinHashによる高速な類似検索 - Preferred Networks Research & Development
  • 技術を実用化する - Preferred Networks Research & Development

    論文の最後に「この技術はこれから様々な場面で役に立つだろう」と書いてあるのを読んだり、実際に書いた人がいると思います。研究者の視点からは「十年に一度のすごい発見が起きた」場面に出くわし、世の中にどのような影響を与えるのだろうと思うこともあります。しかし殆どの技術は世の中で活かされることはありません。なぜなら技術を実用化するには非常に多くの困難が必要とされるからです。 そもそも、殆どの技術は誕生したとしても人の頭に留まっています。ものすごくいい手法を思いついた、としてもそれを言語などで外在化させない限り、その技術がその人以上に世の中に広まることはありません。有名な例でBurrows-Wheeler変換という今のゲノムシーケンシングを支える技術はWheeler氏が「あまりにも当然である」ことから論文化していませんでした。Burrowsの勧めでこの技術はDECの社内報として発表され、現在のように

    技術を実用化する - Preferred Networks Research & Development
  • 専門知識の仕入れ方 - Preferred Networks Research & Development

    今日は,普段どのようにして専門知識を仕入れているかについて書いてみようと思います.特に自分が得意でない分野を知りたいと思った時に,どうするかに注目したいと思います.自分の専門の場合は,いくらでも時間を注ぐことが出来るので,世界中のリソースを全て探し当てて勉強すれば良いのですが,ちょっと興味が有るぐらいではそこまでやる時間は取れません.なので出来るだけ効率的に分かった気になるのが目標です. まず,論文を直接読むのはあまり効率的では無いと思います.論文は広い分野の中の或る問題に対して一つの解決方法を書いているだけで,分野全体を俯瞰することは目指していません.論文だけ読んで分野全体を理解するには,最低50ぐらい読む必要が有ると思います.

    専門知識の仕入れ方 - Preferred Networks Research & Development
  • 1