We are often interested in finding users, hashtags and ads that are very similar to one another, so they may be recommended and shown to users and advertisers. To do this, we must consider many pairs of items, and evaluate how “similar” they are to one another. We call this the “all-pairs similarity” problem, sometimes known as a “similarity join.” We have developed a new efficient algorithm to so
Read it now on the O’Reilly learning platform with a 10-day free trial. O’Reilly members get unlimited access to books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers. If you are ready to dive into the MapReduce framework for processing large datasets, this practical book takes you step by step through the algorithms and tools you need to build distr
いろいろとありまして去年読んだ論文で面白かったものランキングとか書けなかったのが残念ですが、もしあげるとしたら次の論文は入れると思います(知ったのは年明けだったけど)。 "Space-Efficient Framework for Top-k String Retrieval Problems", FOCS 2009, Wing Kai Hon, Rahul Shah and Jeffrey Scott Vitter (pdf) 扱っているのは次のような問題です(説明のため本来のと言い換えています) n個の葉からなる木が入力として与えられ,各葉には色(1以上d以下の整数とします)が与えられています. この時、木中の任意の節点と正整数kがクエリとして与えられたときに、その節点の子孫の中で出現回数が大きい色を順にk個答えよという問題です。 簡単に思いつくのは,各節点に適当な個数(d)の答えをあ
Two sentences are tokenized and encoded by a BERT model. The first sentence describes two kids playing with a green crocodile float in a swimming pool. The second sentence describes two kids pushing an inflatable crocodile around in a pool. The tokenized sentences are passed through the BERT model, which outputs the encoded representations of the token sequences.
http://labs.spotify.com/2014/02/28/how-to-shuffle-songs/ 1 comment | 0 points | by WazanovaNews ■ comment by Jshiike | 約4時間前 SpotifyのLukáš Poláčekがプレイリストをシャッフルするロジックを改善した取り組みを紹介しています。 以前のロジック ランダムアルゴリズムには、Fisher-Yates shuffleを利用。 順次再生する曲を選ぶロジック同士には依存関係がなく、完全にランダムに選択される。よって、同じアーティストとの曲が連続して再生されることも可能性としてはある。 これはギャンブラーの誤謬と呼ばれる現象。例えば、コイントスで表が連続してでると、次は裏が出ると思いがちであるが、常に確率は1/2である。従前の結果が次の結果に影響を与えると考えてし
MS&E 317: Algorithms for Modern Data Models Spring 2014, Stanford University Mon, Wed 2:15 PM - 3:30 PM at Meyer 143 Instructors: Ashish Goel | Reza Zadeh We traditionally think of algorithms as running on data available in a single location, typically main memory. In many modern applications including web analytics, search and data mining, computational biology, finance, and scientific computing,
At Spool, we calculate our key metrics in real time. Traditionally, metrics are performed by a batch job (running hourly, daily, etc.). Redis backed bitmaps allow us to perform such calculations in realtime and are extremely space efficient. In a simulation of 128 million users, a typical metric such as “daily unique users” takes less than 50 ms on a MacBook Pro and only takes 16 MB of memory. Spo
MapReduce is a programming model for processing large data sets, typically used to do distributed computing on clusters of commodity computers. With large amount of processing power at hand, it’s very tempting to solve problems by brute force. However, we often combine clever sampling techniques with the power of MapReduce to extend its utility. Consider the problem of finding all pairs of similar
Professor of Computer Science and member of the Data Science Institute at Columbia University. Head of Research at a16z crypto. Research interests: Design, analysis, applications, and limitations of algorithms. Game theory and microeconomics, especially as applied to networks, auctions, and blockchains/web3. Address: Department of Computer Science Columbia University 500 West 120th Street, Room 45
Machine Learning Advent Calendar向けの記事です。 普段はGunosyという会社で社長業をしながら社長をしています。 ざっくりいうと 結論だけ知りたい人はここだけ 広告における機械学習の応用の多くはCTR予測や運用の最適化のため(クエリー予測とか)の予測問題 今後は「CVRの予測」や「アクティブなユーザーの予測」がホットな話題になる(加えてその運用をどう最適化するかといった話題も) 現在は検索エンジンの応用例が多い。今後はディスプレイ広告やタイムライン広告への応用が増えていく 個人のユーザー属性を集めることが今まで以上にメディアのビジネス的に重要になる 広告や推薦エンジンに限らずドメイン知識は非常に重要。ドメイン知識と機械学習の知識を持ったエンジニアが意思決定に携わる会社は今後大きくのびる(と思う) 広告について 最近はもっぱら広告の開発をしており、広告分野で
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く