Greplinは、いわばソーシャルメディア趨勢時代のパーソナル検索エンジンと言えるだろう。DropboxやEvernoteに保存している各種情報を一括で検索することはもちろん、Twitterやfacebookのアカウントを登録しておけば、自分がフォロー(友達になって)しているユーザーの動向を検索できる。検索結果を得るのがとても高速である上、最新の投稿はリアルタイムでも更新されてくるので、少し使用しただけで手離せなくなってしまうだろう。 登録できるのは、TwitterやFacebook、Dropbox、Evernote以外にもGmail(Apps版もOKだが有料)やカレンダー、SNSのLikedIn、日本ではあまり馴染みないがSafesforceやYammr、Basecampなどにも対応。今後も続々と対応サービスが増える見込みだ。 より多くのソーシャルメディア&クラウドに対応するほど膨大な検
Well, after a couple of years at FTI, and some, ahem, self-funded gardening leave, I'm back to consulting---and to blogging! More from me soon. Tomorrow I'm starting a new, full-time position as data scientist at FTI's lab here in Melbourne. I'm excited to have the opportunity to contribute to the e-discovery community from another angle, as a builder-of-product. Unfortunately, this means the end
吉田です。最近ACM Symposium on Theory of Computing (STOC)という学会に投稿していた論文が受理されました。論文はECCCにアップロードしています。STOCは次回が43回目の開催となる理論計算機科学(要するにアルゴリズムと計算量を扱う分野)の中では最高峰の学会です。例えばCookが初めてNP完全性という概念を提唱したのもSTOCです。 今年は4年に一度のFederated Computing Research Conference (FCRC)というイベントがあり、STOCの他にもEC (ゲーム理論、オークションなど), CCC (計算量)、PODC, SPAA (共に分散/並列アルゴリズム)など18個の学会が同時開催されます。逆に言うと18個のうちのどれかに論文が受理されれば全体に参加出来るお得なイベントで(勿論お金さえ出せば参加は可能ですが)、僕も
年が明けてもう一ヶ月経ちましたね.岡野原です. 今日はMinHashと呼ばれる手法を紹介します.これは特徴ベクトルの高速な類似検索に利用することができます(クローラーの文脈だとShingleとして知られている). 今や世の中のあらゆる種類のデータが,高次元のバイナリベクトルからなる特徴ベクトルで表されて処理されるようになってきました.例えば文書データであれば文書中に出現する単語やキーワードの出現情報を並べた単語空間ベクトル(Bag of Words)で表し,画像データも,SIFTをはじめとした局所特徴量を並べた特徴ベクトル(とそれをSkecth化したもの)として表せます.行動情報や時系列データも特徴量をうまく抽出する.グラフデータもFast subtree kernels[1]と呼ばれる方法で非常に効率的に特徴ベクトルに変換することができ,グラフの特徴をよく捉えることができるのが最近わかっ
\(\mathcal{C} = (x \vee y \vee z) \wedge (\neg x \vee y \vee z) \wedge (y \vee \neg z \vee w)\). 上の例だと、例えば\(\alpha(x) = \mathrm{true}, \alpha(y) = \mathrm{true}, \alpha(z) = \mathrm{false}, \alpha(w) = \mathrm{false}\)とすれば全ての節を充足することが出来ます。 3SATはNP完全なので全てのNPに属す問題は3SATとして解けるのですが、そうでなくても多くの問題から”自然”に3SATが導出されます。なので3SATを解くアルゴリズムを考えましょう。一番自明なアルゴリズムは次のようになると思います。変数の数を\(n\)、節の数を\(m\)としましょう。
kinabaさんのブログの 「無限ビット列を作ったときに最初に "001" が並ぶインデックスの期待値は 8。では、"000" なら?」という問題に対して、マルチンゲールを使った解説をしてみます。 いま無限に生成されるビット列に対して次に何がでるかを賭けるギャンブルを考えます。配当はフェアな賭けで賭け金の2倍返しとします。ここで000が出現したら賭けは終了するとします。 このとき毎時刻ギャンブラーが1$持ってきてつぎのように賭けます。 1. はじめに0が出ることに賭けて、勝ったら次へ、そうでなければ終了 2. 再び0が出ることに前の儲け2$を全額賭ける、勝ったら次へ、そうでなければ終了 3. 再び0が出ることに前の儲け4$を全額賭ける、勝ったら000が出てるので賭け自体が終了、そうでなければ終了この話はたとえば010がでる期待値を考えるときは2.のところで0にではなく1に賭けることになりま
行単位のデータをカウントしてランキングする手順 2011-02-09-2 [Programming] 1行1件のテキストファイル形式のデータに対して、カウントしてランキングする方法は昔からこれ。ほとんどの環境に入っている sort と uniq と cat を使用。 sort FILENAME.txt | uniq -c | sort -nr | cat -n 以下のように alias しとくとよいかも (zsh)。 alias ranking='sort|uniq -c|sort -nr|cat -n' 実行例: perl -le 'for(1..100){print int(rand(5))}' | ranking 1 26 0 2 21 2 3 20 1 4 17 3 5 16 4 ls | cut -c1 | ranking 1 39 a 2 7 t 3 7 m 4 6 s 5 6
Google Chart API で Graphviz が使える!すごい! 2011-02-15-3 [WebTool][WebAPI] (統計情報のグラフではなく関係性の)グラフを簡単に画像表示する方法はないかなあといろいろ調べていたら、Google Chart API で Graphviz が使えるということを知りました。Graphviz ってローカル環境にインストールするため、WebAPI全盛の今となっては若干敷居が高く感じていたので、これは非常にありがたいです。 GraphViz Charts (Experimental) - Google Chart Tools / Image Charts (aka Chart API) - Google Code http://code.google.com/intl/ja/apis/chart/docs/gallery/graphviz.h
単語カードによる英単語の学習は、学習者に根強い人気を持つテクニックです。単語カード学習の効果を高めるためには、どうしたら良いのでしょうか? 単語カードによる学習の効果を最大限に高めるためにオランダで開発された、hand computerという独創的なシステムをご紹介いたします。 単語カードでは単語は覚えられない!? 単語カードによる英単語の学習は、学習者に根強い人気を持つテクニックです。しかし、コミュニケーションを重視する最近の英語教育では、「単語は文脈の中で学ぶもの」と考えられているため、単語カードによる暗記は「機械的すぎる」・「すぐに忘れてしまう」・「つまらない」などと批判されることが多いようです。単語カードによる学習が否定的に捉えられる一方で、多読による語彙学習が奨励される傾向にあります。 しかしながら、近年の研究では、単語カードによる暗記は非常に効果的かつ効率的であることが示さ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く