タグ

ブックマーク / y-tag.hatenadiary.org (7)

  • Top-k retrievalのアルゴリズムを書いてみた(tiny topk) - y_tagの日記

    最近top-k retrievalの話を少し聞いたので、簡単にコードを書いてみた。いつものように恥もなくgithubで公開している。 cpp-ToyBox-TinyTopK(github) Top-k retrievalを簡単に説明すると、転置インデックスに対してdisjunctiveなクエリで問い合わせて(OR検索)スコアの上位k件を取得したいという話である。詳細は"[IR] 転置インデックスとtop-k query - tsubosakaの日記"がとてもわかり易いので、そちらを参照していただきたい。 Top-k retrievalではvector space modelでのdot product(もちろんcosineやBM25なども同様)を考えるので、同じ原理でコサイン距離でのk-nearest neighborや線形分類器のtop-kマルチラベル分類を行うことができたりと、(実用的に

    Top-k retrievalのアルゴリズムを書いてみた(tiny topk) - y_tagの日記
  • "Psychopathy Prediction Based on Twitter Usage"で1位になりました - y_tagの日記

    6月の終わりに終了したので既に4ヶ月以上前の話だが、kaggleで開催されていたデータサイエンスのコンペティションで1位になった。 Psychopathy Prediction Based on Twitter Usage - Kaggle このコンペティションはその名のとおり、twitterの使い方からそのユーザーの"Psychopathy"を予測するというものである。もう一つの Personality Prediction Based on Twitter Stream - Kaggle ではその他の"Personality"の予測を行っていた。 問題は、その予測対象の"Psychopathy"や"Personality"とはいったい何なのかということだが、正直に言って正しく説明できるほど理解できていないため、詳細は以下の記事とそこからリンクされている論文ドラフト*1を参照していただき

    "Psychopathy Prediction Based on Twitter Usage"で1位になりました - y_tagの日記
  • WSDM2012勉強会に参加してきました - y_tagの日記

    WSDM2012勉強会に参加させていただきました。発表資料など詳細は以下にまとまっているようです。主催者、発表者、会場確保・設営をしてくださった皆さま、とても勉強になりました、ありがとうございました。 WSDM2012勉強会で発表しました #wsdm2012 - nokunoの日記 WSDM2012読書会を開催しました & Overcoming Browser Cookie Churn with Clustering読んだ - 糞ネット弁慶 実は今回このような形の勉強会に初めて参加したので、感じたことなどを少しメモしておく。 @nokunoさん Finding Your Friends and Following Them to Where You Are 会場では後半、ベストペーパーなのにこんな評価で大丈夫か、という話があった。位置情報をよく有効にしてtweetしているユーザに絞って学習

    WSDM2012勉強会に参加してきました - y_tagの日記
  • DOM Based Content Extraction via Text Densityのbindingを書いたよ - y_tagの日記

    SIGIR 2011のDOM Based Content Extraction via Text Densityが、シンプルなアルゴリズムながら良さそうな結果を示していたので、著者のコードを改変してSWIGでPerlPythonのbindingを作った。 下手な英文メールにも関わらず、コードの利用を快く認めて下さったFei Sunさん、ありがとうございます! cpp-ContentExtractionViaTextDensity - GitHub これは何をするものかというと、タイトルどおり、DOMツリー上でText Densityという指標を用いてウェブページの文抽出を行うもの。機械学習とかではなく、単純に決められた方法で計算されたText Densityを用いるだけのシンプルなアルゴリズムである。 Text DensityはDOMノードごとに計算され、シンプルにテキストの文字数をタ

    DOM Based Content Extraction via Text Densityのbindingを書いたよ - y_tagの日記
    sleepy_yoshi
    sleepy_yoshi 2012/01/22
    本文抽出ライブラリ
  • IJCAI2011メモ - y_tagの日記

    TwitterでつぶやいたIJCAI2011の論文についてのメモ。全てMachine Learning関連。 Improving Performance of Topic Models by Variable Grouping Latent Dirichlet AllocationでGibbs samplingを行う際、変数の数が増えるとサンプルを広範囲から取ることが難しくなり、局所解に陥ることがある。そこで、変数をグループ化してサンプリングを効率的に行うという手法を提案していた。同じような考えとしてblock samplingを挙げ、トピックの数が増えた時には変数をグループ化するアプローチの方が効率的であると主張している。 LDAではtoken(文書においては単語が相当)ごとにトピックが割り振られるが、gLDAではグループごとにトピックが割り振られ、各tokenはどのトピックに属するかに

    IJCAI2011メモ - y_tagの日記
  • downhill simplexでNDCG最適化 - y_tagの日記

    ここのところ、周囲でランキング学習への興味が高まっているような気がする。 ランキング学習の一手法として、A Stochastic Learning-To-Rank Algorithm and its Application to Contextual Advertisingでは、ランキングの評価指標の一つであるNDCGを最大化するようなパラメータを推定するアプローチを取っている。この手法では、NDCGは微分することができないのでdownhill simplexを用いて最適化を行うのだが、その際に局所解に陥りにくくするためsimulated annealingの考えを取り入れている。 このannealingの部分の具体的なアルゴリズムが良くわからなかったので、単純なdownhill simplexではどれほどの結果が出るか試してみた。 データセットとしては先の論文と同じLETOR 3.0を、

    downhill simplexでNDCG最適化 - y_tagの日記
  • ICML 2011メモ - y_tagの日記

    TwitterでつぶやいたICML 2011の論文についてのメモ。まだあまり読めてないのだけれど、とりあえずここで一まとめ。ざっと目を通しただけなのでいろいろと間違ってるかもしれない。SVMの論文が多めなのは、SVMへの苦手意識を払拭しようとしてたから。 Large Scale Text Classification using Semi-supervised Multinomial Naive Bayes その名のとおり、大規模データのためのMultinomial Naive Bayesの新しい半教師あり学習の仕方を提案している。従来はEMアルゴリズムを用いる手法が一般的だったが、大規模だと扱いが難しい。 提案手法のアイディアはまずラベル付きデータでConditional Log-Likelihoodを最大化し、データが足りない時はMarginal Log-Likelihoodを最大化す

    ICML 2011メモ - y_tagの日記
  • 1