タグ

ブックマーク / repose.hatenadiary.jp (16)

  • Mining Contrastive Opinions on Political Texts using Cross-Perspective Topic Model(WSDM 2012) 読んだ & 実装して試した - 糞糞糞ネット弁慶

    Mining contrastive opinions on political texts using cross-perspective topic model 概要 複数の立場(perspective)から書かれた文章があった時,論点(topic)ごとに立場の主張をまとめ,それらの主張の違いを定量的に出力する. 例えば,自民党と民主党のマニフェストが与えられた時,「年金に対する自民/民主の主張」「安全保障に関する自民/民主の主張」をそれぞれまとめ,かつ,あるクエリに対する意見の違いを数値で出力する. モデル documentが名詞などのtopic word(LDAなどのword)と形容詞や動詞,副詞などのopinion wordで構成されるとする.生成モデルは次のような過程を辿るとする. まずトピックを選ぶ トピックに従って単語(topic word)を選ぶ 次に,意見(opinio

    Mining Contrastive Opinions on Political Texts using Cross-Perspective Topic Model(WSDM 2012) 読んだ & 実装して試した - 糞糞糞ネット弁慶
  • Machine Learning that Matters(ICML 2012) 読んだ - 糞糞糞ネット弁慶

    機械学習やってる人は皆読むべきだと思う. Machine Learning that Matters (pdf) 概要 機械学習のトップカンファレンスICMLに数式/アルゴリズム/定理を1つも書かずに通った論文. 機械学習は何のために重要なのか,現実世界との繋がりを失っていないか,あなたは「機械学習って何の役に立つの?」と聞かれた時にちゃんと答えられるのか,まだ取り組まれてない重要な問題は何か,について触れた長文ブログのような論文. contributionsは 機械学習の研究と人類と科学全体におけるもっと大きな研究との間にある欠落に対する明確な特定と解説 そのギャップに取り組むための第一歩 (どう訳していいかわからなかった) 機械学習において重要な問題の提示 機械学習のための機械学習(要約: マッシュルームやアヤメの分類器を死ぬほど作って何の役に立ったの?) ベンチマークデータの問題 こ

    Machine Learning that Matters(ICML 2012) 読んだ - 糞糞糞ネット弁慶
  • 大規模データ処理勉強会 〜「大きな」データと対峙する(仮称)〜に参加してきた - 糞糞糞ネット弁慶

    クレジットカード現金化詐欺【業界人が教える口コミ情報】 【ユーザ】「ライフサイエンス分野の大規模データ・現場での課題とこれから」 (ライフサイエンス統合データベースセンター/DBCLS @iNut) スライド(pdf) SQL, NoSQL, アルゴリズムの話無し DBCLSの説明 データベースとは 研究成果が公開される場としてのDB 公共の汎用研究リソースとしてのDB ex. PubMed(論文) ex. 集団疫学(数千の時系列データ) ex. 大規模塩基配列データ 生命科学系のデータの特徴 メタデータの重要性 維持管理必要 実装者と実行者の関係 dryとwet 大規模塩基配列データ 量が多い: 7kb→1Tbに パーソナルゲノム NGSデータ 画像データ: 50TB シグナル強度: 2〜10TB 中間ファイル: 1.5TB 中間ファイル: 45TB 結果: 5TB 宅急便で送るほうが早

    大規模データ処理勉強会 〜「大きな」データと対峙する(仮称)〜に参加してきた - 糞糞糞ネット弁慶
  • Transfer Learning for Behavioral Targeting(WWW 2010) 読んだ - 糞糞糞ネット弁慶

    背景 行動ターゲティング広告では似た嗜好をユーザをセグメンテーションし,セグメントごとに適した広告を提示したい. じゃあどんなデータからやるのか,ってなると普通に考えてユーザiが広告jをクリックした回数を要素に持つ行列かユーザiがクエリjを入力した回数を要素に持つ行列かのどっちかを使おうという話になる. 一番理想的なのはをそのまま使いたいが,そもそもユーザは広告なんかほとんどクリックしない.じゃあ代わりにを使うかというとちょっと苦しいし,データの質とスパースさのトレードオフ.というのが行動ターゲティング広告研究の現場. 提案手法 Translated Learning*1と呼ばれる手法がある(らしい.今回はじめて知った).これは source の feature に行列をかけて target の feature に変換してやるみたいなノリ. 今回はそれに似たアイデアを使う.具体的には変換行

    Transfer Learning for Behavioral Targeting(WWW 2010) 読んだ - 糞糞糞ネット弁慶
  • はじめてサーベイした - 糞糞糞ネット弁慶

    というわけでやってみた.Microsoft Academic Searchは当に素晴らしい.あとは検索語句がタイトルだけなのかabstなのかも絞り込めると嬉しい.web系のカンファレンス過去5年分遡った. WWW Sreenivas Gollapudi, Consideration set generation in commerce search(WWW 2011) URL => Consideration set generation in commerce search 内容 => コマースサイトの検索結果でクエリに含まれる属性には近く,含まれない属性には多様性重視で出力する. 手法 => クエリを構造化したのち,LP緩和をgreedyにやる.[論文] Consideration set generation in commerce search(WWW 2011) 読んだ - 糞

    はじめてサーベイした - 糞糞糞ネット弁慶
  • HTML要素に着目した違法・有害サイト検出手法の提案と評価 読んだメモ - 糞糞糞ネット弁慶

    HTML要素に着目した違法・有害サイト検出手法の提案と評価(pdf) 背景色などの外形的特徴から有害サイトを高速検出、KDDI研究所が技術開発 -INTERNET Watch Watch HTMLタグ内の記述に着目し、ウェブサイトの背景色が例えばピンクであることや、画像リンクが多用されていること、フレームが多用されていること、ポップアップなどブラウザーに特定の動作をさせるスクリプトが用いられているといった外形的特徴を捉えることで有害サイトを検出する。 背景色などの外形的特徴から有害サイトを高速検出、KDDI研究所が技術開発 -INTERNET Watch Watch この記事で触れられていたのはこの論文であるとある方から教わったので読んだ. 目的 違法・有害サイトを検出したい. Black/While list形式だとコストがかかる,同一ドメインにコンテンツが混在するためめんどくさい,新規

    HTML要素に着目した違法・有害サイト検出手法の提案と評価 読んだメモ - 糞糞糞ネット弁慶
  • Frustratingly Easy Domain Adaptation読んだメモ - 糞糞糞ネット弁慶

    [0907.1815] Frustratingly Easy Domain Adaptation 目的 簡単にDomain Adaptationをやる. 問題設定 ラベルつきデータが大量にあるsourceとラベルつきデータがあんまりないtarget,2つのドメインを考えて上手いこと学習したい. 方法 からを予測したい.この時のベクトルをつくることを考える.をそれぞれsourceドメイン,targetドメインとすると, としてみる(0は0要素がF個並んだもの).するとこれを使って学習して得られた重みベクトルのうち,aは両ドメイン共通,bはs固有,cはt固有の重みであると考えられそう. あとはそれぞれのベクトルでsourceとtargetで学習(アルゴリズムは何でも良し)して,重みwをの形に分解し,すれば良いらしい. これが良い理由の考察として,tとsを分けて最適化するのではなく,両方含んだ式

    Frustratingly Easy Domain Adaptation読んだメモ - 糞糞糞ネット弁慶
  • IJCNN Social Network Challengeの勝者が取った手法(deanonymize)は許されるか? - 糞糞糞ネット弁慶

    当はリンク予測の話として書きたかったが,優勝チームの手法及びそれに対する反応が面白かったのでメモ. 三行まとめ リンク予測のコンペティションが行われた 優勝チームは(データの出処となっていた)Flickrをクロールし,匿名化(anonymize)されていたテストデータを実データと結びつける(deanonymize)事により予測精度を向上させた 優勝チームの手法が公開され,公式フォーラムで「これは問題ではないか?」と言われる 背景 最近見つけたのだが,Kaggle: Your Home for Data Scienceというサイトでは常時賞金が出るデータコンペティションが行われている. 企業や研究者がデータを提供し,分析者がそれを分析する.企業は最終的には賞金を出し,データに対する知見を得る,みたいなアウトソーシングであると公式サイトでは説明がされている. Companies, gover

    IJCNN Social Network Challengeの勝者が取った手法(deanonymize)は許されるか? - 糞糞糞ネット弁慶
  • Sources of evidence for vertical selection (SIGIR 2009)読んだメモ - 糞糞糞ネット弁慶

    Sources of evidence for vertical selection SIGIR2009のbest paper. この論文は何をしているのか vertical selectionと言うと全くピンと来ない.上手いこと示す言葉を知らないので具体例を挙げる.例えばgoogleで「桜高軽音部」と検索すると3件目に「桜高軽音部」で動画を検索した結果へのリンクが張られる.また,「JAL」で検索した場合には5件目に「JAL」でニュースを検索した結果へのリンクが張られる. このような「動画」「ニュース」「画像」などの区分をverticalと呼び,検索クエリに対してそれらへの検索を同時に行うべきか行わないべきか,どのverticalに対して行うべきか,を示したのがこの論文. 問題設定 検索エンジンに対するクエリに対し,いずれかのverticalに割り振るか,もしくはどのverticalにも割

  • deep learningわからん & An Analysis of Single-Layer Networks in Unsupervised Feature Learning (NIPS2010)読んだメモ - 糞糞糞ネット弁慶

    Deep learning 2009年半ばぐらいからdeliciousのエントリーにDeep Learningの名前を良く見るので気になっていた. http://www.quora.com/Why-does-deep-learning-require-the-construction-of-generative-data-models Deep Learning via Hessian-free Optimization (slide) このquoraとスライドなどを読んでもまだわからない.イメージとしてはこんな感じ. 隠れ層が深すぎるbelief network(deep net)は学習に時間がかかる しかも上手くいかない 隠れ層が多くなりすぎるとバックプロパゲーション時に伝播するアレが浅い層になるにつれどんどん値が小さくなる(vanishing gradient problemと呼ばれ

  • Connecting the Dots Between News Articles(KDD 2010) 読んだメモ - 糞糞糞ネット弁慶

    Connecting the dots between news articles KDD2010のBest Research Paper: innovative contribution。タイトルはきっとjobsのスピーチが元ネタ。 概要 ニュースを2つ(s、t)与えるとその2つのニュースの間にあり、かつ、論理的に一貫したニュース記事群"chain"を提示する。 具体的には、Dispatches From a Day of Terror and Shock - The New York Times(9.11の記事)とThe Tragic Story of Daniel Pearl - The New York Times(誘拐されたジャーナリストの記事)という二つの記事を与えるとこのシステムは次のような一連の記事を提示する。 (start) Dispatches From a Day o

    Connecting the Dots Between News Articles(KDD 2010) 読んだメモ - 糞糞糞ネット弁慶
  • TinySimHashの実装の続き & 今度は論文通りに実装する - 糞ネット弁慶

    DBCLSの皆様がno titleに行っておりバイト先閉鎖で仕事もできないので、実装の続きをする。 論文はDetecting near-duplicates for web crawling。 で論文をもう一度読みなおしてみるとhashのランダムなビットシャッフルとソートの作業がこの論文には書かれていなかったのでもう一度まともに実装をする。 この論文ではまずデータをf-bitのハッシュ値で表現してストアしておく。その後受け取ったクエリをf-bitのハッシュ値で表現してストアしてあるデータのハッシュ値とハミング距離がk以下のものを列挙する、といった操作を行う。その際、ストアしてあるデータのハッシュを全て読むのではなく、テーブルという単位で区切る。そしてテーブル単位でマッチするデータを探してハミング距離を計算する。 来ならばこの部分はparallelにやると書いてあったり、その後にハッシュの

  • 今週のDBCLS + From "Dango" to "Japanese Cakes": Query Reformulation Models and Patterns - 糞ネット弁慶

    プログラム書くの進めたりテスト書いたり Red→Green→Redと言う感じでテンポ良く進まない… あと論文大量に探してダウンロードして読んだり そもそもACM Digital Libraryの論文がうちの大学からだとダウンロードできないというのが問題なんじゃないか と思って今試したらダウンロードできた。何故これまでずっと勘違いしてたんだ no title どこかのBest Paper Awardを取った検索クエリに関する論文。凄く読みやすい感じだった。 2つの連続した検索クエリ(q, q')は Error Correction("califrnia", "california") Parallel move("hotel in Dublin", "flights to Dublin") Generalization("camping", "outdoor activities") Spe

  • 今日のDBCLS & semi-supervised clustering - 糞ネット弁慶

  • ゼミ納め & EM、GEM(一般化EM)、VB(変分ベイズ) - 糞ネット弁慶

    というわけでゼミ納め。 CiNii 論文 -  EMアルゴリズムの新展開 : 変分ベイズ法 自然言語処理のための変分ベイズ法(pdf) 変分ベイズ学習 Variational Bayes Learning(pdf) EMアルゴリズム、GEM(一般化EM)、VB(変分ベイズ)の話をした。 変分ベイズは名前だけ聞くと仰々しいけどやってることは式変形はEMやGEMと同じノリだったので、EMとGEMの式変形を何度か追えば納得できる感じ。 超大雑把な流れとしては 最適化とか使わないで最尤推定したい!→EMで値を更新していこう EMじゃ計算が糞めんどくさい項がある!→を使ってを近似しよう!(GEM) でもこれだけじゃ満足できない!!!! 過学習とか起こりそう… モデル構造とか↑の2つじゃ決められなさそう… と言うことで、パラメータやモデル構造を確率変数として学習するベイズ学習ならいけそう!(変分ベイズ

    ゼミ納め & EM、GEM(一般化EM)、VB(変分ベイズ) - 糞ネット弁慶
  • レコメンデーションアルゴリズム勉強会に行ってきた - 糞ネット弁慶

    家に帰ってまとめブログを書くまでが勉強会です。 チームラボにてレコメンデーションアルゴリズム勉強会を開催しますので、是非オフィスに遊びに来てください : ATND ビッグサイトの就活イベントや同人イベントガン無視でチームラボで開催されたレコメンデーションアルゴリズム勉強会に行ってきた。 流れは上にあるとおりで何人かの発表があったのだけれど、やっぱり話題になるのはNetflix prizeでのあれですよ、あれ。 netflix prize is over, 時間経過による嗜好性の変化: DO++ Yehuda Koren, ”Collaborative Filtering with Temporal Dynamics ”, KDD 2009 SVD→SVD++→timeSVD++の流れで一人が話してしまったら後の人が被りまくりになるというアレな事態になってて、こういうどマイナーというかニッチ

  • 1