todeskingのブックマーク - はてなブックマーク

Robust Logistic Regression using Shift Parameters (ACL 2014) 読んだ - 糞糞糞ネット弁慶

概要 [1305.4987] Robust Logistic Regression using Shift Parameters (Long Version) 一部のデータに対して誤ったラベルが付与されているような状況において頑健なロジスティック回帰を提案する．著者は The Elements of Statistical Learning の著者 Julie Tibshirani と NLP界の巨匠(NLP殆ど知らない自分でも名前を知っている) Manning．自分が読んだのは ACL short のもの．リンクを貼ったのは long version なので読んでない部分がいくつかあると思う．モデル事例に対する通常のロジスティック回帰が(推定すべき重みパラメータをとして) であるとすると， shift parameters を追加してとする．の気持ちとしては，でまずは理想的な

todesking 2017/01/13

"一部のデータに対して誤ったラベルが付与されているような状況において頑健なロジスティック回帰を提案する"

リンク

You Are Where You Go: Inferring Demographic Attributes from Location Check-ins (WSDM 2015) 読んだ - 糞糞糞ネット弁慶

You Are Where You Go: Inferring Demographic Attributes from Location Check-ins 概要 Weibo のチェックインデータと，POI に関する情報 (dianping のレビュー情報) から，ユーザの年齢，性別，学歴，性的嗜好，ステータス (未婚，既婚など)，更には血液型と12星座まで予測する．結果，それぞれの属性については高精度に，かつ，血液型と12星座についてはランダムに予測するよりも精度を改善している．後者二つを予測するという論文はこれまで見たことが無かった．血液型占いで騒いでいる場合じゃない．一体どういうことなのか，分からなかったので読んだ．おおまかに言うと，ユーザのチェックインデータを加工して特徴ベクトルにし，各属性ごとの二値分類/多値分類を行う．方向性著者いわく，チェックインデータに含まれる次の3

todesking 2017/01/13

行動データから血液型と十二星座までなぜか予測できてしまう話

リンク

From Online Behaviors to Offline Retailing (KDD 2016) 読んだ - 糞糞糞ネット弁慶

From Online Behaviors to Offline Retailing オンラインの行動とオフラインの購買を同時に分析する．すなわち，「オフラインの行動とオンラインの行動にはどういう関係があるか」がわかる．また，実験では「直近での検索行動を用いることによりその後の購買で何を買うか」を予測している．提案手法 : Online to Offline Topic Model (OTOTM) 入力として用いるのは次の二つ．オンラインにおける各ユーザの検索履歴 (単語集号) オフラインにおける各ユーザの購買履歴 (ブランド集合) 今回はショッピングモールにおける購買したブランドを用いているまたこれ以降，各ユーザの検索履歴および購買履歴は bag-of-words / bag-of-brands として取り扱う．すなわち，系列性や順序関係は考慮しない．まずこれを LDA でモ

todesking 2017/01/13

リンク

異種混合学習に関する簡単なまとめ - 糞糞糞ネット弁慶

デジタルトランスフォーメーションを加速する最先端AI 技術群「NEC the WISE」: 最先端AI 技術群～NEC the WISE～ | NEC 2012年頃から話題になっている，NECが提唱する異種混合学習とは一体何なのか，ということが気になって簡単に調べた．以下の記述は，自分の理解に基づいていること，学習理論については詳しくないことを断っておく．概要異種混合学習技術は多種多様なデータに混在するデータ同士の関連性から、特定の規則性を自動で発見するとともに、分析するデータに応じて参照する規則を切り替えます。これにより、“単一の規則性のみを発見して、それを参照するような従来の機械学習”では分析が困難であった「規則性が変化するデータ」でも高精度な予測や異常検出が可能になります。デジタルトランスフォーメーションを加速する最先端AI 技術群「NEC the WISE」: 最先端AI 技術群

todesking 2016/11/18

リンク

Factorization Machines (ICDM 2010) 読んだ - 糞糞糞ネット弁慶

Factorization Machines (pdf) Factorization Machines with libFM (TOIS, pdf) CriteoやAvazuの Click-through rate コンペでも良い成績を残している (GitHub - guestwalk/kaggle-2014-criteo, GitHub - guestwalk/kaggle-avazu) Field-aware Factorization Machinesを知る前にまずは Factorization Machnes (以下FM) の論文を読む事にした． FMの紹介は他の人(Factorization Machinesについて調べてみた，Matrix Factorizationとは)も既に書いているが，それらを読んでもどうにも自分にはピンとこなかった．具体的には，交互作用を考えようとする

todesking 2016/07/28

リンク

節操の無いクソイナゴ野郎なのでdeep learningで使われるautoencoder実装した - 糞糞糞ネット弁慶

身内でdeep learningの勉強会をやったらできそうだったので実装した．読んだのは大体ここらへん． NEURAL NETS FOR VISION(CVPR2012 tutorial) CS294A Lecture notes Sparse autoencoder ImageNet Classification with Deep Convolutional Neural Networks autoencoder autoencoderはunsupervised feature learningの一種．Convolutional Neural Netとは違って，最後の判別器の予測誤差をback propagationさせる，という事はせずある種特徴抽出で完結させている． autoencoderを一言でまとめると，「次元削減を繰り返すNeural Netを多段に繋げて特徴抽出を行う手法

todesking 2012/11/27

fumu-

リンク

過学習の恐怖，またはいかにして私は1分間でランキングを50位も落としたか(要約) - 糞ネット弁慶

データマイニングのコンペティンションサイトKaggle: Your Home for Data Scienceに投稿された記事であるThe Dangers of Overfitting or How to Drop 50 spots in 1 minute | No Free Hunchの自分用まとめ．要約あるコンペにて「勝った！！！！！！！！！！！」と思ったが蓋を開けてみれば2位から52位に落ちてた過学習ダメ絶対 cross validation は適切に行わないといかんそもそも Kaggle で Online Privacy Foundation が主催していた，Twitterアカウントごとに0/1を予測するコンペに参加した． Kaggle のランキングシステムは Public と Private で分かれていて，コンテストが終了するまではテストデータの一部だけを使った答え合わ

todesking 2012/07/23

リンク

Machine Learning that Matters(ICML 2012) 読んだ - 糞糞糞ネット弁慶

機械学習やってる人は皆読むべきだと思う． Machine Learning that Matters (pdf) 概要機械学習のトップカンファレンスICMLに数式/アルゴリズム/定理を1つも書かずに通った論文．機械学習は何のために重要なのか，現実世界との繋がりを失っていないか，あなたは「機械学習って何の役に立つの?」と聞かれた時にちゃんと答えられるのか，まだ取り組まれてない重要な問題は何か，について触れた長文ブログのような論文． contributionsは機械学習の研究と人類と科学全体におけるもっと大きな研究との間にある欠落に対する明確な特定と解説そのギャップに取り組むための第一歩 (どう訳していいかわからなかった) 機械学習において重要な問題の提示機械学習のための機械学習(要約: マッシュルームやアヤメの分類器を死ぬほど作って何の役に立ったの？) ベンチマークデータの問題こ

todesking 2012/06/05

リンク

2011年を振り返る - 糞糞糞ネット弁慶

論文読むだけ読んで生産性ゼロだったし勉強会にもほぼ行かなかった．来年もこのペースで何もせずに暮らしたい．

todesking 2011/12/29

いい話

リンク

少しでも研究に興味がある人，面白いテーマを探している人は「研究に必要なたったN個の事」とかいう記事を読まずに今すぐに"How to do good research, get it published in SIGKDD and get it cited!"を読

言いたいことはタイトル．そもそもSIGKDDとはSpecial Interest Group on Knowledge Discovery and Data Miningというデータマイニングや知識獲得のトップカンファレンス．WWWについで読んでて興味が合う論文が多い． How to do good research, get it published in SIGKDD and get it cited!(pdf) 173ページあるスライドだけど良い事ばかり書いてあるし，読者を楽しませるような非常に多くの著者の実体験(成功したものだけでなく，失敗したものも)や，後半になるとダメな論文，間違っている論文，その例が大量に載っていて飽きずに読める．ただKDDに通したい人だけでなく，研究を少しでもやろうとしている人，論文を書こうとしている人，面白いことをやりたい人は必ず読むべき．適当に面白か

todesking 2011/11/02

おもしろい

リンク

A study on the impact of product images on user clicks for online shopping(WWW 2011) 読んだ - 糞糞糞ネット弁慶

A study on the impact of product images on user clicks for online shopping 概要またもeBay．product search(商品検索)において商品画像そのものから特徴量を抽出しfeatureに追加する．問題設定現状のsearchにおけるfeatureでは画像情報は使われていない eBayはオークションサイトであるので，商品画像が非常に不揃い通常のproduct searchはサイト管理者や商品販売側が良い画像を選別して提示している画像から特徴量を得て何が効くかを特定できればランキングに反映させ，良い画像をより上位に，悪い画像をより下位に表示できるそれを出品者にフィードバックできるので全体として良い画像をアップロードしようとして検索エンジンの質が上がる特徴二種類の特徴を考える． Global fea

todesking 2011/10/31

ふむー

リンク

Structured annotations of web queries(SIGMOD 2010) 読んだ - 糞糞糞ネット弁慶

Structured annotations of web queries まとめ検索クエリを構造化して扱うための手法を提示．なんでそう扱いたいか前の論文とも関連する，というかそちらの問題意識に近いけれど，商品検索のクエリは構造化されている．通常の情報検索の文脈で"50 inch LG lcd tv"というクエリは一見何も問題無さそうだが，実はLGは50inchのlcd tvを生産していないのでこれでは商品がヒットしない．しかしクエリを構造化すればLGのlcd tvを検索できるので他のinchをユーザに提示できる．この論文の目的は2つ．クエリを構造化されたデータとして扱えるようにする．例えば"50 inch LG lcd tv"というクエリを { テーブル(クエリが意図している領域) => TV，サイズ => 50inch，ブランド => LG，テレビの種類 => lcd tv

todesking 2011/09/27

ふむー

リンク

Learning to Estimate Query Difficulty (SIGIR 2005) 読んだメモ - 糞糞糞ネット弁慶

Learning to estimate query difficulty: including applications to missing content detection and distributed information retrieval SIGIR 2005のbest paper．目的ある検索システムに対して投げられた検索クエリがどれほど難しいのかを測りたい．めんどくさい事クエリは長さがまちまちで→特徴ベクトルのサイズがまちまちになる．しかし大抵の学習器では特徴ベクトルは一定でなければならない sub-queryの順序関係が保たれていないから順序関係を無視する学習器と相性が悪い（ちょっとよく分からない）方法線形和でスコアを付ける決定木を作る実験によると長いクエリには1.が，短いクエリには2.が効くらしい．メリットとしては，方法がシンプルであり，検索シス

todesking 2011/02/16

よんだ、クエリ難易度推定、むずい

リンク

放置系ブラック研究室で楽しく生きるにあたって - 糞糞糞ネット弁慶

(2/6 補足書きました→「放置系ブラック研究室で楽しく生きるにあたって」の補足 - 糞ネット弁慶) 修士論文を提出し，発表を済ませた．また，これをもって大学院及び研究室に関する全ての行事が終了した（「教授が論文書けってうるさいから春休み潰れるわ〜まじないわ〜」などという学生とは違う）．というわけなので三年間の研究室生活について振り返ってみる．放置系ブラック研究室とはそもそも我が研究室は非常に放任主義の放置系ブラック研究室であった．いくつか例を挙げると論文紹介や輪講などない M2になってから7回程度しかゼミをやった記憶が無い研究テーマが上から降ってくることがない教授が卒論・修論のテーマを提出の一ヶ月前まで把握していない研究しない論文(書かない|書けない) (研究会|全国大会|諸々)(出ない|出さない|出せない) そもそも何がいつあって締切りがいつとか知らない学生が学会に何一

todesking 2011/02/04

便所さん意識高い

リンク

機械学習の確率的なアルゴリズムに関するテストがわからない - 糞ネット弁慶

前から疑問に思っていたけど、今回書いていてますます判らなくなってきた事がある。機械学習にありがちな確率が絡むアルゴリズムに関するテストをどう書いていいのかという事である。そもそも自分自身テストを書くようになったのもここ三ヶ月かそこらの話なので、以降の話はテストの書き方そのものが間違っている可能性があるが、とりあえずわからない事を書いてみる。まず、前に書いたようなquery suggestionのアルゴリズムであったり、community detectionのアルゴリズムである場合、小規模かつ結び付きが極端なテストデータを用意して、アルゴリズムの1ステップごとに手で遷移確率などを計算すれば、ある程度の規模ならばどうにかテストは書けるのではないかと考えている。例を示すと、Co-HITSアルゴリズムでの1回の伝播に関するテストだとこのように TEST_F(TestCoHITS, Check_s

todesking 2010/09/17

@ユニットテスト関係者各位テスト対象が複雑な数値計算や乱数への依存などを含んでいてexpected resultをうまく書けない時どうしましょう

リンク

はてなブックマーク

タグ

ブックマーク / repose.hatenadiary.jp (15)

お知らせ

月間はてなブックマーク数ランキング（2025年1月）

今週のはてなブックマーク数ランキング（2025年2月第1週）

今週のはてなブックマーク数ランキング（2025年1月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス