タグ

ブックマーク / repose.hatenadiary.jp (7)

  • 少しでも研究に興味がある人,面白いテーマを探している人は「研究に必要なたったN個の事」とかいう記事を読まずに今すぐに"How to do good research, get it published in SIGKDD and get it cited!"を読

    言いたいことはタイトル. そもそもSIGKDDとはSpecial Interest Group on Knowledge Discovery and Data Miningというデータマイニングや知識獲得のトップカンファレンス.WWWについで読んでて興味が合う論文が多い. How to do good research, get it published in SIGKDD and get it cited!(pdf) 173ページあるスライドだけど良い事ばかり書いてあるし,読者を楽しませるような非常に多くの著者の実体験(成功したものだけでなく,失敗したものも)や,後半になるとダメな論文,間違っている論文,その例が大量に載っていて飽きずに読める.ただKDDに通したい人だけでなく,研究を少しでもやろうとしている人,論文を書こうとしている人,面白いことをやりたい人は必ず読むべき. 適当に面白か

    少しでも研究に興味がある人,面白いテーマを探している人は「研究に必要なたったN個の事」とかいう記事を読まずに今すぐに"How to do good research, get it published in SIGKDD and get it cited!"を読
  • Predicting the Conversion Probability for Items on C2C Ecommerce Sites(CIKM 2009) 読んだ - 糞糞糞ネット弁慶

    Predicting the conversion probability for items on C2C ecommerce sites 概要 著者はeBay research Lab.そもそもeBayにラボがあるのを最近知った.しかしここは公式ページにpublicationsがまとまっていないので非常に探しにくい. 売れる商品/売れない商品を予測する.手法は(古典的な)線形回帰/ロジスティック回帰を用い,評価はprec/recall,P@N. 用いる特徴量 以下列挙. アイテムの特徴量 カテゴリの人気度 商品の単語を区切って単語の人気度 その商品の競合相手(類似する商品数) そのうち売れた商品の比 商品の価格 - 類似商品の平均価格 fix priceかどうか(ヤフオクで言うところの即決ですかね) 商品の量 返品対応 Best Offer(eBay独自のシステム,購入後に値段交渉でき

    Predicting the Conversion Probability for Items on C2C Ecommerce Sites(CIKM 2009) 読んだ - 糞糞糞ネット弁慶
  • Rare item detection in e-commerce site(WWW 2009) 読んだ - 糞糞糞ネット弁慶

    Rare item detection in e-commerce site ポスター原稿.eBay Research Labs. 概要 出品されたアイテムがレアものかどうか判定する. 方法 アルゴリズムは二段階. まずレアでありそうなアイテムをフィルタリング フィルタリングに使う特徴は次の4つ. Listing quantity : そのアイテムが当にレアならListing quantityが1らしい(listing quantityって何) Feedback Score(FS) : レアアイテムを出品するのはヘビーユーザーでも新参ユーザーでもないカジュアルユーザー.よって出品者のFeedback Scoreはぐらいだろう Seller's store : カジュアルユーザーがレアアイテムを出品しやすいのだから企業アカウントからの出品物は弾く Positive feedback per

    Rare item detection in e-commerce site(WWW 2009) 読んだ - 糞糞糞ネット弁慶
  • はじめてサーベイした - 糞糞糞ネット弁慶

    というわけでやってみた.Microsoft Academic Searchは当に素晴らしい.あとは検索語句がタイトルだけなのかabstなのかも絞り込めると嬉しい.web系のカンファレンス過去5年分遡った. WWW Sreenivas Gollapudi, Consideration set generation in commerce search(WWW 2011) URL => Consideration set generation in commerce search 内容 => コマースサイトの検索結果でクエリに含まれる属性には近く,含まれない属性には多様性重視で出力する. 手法 => クエリを構造化したのち,LP緩和をgreedyにやる.[論文] Consideration set generation in commerce search(WWW 2011) 読んだ - 糞

    はじめてサーベイした - 糞糞糞ネット弁慶
  • HTML要素に着目した違法・有害サイト検出手法の提案と評価 読んだメモ - 糞糞糞ネット弁慶

    HTML要素に着目した違法・有害サイト検出手法の提案と評価(pdf) 背景色などの外形的特徴から有害サイトを高速検出、KDDI研究所が技術開発 -INTERNET Watch Watch HTMLタグ内の記述に着目し、ウェブサイトの背景色が例えばピンクであることや、画像リンクが多用されていること、フレームが多用されていること、ポップアップなどブラウザーに特定の動作をさせるスクリプトが用いられているといった外形的特徴を捉えることで有害サイトを検出する。 背景色などの外形的特徴から有害サイトを高速検出、KDDI研究所が技術開発 -INTERNET Watch Watch この記事で触れられていたのはこの論文であるとある方から教わったので読んだ. 目的 違法・有害サイトを検出したい. Black/While list形式だとコストがかかる,同一ドメインにコンテンツが混在するためめんどくさい,新規

    HTML要素に着目した違法・有害サイト検出手法の提案と評価 読んだメモ - 糞糞糞ネット弁慶
  • NLP2011で気になる発表 - 糞糞糞ネット弁慶

    3/7から開催される言語処理学会第17回年次大会(NLP2011)で面白そうな発表をメモしておく.豊橋には行けないので後で確認するためのメモ. 自分の興味は知識抽出,特許,検索であるようだ. A1-6 意味的類似度を用いたWeb文書からの集合拡張 ○萩原正人, 関根聡 (楽天) B1-7 クエリログの時系列情報に基づくキーワード修正リスト生成手法 ○平手勇宇, 竹中孝真 (楽天) C1-3 類似論文からの関連用語抽出による論文検索支援システムの提案 ○南浦佑介, 新美礼彦 (未来大) C1-7 医薬品の副作用調査を目的とした統合的言語処理システム ○大熊智子, 三浦康秀, 外池昌嗣, 増市博 (富士ゼロックス), 篠原(山田)恵美子, 荒牧英治, 大江和彦 (東大) D1-6 情報抽出と述語項の類似度を利用した音声対話システム ○吉野幸一郎, 森信介, 河原達也 (京大) E1-5 分野に

    NLP2011で気になる発表 - 糞糞糞ネット弁慶
  • RubyでPageRank - 糞ネット弁慶

    暇すぎるのとインターンの続きが気になるので手始めにPageRankを計算。データはWEBSPAM-UK2007を使用。Pre-computed feature setsに値はあるけど今後どうせ何度も再計算しなきゃならないので。 PageRankの定義式は「ページランクの定義式」の二つ目の式。一つ目のPR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))だと一つのサイトにしかリンクを飛ばしてないような時にC(Tn)=0になるんだけど、どうしたらいいんだろう。 ぱっと見合ってそうなので後で確認。 class PageRank def initialize @d = 0.85 @link = Hash.new{|h,k|h[k] = []} @linksize = Hash.new{} @pagerank = Hash.new{|h,k|h[k

  • 1