タグ

2010年4月25日のブックマーク (10件)

  • LETOR: Learning to Rank for Information Retrieval - Microsoft Research

    LETOR is a package of benchmark data sets for research on LEarning TO Rank, which contains standard features, relevance judgments, data partitioning, evaluation tools, and several baselines. Version 1.0 was released in April 2007. Version 2.0 was released in Dec. 2007. Version 3.0 was released in Dec. 2008. This version, 4.0, was released in July 2009. Very different from previous versions (V3.0 i

    LETOR: Learning to Rank for Information Retrieval - Microsoft Research
  • Microsoft Research – Emerging Technology, Computer, and Software Research

  • LETOR: Learning to Rank for Information Retrieval - Microsoft Research

    LETOR is a package of benchmark data sets for research on LEarning TO Rank, which contains standard features, relevance judgments, data partitioning, evaluation tools, and several baselines. Version 1.0 was released in April 2007. Version 2.0 was released in Dec. 2007. Version 3.0 was released in Dec. 2008. This version, 4.0, was released in July 2009. Very different from previous versions (V3.0 i

    LETOR: Learning to Rank for Information Retrieval - Microsoft Research
  • PFIセミナー資料: 研究開発2009 - DO++

    昨日ありました、PFIでのセミナーでの発表資料です。 研究開発のチームの紹介の後に、2009年サーベイした論文の中で面白かった論文を 機械学習、データ構造、画像処理で紹介してます 紹介した話は - Multi-class CW (Multi-class Confidence Weighted Learning,) - AROW (Adaptive Regularization Of Weight Vector) - Online-EM algorithm - 全備簡潔木 (Fully-functional Succinct Tree) - 圧縮連想配列 (compressed function) - PatchMatch です。 #資料中の簡潔木の表現方法のDFUDSの紹介でtxも使用と書いてあるのは、公開しているtxでは、 LOUDSのみをつかっていますので正確ではありませんでした。これ

    PFIセミナー資料: 研究開発2009 - DO++
  • bayonを使って画像からbag-of-keypointsを求める - のんびり読書日記

    クラスタリングツールbayonとOpenCVを使って、画像からbag-of-keypointsを特徴量として抽出する手順について書きたいと思います。bag-of-keypointsは自然言語処理でよく使用されるbag-of-words(文章を単語の集合で表現したもの)と同じようなもので、画像中の局所的な特徴量(keypoint)の集合で画像の特徴を表します。bag-of-wordsと同じ形式ですので言語処理と同じように、bag-of-keypointsデータを使ってクラスタリングツールに適用したり、転置インデックスに載せたりといったことが可能になります。 今回は画像からbag-of-keypointsを取り出し、そのデータを使ってbayonで画像集合をクラスタリングするところまでやってみます。ちなみに画像処理は完全に素人で、この記事もニワカ知識で書いているので、間違っている箇所やもっと効率

    bayonを使って画像からbag-of-keypointsを求める - のんびり読書日記
  • 2009 UCSD/FICO Data Mining Contest とか - Standard ML of Yukkuri

    http://mill.ucsd.edu/index.php?page=Results学部生からポスドクまでを対象としたUCSD主催のデータマイニングコンテストに参加してました. チーム名は smly で一人チーム. NAIST からは他にも論理生命学講座の先輩方のチーム west が参加していて, 彼等がひとつのタスクで優勝したようです. おめでとうございます. 二ヶ月ほどの期間で競われるコンテストなのですが, いろいろあって実質的な参加期間は二週間程度で, 入賞もできなかったという微妙な結果でした. たしかこの頃は研究会やYANSの発表ネタをがんばっていた気がする. でも来年は入賞して賞金をとりに行きます. 賞金が欲しい.タスクは E-commerce のトランザクションデータが与えられ, その中に含まれる異常なトランザクション(正例)を分類するという単純な二値分類で, easy と

  • SQLiteのテストコードは4567万8000行! 本体のコードは6万7000行

    軽量なリレーショナルデータベースとして人気のSQLite。そのWebサイトに掲載されている「How SQLite Is Tested」の内容が、海外のプログラマなどのあいだで話題になっています。 3月に公開された最新バージョンのSQLite 3.6.23。体のソースコードは約6万7200行(67.2KSLOC、Kilo Source Lines of Code:空行やコメントを除いた行数)なのに対し、テストコードはなんと4567万8300行(45678.3KSLOC)だと紹介されているのです! これはテストコードが体の約679倍もの大きさだということになります。 100%のブランチカバレッジ SQLiteコアのライブラリをテストするテストコードとして、以下の3つが紹介されています。 TCL Tests TCL Testsはもっとも古いテストコードで、TCL scripting lang

    SQLiteのテストコードは4567万8000行! 本体のコードは6万7000行
    mrorii
    mrorii 2010/04/25
  • SciPy Tutorial -

    New SciPy Tutorial [Under construction -- Please help!] Prerequisites Before reading this tutorial you should know a bit of Python. If this is not the case, or if you want to refresh your memory, take a look at the Python tutorial. In particular, you may wish to read up to section 6 (Modules). You also need to have some software installed on your computer. You need at least Python and NumPy (It i

    mrorii
    mrorii 2010/04/25
  • フィッシャーの線形判別 - 人工知能に関する断創録

    今回は、4.1.4のフィッシャーの線形判別を試してみました。これは、他の手法と少し毛色が違う感じがします。まず、D次元の入力ベクトルxを(4.20)で1次元ベクトル(スカラー)に射影します。ベクトル同士の内積なので結果はスカラーで、wはxを射影する方向を表します。 フィッシャーの線形判別は、射影後のデータの分離度をもっとも大きくするようなデータの射影方向wを見つけるという手法だそうです。 クラス1のデータ集合C1の平均ベクトルとクラス2のデータ集合C2の平均ベクトル(4.21)をw上へ射影したクラス間平均の分離度(4.22)を最大にするwを選択するのが1つめのポイントのようです。式(4.22)の左辺はスカラーです(フォントの違いがわかりにくい)。 wは単位長であるという制約のもとで(4.22)を最大化するようにラグランジュ未定乗数法で解くと、 という解が得られます(演習4.4)。これは、ベ

    フィッシャーの線形判別 - 人工知能に関する断創録
    mrorii
    mrorii 2010/04/25
  • IEEEカンファレンス、自動生成のニセ論文をアクセプト | スラド Linux

    家/.の記事より。 意味ありげな数学や科学用語を散りばめたデタラメな内容の論文を、哲学の専門誌に投稿したら掲載されてしまったというソーカル事件を覚えているだろうか? 今度はIEEEのカンファレンスに、自動生成された論文がアクセプトされるという事件が発生した。論文のタイトルは「Towards the Simulation of E-Commerce」(Eコマースのシミュレーションに向けて)、著者は自称Herbert Schlangemann博士。 実はこの論文、コンピュータサイエンス論文ジェネレータのSCIgenが自動生成したものだったのである。アクセプトしてしまったのはIEEEの2008 International Conference on Computer Science and Software Engineering (CSSE)。査読付きだったのはもちろんだが、このSchlan