タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

algorithmとAlgorithmとresearchに関するyukimori_726のブックマーク (31)

  • カモフラージュするスパムレビュアの発見アルゴリズム - Qiita

    概要 結託したスパムレビュアを発見するアルゴリズムに引き続き, オンラインショッピングやレストランレビューサイトにおいてスパムレビュアーを発見するために, 通常のレビュアーにカモフラージュするようなスパムレビュアを発見するアルゴリズム FRAUDAR を用意した. FRAUDAR は 2016年の ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2016)でベストペーパー賞を受賞したアルゴリズムで,著者らによって実装が公開されている. 今回は,スパムレビュア発見アルゴリズムの評価用データセットなどをより簡単に解析できるように結託したスパムレビュアを発見するアルゴリズムと共通のインターフェイスを作成した. 使い方 今回作成した,FRAUDARのラッパー rgmining-fraud

    カモフラージュするスパムレビュアの発見アルゴリズム - Qiita
  • KDD'16 論文採択:省メモリなグラフスケッチのデータ構造 - iwiwiの日記

    国際学会 KDD 2016 に論文が採択されました.KDD はデータマイニング分野の最も有名な会議です.発表は 8 月にサンフランシスコです.オーラル発表有りの採択です. 今回の論文は "Compact and Scalable Graph Neighborhood Sketching" というタイトルで,私が主著であり,研究室で特任技術専門員としてお手伝いしてもらっていた矢野さんとの共著です.内容はグラフ向けデータ構造 All-Distances Sketches の実用上の問題点である空間使用量を大幅に削減するための新しいデータ構造の提案です.以前に「大規模グラフのコンパクトでスケーラブルな全距離スケッチ」というタイトルで人工知能学会の人工知能問題研究会にて議論させて頂いていたものです. 背景:All-Distances Sketches とは? All-Distances Ske

    KDD'16 論文採択:省メモリなグラフスケッチのデータ構造 - iwiwiの日記
  • 【 比較 】 深層強化学習 と 深層カルマンフィルター - Qiita

    ※ 作成中 両アルゴリズム と 比較させる対象 として、さらに 以下 の 「遺伝的ファジィ決定木アルゴリズム」 が 面白いかもしれない。 HirofumiYashima Qiita記事(2016/09/10)「【 調査メモ 】先端AI設計 に おける「遺伝的ファジィ決定木」アルゴリズム の 有用性 ~ RaspberryPi上で動作可能 な 軽量 無人戦闘機(UCAVs) 制御プログラム "ALPHA"(米国 Psibernetix社)が 示す その可能性」 ( 共通点 ) 選択した行動の結果が、時間的に遅延して観測 or 報酬取得 される 予測値と(事後的に得られる)観測値との誤差、(期待と)報酬との誤差(正負)を次の行動を決めるモデルを(誤差)修正するための情報として、自律的、積極的・能動的に用いる これにより、刻々と変化する環境に適応した行動をとるように、行動決定モデルをリアルタイム

    【 比較 】 深層強化学習 と 深層カルマンフィルター - Qiita
  • Factorization Machines (ICDM 2010) 読んだ - 糞糞糞ネット弁慶

    Factorization Machines (pdf) Factorization Machines with libFM (TOIS, pdf) CriteoやAvazuの Click-through rate コンペでも良い成績を残している (GitHub - guestwalk/kaggle-2014-criteo, GitHub - guestwalk/kaggle-avazu) Field-aware Factorization Machinesを知る前にまずは Factorization Machnes (以下FM) の論文を読む事にした. FMの紹介は他の人(Factorization Machinesについて調べてみた,Matrix Factorizationとは)も既に書いているが,それらを読んでもどうにも自分にはピンとこなかった.具体的には, 交互作用を考えようとする

    Factorization Machines (ICDM 2010) 読んだ - 糞糞糞ネット弁慶
  • 2013年 今最も旬な機械学習の研究者たち9人 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 今年一年の機械学習を素人的に振り返ってみるとでぃーぷらーにんぐがすごかったなー、みたいなミーハーな感想がまず思い浮かぶわけなんだけども、実際のところ今ホットな研究は何なんだろうということで、泣く子も黙る機械学習の代表的な国際会議、NIPSとICMLの過去3年分の採択論文を著者にフォーカスしてみることにした。 1st authorの重要度をそれ以外の著者よりも重くしてスコアづけした。 (複数人の著者がいる場合は1st authorを0.8として、残りの0.2を他の著者に分配、1人の場合は1とする) 参考: IR研究者をスコアリングしてみた

    2013年 今最も旬な機械学習の研究者たち9人 - Qiita
  • 高次元ベクトルデータにおいて高速な近傍検索を実現するNGTの公開

    Yahoo! JAPAN研究所の岩崎です。 私は主に特定物体認識の研究開発を行っていますが、その一方で特定物体認識において必須技術である高次元ベクトルデータの近傍検索の研究開発も行っています。近傍検索の一種であるk最近傍検索とは、クエリとしてベクトルデータが与えられた時に、クエリと空間内に点在するベクトルデータとの距離に基づき近い順にk個のデータを検索する、ことです。kが5の場合の最近傍検索の例を図1に示します。図中の数字は距離の順位で、青い点が検索結果となるデータです。 空間内のすべてのデータとの距離を計算すると時間がかかるので、高速化のためにインデックスを利用します。インデックスを用いることにより数次元といった低次元のベクトルデータ空間では高速な検索が比較的容易に実現できます。しかし、インデックスを用いても100次元を超えるような高次元ベクトルデータの場合には高速に検索することが困難と

    高次元ベクトルデータにおいて高速な近傍検索を実現するNGTの公開
  • スペクトラルクラスタリングは次元圧縮しながらKmeansする手法 - 武蔵野日記

    機械学習系のエントリを続けて書いてみる。クラスタリングについて知らない人は以下のエントリ読んでもちんぷんかんぷんだと思うので、クラスタリングという概念については知っているものとする。 それで、今日はスペクトラルクラスタリングの話。自然言語処理以外でも利用されているが、これはグラフのスペクトルに基づくクラスタリングの手法で、半教師あり学習への拡張がやりやすいのが利点。なにをするかというとクラスタリングをグラフの分割問題(疎であるエッジをカット)に帰着して解く手法で、どういうふうに分割するかによって Normalized cut (Ncut) とか Min-max cut (Mcut) とかいろいろある。 完全にグラフが分割できる場合はこれでめでたしめでたしなのだが、実世界のグラフはそんな簡単に切れないことが往々にしてある。それで近似してこのグラフ分割問題を解くのだが、Normalized c

    スペクトラルクラスタリングは次元圧縮しながらKmeansする手法 - 武蔵野日記
  • 行列分解ライブラリredsvdを公開しました - DO++

    大規模疎行列向けの行列分解ライブラリredsvdを公開しました. redsvd 大規模疎行列向けの特異値分解や主成分分析,固有値分解を行うライブラリredsvdを公開しました. 修正BSDライセンスで公開しており,コマンドラインから使える他,C++ライブラリが用意されています. 例えば,行と列数がそれぞれ10万,非零の要素が1000万からなる疎行列に対する上位20位までの特異値分解を約2秒で処理します. 特異値分解とか,使っている技術の詳細とか応用事例を以下に簡単に紹介しましたので,興味のある方は参考にしてください. 特異値分解とは まず行列を適当に復習します.行列Xの転置をX^tと表すことにします.またIを単位行列とし,Oを全ての成分が0である零行列とします.また,行列XX^t=IであるようなXを直交行列と呼びます.Xが直交行列の時,Xvはベクトルvを長さを変えずに回転させます.ここでは

    行列分解ライブラリredsvdを公開しました - DO++
  • Zinnia: 機械学習ベースのポータブルな手書き文字認識エンジン

    Zinnia: 機械学習ベースのポータブルなオンライン手書き文字認識エンジン [日語][英語] Zinniaは機械学習アルゴリズム SVM を用いたポータブルで汎用的な オンライン手書き文字認識エンジンです。Zinniaは組み込みの容易さと汎用性を高めるために、 文字のレンダリング機能は持っていません。Zinniaは文字のストローク情報を座標の連続として受け取り、 確からしい順にスコア付きでN文字の認識結果を返すだけに機能を限定しています。 また、認識エンジンは完全に機械学習ベースであるために、文字のみならずユーザの任意のマウス・ペンストロークに対して任意の文字列をマッピングするような認識エンジンを小コスト作成することができます。 主な特徴 機械学習アルゴリズムSVMによる高い認識精度 ポータブルでコンパクトな設計 -- POSIX/Windows (C++ STLのみに依存) リエント

  • [機械学習] クラスタリングにおけるコサイン類似度に関する性質の証明 - tsubosakaの日記

    bayonやCLUTOが爆速な理由 - download_takeshi’s diaryを読んで、すぐには成り立つかどうか分からなかったので証明してみた。 上の記事で述べられていることはクラスタ中のベクトルとその中心ベクトルのコサイン類似度の和と、クラスタ中のベクトルを全て足したベクトルのノルムが一致するというである。 ただしここでクラスタ中の要素ベクトルはすべて大きさ1の規格化されたベクトルであるとする。 証明 今クラスタ内に含まれるベクトルを とする。 このとき全ベクトルを足しこんだ複合ベクトルを とする。またこのクラスタのセントロイドは となる。このときセントロイドと各ベクトルとのコサイン類似度は [tex: s_i = \frac{}{||C|| ||x_i||} = \frac{}{||{C}||}] となる。ここでと正規化されていることを用いた。この類似度の合計は [tex:

    [機械学習] クラスタリングにおけるコサイン類似度に関する性質の証明 - tsubosakaの日記
  • bayonやCLUTOが爆速な理由 - download_takeshi’s diary

    クラスタリングツールbayonを使っていて、常々「どうしてこんなに高速に処理できんのかなぁ」と疑問に感じていました。repeated bisectionという手法自体がk-means法などと比べると効率がいいのですが、それにしても、それだけでは説明がつかないほど爆速なわけです。 うまく例えられませんが、自前でk-meansのスクリプトを書いて比べてみると、自転車と新幹線くらいちがうという印象です。はじめてCLUTOを触った時、数万件程規模のクラスタリング処理が当に「あっ」という間に終わってしまい、びっくりした記憶があります。 きっと実装面でなにか特殊なことがあるんだろうなと思い、mixiエンジニアブログでbayonの記事を改めて読み漁っていたら、以下の部分が目に止まりました。 このクラスタの評価は、クラスタの各要素とクラスタの中心とのcosine類似度の和としています。この和が大きいほど

    bayonやCLUTOが爆速な理由 - download_takeshi’s diary
  • クラスタリングツールbayonを便利に使うText::Bayonを書きましたよ - download_takeshi’s diary

    JPerl Advent Calender 2009 のhacker trackに「Perlではじめるテキストマイニング」というタイトルで記事を書きました。テキストマイニング系のモジュールを色々紹介しているので、興味ある人はぜひご覧ください。 さてさて、記事の最後の方で軽くふれましたが、つい先日 Text::Bayon というモジュールをリリースしました。 Text::Bayon - Handling module for the clustering tool 'bayon' CPAN : http://search.cpan.org/~miki/Text-Bayon/ Github : http://github.com/miki/Text-Bayon それの具体的な使い方を紹介します。 何をするものか? Text::Bayonはクラスタリングツールbayonをperlスクリプトからス

    クラスタリングツールbayonを便利に使うText::Bayonを書きましたよ - download_takeshi’s diary
  • トーナメントと多値分類 - DO++

    今やってる研究で、トーナメント問題を調べる機会がありました。 トーナメントは私も知らなかったのですが、勝者や順位を決める方式のことを指し、いわゆる二人ずつ戦って生き残っていく方式はノックアウトトーナメントといわれるそうです(wikipedia)。 #10000人戦う時にノックアウトトーナメントでは何回試合が行われるかというのはよくある質問ですね。 で、このトーナメント方式というのは調べてみると非常に様々なものがあります 例えばスイス式トーナメントは、最初はランダムな組み合わせで対戦、次は勝者同士と敗者同士、その次は全勝・1勝1敗・2戦全敗のそれぞれが・・というふうに同じ成績の人同士で戦う方式です。レーティングを計算して、レーティングが近いもの同士を戦わせるような拡張もあります。近いのは将棋でやってるようなものですね。 利点は全ての人が同じ試合数で戦い、また厳密な順位が決めやすいことがありま

    トーナメントと多値分類 - DO++
  • P2P basic

    P2P basic P2Pとは何か?〜基礎から研究紹介まで〜 最近,P2Pという言葉を良く聞きます。ニュースの中でも「P2Pを意識している」とか「P2Pの研究に着手」というニュースを聞いたことがあるのではないでしょうか? しかしながら,P2Pとは何かいまいちわからなかったり、どんなことに役に立つのか調べにくいことも確かです。 またP2Pの動向は激しく,その流れについていくのも大変です。 私は情報系の研究所でP2Pの研究開発をしていました。 そのため、このような現状を踏まえてP2Pの基礎から私の研究まで重要な部分を なるべくわかりやすく紹介致します。 また用語についてはわかりやすさを優先するために一部不正確なところがあるのでご了承下さい。 質問,コメント等はメール(tnishita@yahoo.co.jp) にて連絡して頂くと,ページ改良の参考になりますのでよろしくお願い致します。 P2Pに

  • Google検索アルゴリズムで生態系崩壊を予測 | WIRED VISION

    前の記事 「飛行機からレーザーで地上攻撃」実験に成功 Google検索アルゴリズムで生態系崩壊を予測 2009年9月 8日 Hadley Leggett 写真:Flickr/fusion68k、イラスト:PLOS Computational Biology。サイトトップの画像は海藻をべるマナティ。画像はWikimedia Commons 生物学者たちは、生態系を破壊する最も効率的な方法を見い出した――Google社の検索アルゴリズムに基づいてだ。 物網の要になる生物種が絶滅すると、生態系全体の崩壊を引き起こす危険性があるということは、以前から科学者の間では知られていた。だが、種の相互作用は無数ともいえるほど存在するため、どの動物や植物がいちばん重要なのかを推測することは難しい。 [現在の群集生態学では「物連鎖」という言葉より、物網という概念の方が現実的なものとして重視されてきている

  • My Bookmark: Machine Learning

    私のブックマーク 学習 1. はじめに 機械学習の研究は飛躍的な進歩を遂げ、専門化が進んでいる。元々は人間の学習能力を目標に始められた研究分野だが、それどころではなくなってきたようで、全体を一望するのが困難になってきた。しかも、機械学習の一分野である帰納論理プログラミングについて、理科大の溝口文雄教授によるブックマークが昨年9月号で取り上げられていて、機械学習全体をカバーする有力サイトも紹介済だったりする。そこで、大規模で便利なサイトに筆者がたまたま訪れたサイトを織り交ぜながら、紹介したい。また、このコラムで紹介済のブックマークは省くか、違った説明を試みるので、バックナンバーも合わせて参照されたい。 2. ポータルサイト 機械学習について調べ物をするとき、とりあえずなんでもそろっているポータルサイトとしては、MLnet(Machine Learning network, http://ww

  • ビジュアル・プログラミング

    Powered by SmartDoc ビジュアル・プログラミング >> ビジュアル・プログラミング 服部 隆志 (印刷用 PS 版は /home/hattori/visual-prog/latex2e/main.ps です) 目次 ビジュアル・プログラミングとは プログラミング言語の役割 プログラミング言語に影響を与えたもの 計算モデルと抽象化 命令型パラダイム 関数型パラダイム 論理型パラダイム オブジェクト指向 テキスト言語の利点と欠点 欠点 利点 ビジュアルプログラミング言語の種類 アルゴリズムの図形的表現 制御の流れの図形化 フローチャート PAD NSチャート データフロー図 StateChart ペトリネット オートマトン 有限オートマトン セルラーオートマトン 定義 Artificial Life との関係 グラフ文法 形式言語理論 グラフ文法の例 Parsingの過程 埋

  • 有限混合分布モデルの学習に関する研究 (Web 版)

    次へ: 序 論 有限混合分布モデルの学習に関する研究 (Web 版) 赤穂 昭太郎 2001 年 3 月 15 日学位授与(博士(工学)) 序 論 研究の背景と位置づけ 論文の構成 有限混合分布とその基的性質 定義 モジュール性 階層ベイズモデルとの関係 パラメトリック性とノンパラメトリック性 RBF ネットワークとの関係 学習における汎化と EM アルゴリズム 最尤推定 汎化と竹内の情報量規準 (TIC) 汎化バイアス 竹内の情報量規準 (TIC) 冗長性と特異性 EM アルゴリズム 一般的な特徴 一般的な定式化 独立なサンプルが与えられた時の混合分布の学習 独立な要素分布の場合 サンプルに重みがある場合 EM アルゴリズムの一般化 EM アルゴリズムの幾何学的解釈 正規混合分布の汎化バイアスの非単調性について はじめに Radial Basis Boltzmann Machine (

  • 数列データベース:On-Line Encyclopedia of Integer Sequences - 発声練習

    みなさん、あるアルゴリズムの計算量の上限値や下限値を考えているときに自分で数列の一般式を求めることありませんか?そんなあなたにJohn H. Conway and Richard K. Guy著, 根上 生也訳:数のに紹介されていました、数列データベースをご紹介いたします。 On-Line Encyclopedia of Integer Sequences この数列データベースはキーワードや数列を検索キーとして登録されているデータベースの中から検索をしてくれます。 例えば、深さnのラベルなし二分木の種類数は、`1, 3, 21, 651, 457653'という数列になります。これを検索キーとして検索すると以下のような検索結果がでます。 Number of binary trees of height n; or products (ways to insert parentheses)

    数列データベース:On-Line Encyclopedia of Integer Sequences - 発声練習
  • [O] 神嶌敏弘「推薦システムのアルゴリズム」

    « 脳年齢テスト 整数の瞬間記憶 | トップページ 神嶌敏弘「推薦システムのアルゴリズム」 [日記] 神嶌敏弘さんの「推薦システムのアルゴリズム」を、人工知能学会誌を借りて通読しはじめたところです。 - 人工知能学会誌:目次 -- http://www.ai-gakkai.or.jp/jsai/journal/contents/ - Vol.22 No.1(2007年1月) - Vol.23 No.1(2008年1月) - Vol.23 No.2(2008年3月) に掲載されており、全部で40ページ以上。 なんで急に読み始めたのかというと、ある疑問が湧いたからです。 以下のようなコンテストが開催され、人工知能学会も協賛してるみたいなので、楽しいかもなと興味をもったのです。 - リコメンデーションコンテスト -- http://kgmod.jp/contest/ # 参