ラベル伝播アルゴリズム (LPA) は、半教師付き機械学習アルゴリズムである。 頂点のラベル (コミュニティ) は、隣接する頂点のラベルに依存します。 依存度は、頂点間の類似性によって決定される。 データは、反復伝搬更新を実行することによって安定する。 Label Propagation Clusteringコンポーネントは、グラフ内のすべての頂点の収束後に各頂点のグループを提供できます。 アルゴリズムの説明グラフクラスタリングは、グラフのトポロジに基づいてグラフをサブグラフに分割するために使用されます。 したがって、サブグラフ内の頂点間のリンクは、サブグラフ間のリンクよりも多くなります。 このアルゴリズムは、一意のラベルを使用して各頂点を初期化し、頂点を反復し、コミュニティ内の隣接する頂点の中で最も頻繁に現れるラベルを頂点に割り当てます。 アルゴリズムは、各頂点がその隣接する頂点の中で最
はじめに こんにちは,(株)日立製作所 研究開発グループ サービスコンピューティング研究部の露木です。 機械学習で一般的な教師あり学習の問題として,正解ラベルの付いているデータを大量に準備しなければならないことが挙げられます。この問題を解決するために,ラベルなしデータを活用することで必要なラベル付きデータの数を削減する半教師あり学習の分野があります。そして,半教師あり学習の一種にグラフベースのラベル伝播法があります。 ラベル伝播法は,あるデータのラベルをその近傍にあるラベルのないデータにコピーする (伝播させる) ことで,少量のラベル付きデータからモデルを学習します。また,「グラフベース」と呼ばれる理由は,ひとつひとつのデータをノード,データの類似度をエッジ (の重み) としたグラフを構成して,このグラフ上でラベルを伝播するからです。このとき,類似度の計算にカーネル法を組み合わせることで非
グラフベース半教師あり学習 (SSL) のLabel propagation (LP) とLabel spreading (LS) の違いを説明している文献があまりなかったのでそれについてちょっと書いてみる。SSL自体とかLP、LSについては以下の記事にまとめた文献がいい感じなのでそちらを参照。 半教師あり学習のモデル仮定 - でかいチーズをベーグルする LPの元論文はこれ (PDF) "Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions", ICML2003 LSの元論文はこれ (PDF) "Learning with Local and Global Consistency", NIPS2003 まとめ LPとLSの超概要、ランダムウォークとしての解釈、最適化問題としての解釈を書いた 軽い実験をした
Balanced Label Propagation for Partitioning Massive GraphsACM International Conference on Web Search and Data Mining (WSDM) Partitioning graphs at scale is a key challenge for any application that involves distributing a graph across disks, machines, or data centers. Graph partitioning is a very well studied problem with a rich literature, but existing algorithms typically can not scale to billion
tslearnとは 時系列分析のための機械学習ツールを提供するPythonパッケージで、scikit-learnをベースとして作られているみたいです。 主な機能として、クラスタリング、教師ありの分類、複数の時系列を重ねた際の重心の計算ができたりします。 今回使用するに至った一番のモチベーションは、波形や振動などの時系列データに対してクラスタリングできるというところです。 tslearnインストール pipコマンドでインストールできます。 Kshapeというクラスタリング手法 今回tslearnで使用するモジュールとして、Kshapeというクラスタリング手法を時系列データに適用していきたいと思います。 Kshapeは2015年に下記の論文で提唱された方法で、以下の流れで実行されるアルゴリズムになります。 相互相関測定に基づいた距離尺度を使う(Shape-based distance: SBD
Stay organized with collections Save and categorize content based on your preferences. This page shows you how to deploy an Ingress that serves an application across multiple GKE clusters. To learn more about Multi Cluster Ingress, see Multi Cluster Ingress. For a detailed comparison between Multi Cluster Ingress (MCI), Multi-cluster Gateway (MCG), and load balancer with Standalone Network Endpoin
人工知能学会研究会資料 SIG-SWO-A1302-09 Pose Guide Ontologyによるアイドル画像のポーズ分類 Classification of Idol Photography Based on Pose Guide Ontology 田代 和浩 1∗ 川村 隆浩 1,2 清 雄一 1 中川 博之 1 田原 康之 1 大須賀 昭彦 1 Kazuhiro Tasiro1 Takahiro Kawamura1,2 Yuichi Sei1 Hiroyuki Nakagawa1 Yasuyuki Tahara1 Akihiko Ohsuga1 1 電気通信大学 大学院情報システム学研究科 1 University of Electro-Communications Graduate School of Information Systems 2 株式会社 東芝 研究開発センター
画像xエンジニアリング勉強会(GXEB)という勉強会で「erockrの運用とデータの活用」というテーマでライトニングトークをしてきたので、その内容を文字におこしてみました。 ちなみにこのGXEBという勉強会はOppai-Detect3 - ゆーすけべー日記などのすごい発表も聞けて、とても楽しい勉強会でした!他の人の発表は2010-11-27 - 海老かつ日記をご覧ください。 ※発表でフォローしきれなかったところは追補しました。 koni 大学3年生 (就職活動中) 趣味:ウェブサービスをつくること、テニス Twitter: @koni 育ち:千葉県流山市 今:埼玉県所沢市 お願い ライトニングトークどころか、こういった勉強会は初めてです。緊張しています。どうか暖かい気持ちで見守ってください。 →「こに」の自己紹介 - konisimple erockr? erockr = flickr +
Mahout でのデータマイニング。mahout.clustering.kmeans を使ったクラスター分析を実装してみた。Mahoutは、Hadoop上で動くデータマイニング・機械学習の各種アルゴリズムが実装されているライブラリ。 クラスター分析 クラスター分析の方法論自体の内容は以下のエントリにまとめてある。 R言語プログラミング: クラスター分析 - 階層的クラスタリング - hamadakoichi blog 第2回データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#2) を開催しました - 「はじめてでもわかる R言語によるクラスター分析」 - hamadakoichi blog 第3回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3) を開催します - hamadakoichi blog R言語プログラミング: クラスター分析
作成者: 怡土順一, 最終変更者: 怡土順一, 最終変更リビジョン: 366, 最終変更日時: 2008-02-11 21:51:13 +0900 (月, 11 2月 2008) ■ クラスタリング クラスタリングとは,与えられたデータを,一定の規則に従っていくつかの組(クラスタ)に分類する処理である. 画像処理の分野では,画像そのものの分類はもちろん,各画像領域の分類や減色処理などに利用される. クラスタリングを行うための代表的な手法として, 初期データ数個のクラスタから各クラスタを階層的に結合していく手法, ニューラルネットの一種である自己組織化マップ(Self-organizing maps, SOM)などの手法, ユーザが指定した個数のクラスタにデータを分割するK-Means法(k平均法)などが挙げられる. また,さらに,データが複数のクラスタにまたがる様な手法や,特徴空間距離以外
K-means法によるクラスタリングでは、あらかじめクラスタ数Kを固定する必要があります。HatenarMapsでもK-means法を使っているのですが、クラスタ数は(特に根拠もなく)200個に決め打ちになっていました。 これに対して、X-means法というK-means法の拡張が提案されていることを知りました。X-means法を使うと、データに応じて最適なクラスタ数を推定できます。 K-means and X-means implementations http://www-2.cs.cmu.edu/~dpelleg/download/xmeans.pdf X-means法の考え方は、K=2で再帰的にK-means法を実行していくというもので、クラスタの分割前と分割後でBIC(ベイズ情報量規準)を比較し、値が改善しなくなるまで分割を続けます。 調べたところ、Javaのデータマイニングツー
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く