タグ

クラスタリングに関するAinHandのブックマーク (9)

  • クラスタリングツール「bayon」を試してみた - download_takeshi’s diary

    夜中の3時半過ぎですが、久しぶりになんか書こうと思います。 ちょっと前にmixiのfujisawaさんという方がすごくナイスなソフトウェアをリリースしてくれました。 「軽量データクラスタリングツールbayon」 http://alpha.mixi.co.jp/blog/?p=1049 今までにもCLUTOというすごく高精度なクラスタリングツールがありましたが、こいつはライセンス的にちょっとイケズな感じでした。そこにbayonがスーパーマンのように登場してくれました!「商用利用OKだよ」ということで、仕事の上での悩みが解決しました。当にありがたいことです。 さてさて、早速使ってみたいんですが、ブログに書くのにちょうどいい題材がなかったので、以前に自分が書いたエントリからデータを持ってくることにしました。 「芸能人の相関関係を探ってみるスクリプト」 http://d.hatena.ne.jp

    クラスタリングツール「bayon」を試してみた - download_takeshi’s diary
  • 発表文献 - Toshihiro Kamishima

    [解説] [書籍] [論文] [研究会] — [DBLP] [Google Scholar] [ResearchGate] [SpeakerDeck] [CiNii] 解説・サーベイ 以下の講演資料の他に研究紹介のページにも 講義資料などをまとめています. 神嶌 敏弘 “推薦システムへの深層学習の適用” 電子情報通信学会学会誌, vol.105, no.5, pp.430-434 (2022) 公式サイト(会員無料) 神嶌 敏弘 “私のブックマーク「人工知能と公平性」” 人工知能, vol.37, no.2, pp.230-233 (2022) 公式サイト, 印刷版 神嶌 敏弘 “機械学習と公平性に関するシンポジウム” (2020) 公式サイト, 発表資料 神嶌 敏弘, 鹿島 久嗣 “機械学習分野の俯瞰と展望” 人工知能, vol.34, no.6, pp.905-915 (2019) 公

    発表文献 - Toshihiro Kamishima
  • 今日から使える! みんなのクラスタリング超入門

    第2回さくさくテキストマイニング勉強会で発表したk-meansに関する資料です。Weniger lesen

    今日から使える! みんなのクラスタリング超入門
  • パターン認識02 k平均法ver2.0

    テーマ: クラスタリングを行う際の適切なクラスタ数を機械的に求める手法の紹介 内容: - Elbow法による最適クラスタ数の探索方法 - 適切なクラスタ数の機械的な決定方法 - クラスタ数を決める指標 - NBClustの使用方法、実行例

    パターン認識02 k平均法ver2.0
  • Visual Wordsを用いた類似画像検索 - 人工知能に関する断創録

    類似画像検索システムを作ろう(2009/10/3) 3日で作る高速特定物体認識システム(2009/10/18) に続くOpenCVプロジェクト第三弾です。今回は、上の二つをふまえてカラーヒストグラムではなく、局所特徴量(SIFTやSURF)を用いた類似画像検索を試してみます。局所特徴量はグレースケール画像から抽出するため、カラーヒストグラムと違って色は見ていません。画像の模様(テクスチャ)で類似性を判定します。 実験環境は、Windows 7、MinGW C++コンパイラ、OpenCV2.0、Python 2.5です。EclipseでMinGWを使う方法はEclipseでOpenCV(2009/10/16)を参照してください。Visual C++にはないディレクトリスキャン関数を一部使っているのでVisual C++を使う場合は、少しだけ修正が必要です。 Bag-of-Visual Wor

    Visual Wordsを用いた類似画像検索 - 人工知能に関する断創録
  • 多次元尺度法で遊んでみる(オレ流 R入門) - ダウンロードたけし(寅年)の日記

    多次元データをクラスタリングする際に、それらのデータを2次元データに落とし込んで可視化させたいことがあります。そんな時に便利なのが「多次元尺度法」という手法です。 個々のデータ間の距離/類似度が分かっている場合に、それらのデータの座標を求めて、データ構造を復元するようなものです。 詳しい説明は割愛します。知りたい人はwikipediaと金先生の連載を読んで下さい。 体で覚えるタイプなので、とにかく何かデータを処理してみます。 「山手線」の地図を再現 さっそく試してみます。 山手線の各駅同士の直線距離を測っておいて、そのデータから実際の位置関係を復元できるか実験してみます。 山手線全駅の距離を測るのはめんどいので、適当に抜粋してしらべました。 以下のような表になりました。単位はメートルです。 さてさて、この距離表からどのようなデータ構造が再現されるでしょうか? このデータを統計解析ソフトRで

    多次元尺度法で遊んでみる(オレ流 R入門) - ダウンロードたけし(寅年)の日記
  • クラスタリングの定番アルゴリズム「K-means法」をビジュアライズしてみた - てっく煮ブログ

    集合知プログラミング を読んでいたら、K-means 法(K平均法)の説明が出てきました。K-means 法はクラスタリングを行うための定番のアルゴリズムらしいです。存在は知っていたんだけどいまいちピンときていなかったので、動作を理解するためにサンプルを作ってみました。クリックすると1ステップずつ動かすことができます。クラスタの数や点の数を変更して、RESET を押すと好きなパラメータで試すことができます。こうやって1ステップずつ確認しながら動かしてみると、意外に単純な仕組みなのが実感できました。K-means 法とはK平均法 - Wikipedia に詳しく書いてあるけど、もうすこしザックリと書くとこんなイメージになります。各点にランダムにクラスタを割り当てるクラスタの重心を計算する。点のクラスタを、一番近い重心のクラスタに変更する変化がなければ終了。変化がある限りは 2. に戻る。これ

  • 適切なクラスタ数を推定するX-means法 - kaisehのブログ

    K-means法によるクラスタリングでは、あらかじめクラスタ数Kを固定する必要があります。HatenarMapsでもK-means法を使っているのですが、クラスタ数は(特に根拠もなく)200個に決め打ちになっていました。 これに対して、X-means法というK-means法の拡張が提案されていることを知りました。X-means法を使うと、データに応じて最適なクラスタ数を推定できます。 K-means and X-means implementations http://www-2.cs.cmu.edu/~dpelleg/download/xmeans.pdf X-means法の考え方は、K=2で再帰的にK-means法を実行していくというもので、クラスタの分割前と分割後でBIC(ベイズ情報量規準)を比較し、値が改善しなくなるまで分割を続けます。 調べたところ、Javaのデータマイニングツー

    適切なクラスタ数を推定するX-means法 - kaisehのブログ
  • 332パターン認識 - 過去を知れば未来が分かる

    世の中には、既に分かっている過去のデータがあります。このデータを利用しない手はありません。過去のデータを利用すれば、もし分からない未来のデータが出現した場合、過去のパターンから有効な知識として活用させることができます。 今回、ご紹介するのはそんな過去を知れば未来が見えてくる手法です。概して『パターン認識』と呼ばれる手法とその類です。 「パターン認識」、難しい言葉に聞こえるかもしれませんが、我々は常にパターン認識をしております。 例えば、ある人の顔を見たときに瞬時に記憶の中から誰なのか識別してますし、初めて見る場合でも似たような人物を探しどんな人間なのか当てはめたりすることもできます。 楽しいときはどんな表情をするか、苦しいときはどんな表情をするかという「パターンクラス」を私たちは持っています。初めて会う人の表情でさえ、感情をよみとる能力を持ち合わせています。それがパターン認識です。

  • 1