[B! clustering] torutoのブックマーク

toruto id:toruto

clusteringに関するtorutoのブックマーク (44)

untitled
辻井研演習３単語クラスタリングの諸考察岡野原大輔 04/05/24 1 背景集合中の要素を、それらの間で定義される類似度や全体の整合性を基準にして似ている要素同士で分類するクラスタリング技術は多くの分野において、有効であることが示されてきた。自然言語処理分野においても、単語を分類したり、文書を分類するなど、多くのケースで使用されている。単語を Class に分類することの利点は、N-gram などの学習において、推定すべきパラメーター数に対し、得られる情報が少ない場合に起こる Sparseness の問題が、Class N-gram を用いた補間 [2] によって解決され、より頑健なモデルとなり、言語モデルの精度が向上することが挙げられる。他の利点として、文書クラスタリングにおいて、文書中の単語の出現状況を各文書の feature として用いて分類する場合、単語数
toruto 2010/05/22
clustering
リンク
Power Iteration Clustering - tsubosakaの日記
岡野原さんのtweetで紹介されていたPower Iteration Clusteringという文章分類の手法に関する論文[1,2]を読んでみた。背景 n個のデータX={x_1,...,x_n}が与えられたときに各データ間の類似度s(x_i,x_j)を成分に持つ類似度行列Aを考える。また次数行列としてAのi行目の値を合計したd_{ii} = \sum_j A_{ij}を対角成分にもつ対角行列をDとする。このときW:=D^{-1} Aをnormalized affinity matrixと定義する。簡単のためWはフルランクであるとする。この行列はすべての要素が1となる固有ベクトルをもち、この時固有値は1となる。実はこれが最大固有値である(行列Aの行和が1となること+Gershgorin circle theorem(en)より導かれる)。また、行列Wの固有値を1=λ_1>=...>=
toruto 2010/05/15
algorithm

clustering

research

自然言語処理
リンク
Streaming k-means approximation - tsubosakaの日記
実家に帰省中，電車の中で読んでた論文の紹介。概要 k-meansはクラスタリングテクニックとして非常に基本的な手法である。しかし、k-meansでは全データに対してラベリングを複数回繰り返す必要があり、全データ点を保存する必要がある、そこでk-meansの出力であるk個のクラスタ中心をワンパスで見つける方法を提案する。ここで得られるクラスタ中心は最適値と比較したときにO(log k)の近似となっているストリームアルゴリズムについて本論文で言っているStreamingの意味としては入力を前から見ていって、すべて保存しないアルゴリズムのことを言っている。いわゆるオンラインアルゴリズムのように入力が入ってくるたびに何かしらの結果が得られるわけではない。また，ストリームの長さは有限である事を仮定している。 k-meansとは k-meansとはデータ点 X = {x_1 , ... x_
toruto 2009/12/31
algorithm

clustering

study

論文
リンク
Tag Hierarchyをつくったよ
来年も作りたい！ふきのとう料理を満喫した　2024年春の記録春は自炊が楽しい季節 1年の中で最も自炊が楽しい季節は春だと思う。スーパーの棚にやわらかな色合いの野菜が並ぶと自然とこころが弾む。中でもときめくのは山菜だ。早いと2月下旬ごろから並び始めるそれは、タラの芽、ふきのとうと続き、桜の頃にはうるい、ウド、こ…
toruto 2009/02/19
http://www.citeulike.org/user/menjo/article/1389319 このあたりが国内だと関連研究なのかな？国外だともっと沢山見当たるか。たしか、Yahoo! incの人の論文であった気がする。

clustering

tag

study
リンク
k-means++を試し中 - のんびり読書日記
http://d.hatena.ne.jp/kaiseh/20090113/1231864089 上の記事を見て、k-means++が面白そうだったので、ちょっとだけ試してみた。 k-meansは初期値に大きく依存するところが嫌い。初期値への依存度を軽減するために、初期値を変えて何回か試行してその中で一番良い結果のものを使用する、なんてことをしないといけない。そのため処理時間も馬鹿にならなくなってしまうので、ちょっとこれじゃあなあ…ということで使ってなかった。でも今回のk-means++は初期値をうまく求めることで、精度と速度の向上が得られるらしい。これはうれしい！論文著者のページにサンプルコードがあったので試してみようと思ったんだけど、MFCを使っているみたいで僕の環境ではコンパイルできず…。 http://www.stanford.edu/~darthur/kMeansppTest
toruto 2009/01/17
clustering

perl

programming
リンク
K-means法によるクラスタリングのスマートな初期値選択を行うK-means++ - kaisehのブログ
K-means法は、入力データからK個のランダムな個体を初期クラスタの中心として選択し、以降、クラスタの重心を移動させるステップを繰り返すことでクラスタリングを行う非階層的手法です。K-means法はシンプルで高速ですが、初期値依存が大きいのが弱点で、不適切な初期値選択をすると間違った解に収束してしまいます。以下は、Introduction to Information Retrievalの16章に出てくる例です。 {d1, d2, ..., d6}をK=2でクラスタリングする場合、{{d1, d2, d4, d5}, {d3, d6}}が大域最適解ですが、初期クラスタの中心をd2, d5で与えると、{{d1, d2, d3}, {d4, d5, d6}}という誤った解に収束してしまいます。この問題を改善するK-means++という手法を見つけたので、試してみました。 K-means+
toruto 2009/01/14
algorithm

clustering
リンク
はてなブログ | 無料ブログを作成しよう
ハリイカの焼売と中華炒めハリイカをよく、見かけるようになりましたよ。生け簀で、泳いでいたものを一杯購入しました立派な大きな墨袋や肝は冷凍保存して柔らかな身は季節のお豆、お野菜と合わせて中華の炒めものに。新鮮なにんにくの茎は刻み、香り高く食欲そそられますね下足はミンチにし…
toruto 2008/12/19
コードを後で読みたい。後で読むとか言うと、読まなそうだけど。

c++

clustering

説明

programming

機械学習
リンク
はてなブログ | 無料ブログを作成しよう
オーベルジーヌ実食レポ食べ物の鼻塩塩(未だに通じるのかな) オーベルジーヌというカレーをご存知だろうか都内にあるデリバリー専門のカレー屋で、ロケ弁などで大人気の本格欧風カレーが楽しめるらしいいいな〜いいな〜オブザイヤー都内の奴らはこんな良いモン食ってんのか許せねえよ………
toruto 2008/12/17
クラスタ数が自動的に求まるのは便利です。 K-meansのように乱数で初期値を決めたりしないので、何度やっても同じ結果が得られます。

clustering

algorithm

c++

programming

機械学習
リンク
CiteSeerX
About CiteSeerX is an evolving scientific literature digital library and search engine. @2007-2024 The Pennsylvania State University
toruto 2008/12/16
algorithm

clustering

論文
リンク
お気に入りに入れる条件って
お気に入りに入れる条件ってどういう人をはてブのお気に入りに入れるべきかというのは実は難しいんじゃないか。その基準がどうにも明らかでないと、お気に入りに入れるべき人を自動で推薦、みたいなのって意味がないと思うのだけど、どうなんでしょ。第2回SBM研究会の会場で大西さんにそういう質問したんだけど、つまり「類似度の高い人を推薦」つったって、類似度が最大、つまり完全に同じものをブクマしている人をお気に入りに入れても、それって意味あるの？　という問題。類似度の計算はいろいろあるみたいなんだけど、それはとりあえず置いておいて、とにかく類似度が計算できるとしましょう。そんで、なんで類似度が高くなるのかというと、二人が同じところを巡回しているからだ、というのはあるんじゃないか。はてブのホッテントリから同じようにピックアップしてブクマしてたら、そりゃ傾向が似るでしょうと。 R
toruto 2008/12/14
どんな視点･思想に基づいてレコメンドなどを行う際のスコア定義を決めるするかって話。お気に入り推薦で、万人に受ける定義を作るのは難しいだろうってこと。色々、考え方はあるだろうし。

自然言語処理

クラスタリング

clustering

読み物

はてな

hatena
リンク
はてなブログ | 無料ブログを作成しよう
オマーン旅行 2024 2024年のゴールデンウィーク前半はオマーンの首都マスカットに旅行に行ってきたのでその旅の記録を書く。 GWに妻が子どもを実家に連れて帰るとのことで、5日間の自由時間が手に入ったので、ここぞとばかりに海外旅行行きを決めた。なぜオマーン 5日しかなく、複数国を…
toruto 2008/12/12
clustering

algorithm

説明

読み物

論文
リンク
はてなブログ | 無料ブログを作成しよう
文学フリマ東京38に行ってきました bunfree.net文学フリマに遊びに行ってたくさんお買い物をし、大変刺激を貰ったのち、そういえば最近ブログの更新ができてないなと思ったら最終更新が2月で止まっていることに愕然としました。ので、熱い気持ちのうちに更新しておきます。もちろんまだほぼ読んでいない…
toruto 2008/12/07
clustering

algorithm

gps

画像処理

機械学習

c++

programming
リンク
Clustering of time series data—a survey - ScienceDirect
toruto 2008/06/19
時系列

論文

clustering
リンク
文書クラスタリングの技法ゼミ
III. 文書クラスタリングの技法 A. 単一パスアルゴリズム 1. k-means 法の適用 2. Willett のアルゴリズム 3. 平均クラスタリング・アルゴリズム
toruto 2008/04/26
資料

clustering
リンク
データマイニング分野のクラスタリング手法（1） (application/pdf オブジェクト)
toruto 2008/01/18
説明

clustering

資料
リンク
accelerated PBN : 混合ガウス分布によるクラスタリングを実装するときは・・・
toruto 2007/12/24
clustering
リンク
accelerated PBN : LIBLINEARってご存知でした？
no room for squaresいま，数万件程度の文書集合でクラスタリングの実験をしています．そこで，「この問題，教師有りでやったら，どのくらいの精度になるのかなぁ～？」と思い，svmで数万件，数万語規模のデータでもちゃんと動いてくれるものを探したら，LIBSVMの別バージョン的な，下記のものがみつかりました．LIBLINEARというツールです． http://www.csie.ntu.edu.tw/~cjlin/liblinear/ 速いです．まあとにかく・・・これで，自分の解いている問題がどのくらい難しいのか，を知るための参考になる数値が，得られました．
toruto 2007/12/12
clustering
リンク
FrontPage - 情報論的学習理論と機械学習の「朱鷺の杜Wiki」
朱鷺の杜Wiki（ときのもりうぃき）† 朱鷺の杜Wikiは，機械学習に関連した，データマイニング，情報理論，計算論的学習理論，統計，統計物理についての情報交換の場です．これら機械学習関係の話題，リンク，関連事項，書籍・論文紹介などの情報を扱います．更新されたページを確認するにはRSSリーダを使って右下のRSSリンクをチェックするか，最終更新のページを参照してください．ページの中でどこが更新されたかを見るには，上の「差分」をクリックして下さい．数式の表示に MathJax を利用しています．数式の上でコンテキストメニューを使うと各種の設定が可能です．特に設定をしなくても数式は閲覧できますが，フォントをインストールすれば数式の表示がきれいで高速になります．詳しくは数式の表示のページを参照して下さい．ごく簡単なWikiの使い方がこのページの最後にあります．トップページやメニューなど
toruto 2007/11/21
機械学習

wiki

clustering

資料

説明

自然言語処理
リンク
Fuzzy c-Means法
ここまでは，ある個体がクラスターに属するか否かの二者択一の問題を考えていたが，現実世界の問題を考えた際には，ある個体が唯一のクラスターに完全に属するという状況の他にも，複数のクラスターにある程度ずつ属しているという状況もしばしば存在する．そこで，個体のクラスターへの所属の度合いをあいまいに表そうとするファジィクラスタリングが提案されている．ある個体（人物）を二つのクラスターに分類することを考えよう．もし，二つのクラスターが「男」と「女」のグループに対応しているとするならば，その個体はいずれか一方のクラスターに所属し，もう一方には該当しないだろう．しかし，二つのクラスターが「野球」と「サッカー」に対応するグループであり，クラスターへの所属がその個体の嗜好を表す場合であったなら，どうなるであろうか．どちらかといえば「野球」が好きだが，「サッカー」もある程度好むということもあり得る．おのおの
toruto 2007/11/19
clustering
リンク
rep.dvi
Markov Cluster Algorithm Web † † Web Web Kleinberg HITS Web Web HITS Web Markov Cluster Algorithm ( ) Web The Discovery Method of Multiple Web Communities with Markov Cluster Algorithm Kazutami KATO† and Hiroshi MATSUO† A web community is a set of web pages created by individuals or associations with a common interest on a topic. Kleinberg’s HITS algorithm find a web community on a query topic by
toruto 2007/11/15
web

clustering

論文
リンク
1 2 3 次のページ