タグ

クラスタリングに関するkitanowのブックマーク (5)

  • scikit-learnとgensimでニュース記事を分類する - Qiita

    こんにちは、初心者です。 適当なニュース記事があったとして、ニュースのカテゴリを推測するみたいな、よくあるやつをやってみました。Python3.3を使いました。 何をやるの? データセットはlivedoorニュースコーパスを使いました。 http://www.rondhuit.com/download.html#ldcc クリエイティブ・コモンズライセンスが適用されるニュース記事だけを集めてるそうです。 トピックニュース、Sports Watch、ITライフハック、家電チャンネル 、MOVIE ENTER、独女通信、エスマックス、livedoor HOMME、Peachy というクラスがあります。 データは、1記事1テキストファイルの形式で、クラス別のディレクトリにいっぱい入っています。 これを学習して、未知の文章に対して、お前は独女通信っぽい、お前は家電チャンネルっぽい、みたいに、分類が

    scikit-learnとgensimでニュース記事を分類する - Qiita
  • クラスタリングの定番アルゴリズム「K-means法」をビジュアライズしてみた - てっく煮ブログ

    集合知プログラミング を読んでいたら、K-means 法(K平均法)の説明が出てきました。K-means 法はクラスタリングを行うための定番のアルゴリズムらしいです。存在は知っていたんだけどいまいちピンときていなかったので、動作を理解するためにサンプルを作ってみました。クリックすると1ステップずつ動かすことができます。クラスタの数や点の数を変更して、RESET を押すと好きなパラメータで試すことができます。こうやって1ステップずつ確認しながら動かしてみると、意外に単純な仕組みなのが実感できました。K-means 法とはK平均法 - Wikipedia に詳しく書いてあるけど、もうすこしザックリと書くとこんなイメージになります。各点にランダムにクラスタを割り当てるクラスタの重心を計算する。点のクラスタを、一番近い重心のクラスタに変更する変化がなければ終了。変化がある限りは 2. に戻る。これ

  • 第1回 クラスタリングを5分で完全理解

    クラスタリングとは “クラスタ”とは“群れを成す”とか“房になる”といった意味です。コンピュータ用語でいう,クラスタリングとは,複数のコンピュータを房のようにつなげる,といった意味になります。すなわち,複数のコンピュータを接続し,全体で1台のコンピュータであるかのように振る舞わせる技術です。 クラスタリングの目的は,大きく2つに分類できます。 (1) 拡張性,高速性:接続するコンピュータの台数を増やして,性能の向上を図る (2) 高可用性:1台が停止してもシステム全体が止まることはなく,処理を継続させる (1)を実現する技術としては,「HPC(High Performance Computing)」や「ロードバランサ(負荷分散)」というキーワードが挙げられます。 連載では,(2)の高可用性を実現するクラスタリング技術を対象とします。この高可用性を実現するためのソフトは(1)の技術と区別し

    第1回 クラスタリングを5分で完全理解
  • The long way to Matt's Home Page

  • �����ΰ渶 - ʸ�񥯥饹�����󥰤μ�ˡ������

    ��ʸ���򥯥饹�����󥰤�����ˡ�Ȥ����ΤϤ��줳�������ۤ����Ƥ����Ƥ����ΤǤ������������θ�ή��é���ȳ��ͤ����Ĥ��˹Ԥ��夯�餷���Ǥ��� ���ʡ֤������ꥹ�Ȥ˲ä����٤��פȤ����֤��μ�ˡ�ʤ餳�Υڡ��ѡ��Τۤ����ɤ����פȤ����Τ������Х������ȤǤ���Ŧ�������ޤ��� Naive Beyes (�ʥ����֡��٥���) David D. Lewis and Marc Ringuette. A comparison of two learning algorithms for text categorization. In Proceed-ings of SDAIR-94, 3rd Annual Symposium on DocumentAnalysi

  • 1