並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 472件

新着順 人気順

クラスタリングの検索結果1 - 40 件 / 472件

  • データサイエンティストによる統計入門 ― k平均法でデータをクラスタリングしてみよう!|ハイクラス転職・求人情報サイト AMBI(アンビ)

    データサイエンティストによる統計入門 ― k平均法でデータをクラスタリングしてみよう! ビッグデータ、データサイエンス、人工知能など、統計学を主軸においた分野が隆盛ですが、統計学には高いハードルを感じる方も少なくないでしょう。k平均法を実際に手を動かしながら理解することで、データ分析を身近に感じることができます。 はじめまして、藤井健人(@studies)と申します。イタンジ株式会社でデータ基盤周りの運用を担当しています。 「ビッグデータ」「データサイエンス」「人工知能」といったバズワードに代表されるように、統計学を主軸においた分野の隆盛が日常となって久しいです。 しかし「統計学は学問的な要素があり難しい」という印象を持たれやすく、「実務に活かすのはハードルが高い、怖い」と感じる方も少なくないのではないでしょうか。 そういった方を対象に、今回は統計学の手法の一つであるk平均法を学んでいただ

      データサイエンティストによる統計入門 ― k平均法でデータをクラスタリングしてみよう!|ハイクラス転職・求人情報サイト AMBI(アンビ)
    • クラスタリングの定番アルゴリズム「K-means法」をビジュアライズしてみた - てっく煮ブログ

      集合知プログラミング を読んでいたら、K-means 法(K平均法)の説明が出てきました。K-means 法はクラスタリングを行うための定番のアルゴリズムらしいです。存在は知っていたんだけどいまいちピンときていなかったので、動作を理解するためにサンプルを作ってみました。クリックすると1ステップずつ動かすことができます。クラスタの数や点の数を変更して、RESET を押すと好きなパラメータで試すことができます。こうやって1ステップずつ確認しながら動かしてみると、意外に単純な仕組みなのが実感できました。K-means 法とはK平均法 - Wikipedia に詳しく書いてあるけど、もうすこしザックリと書くとこんなイメージになります。各点にランダムにクラスタを割り当てるクラスタの重心を計算する。点のクラスタを、一番近い重心のクラスタに変更する変化がなければ終了。変化がある限りは 2. に戻る。これ

      • 軽量データクラスタリングツールbayon - mixi engineer blog

        逆転検事を先日クリアして、久しぶりに逆転裁判1〜3をやり直そうか迷い中のfujisawaです。シンプルなデータクラスタリングツールを作成しましたので、そのご紹介をさせていただきます。 クラスタリングとは クラスタリングとは、対象のデータ集合中で似ているもの同士をまとめて、いくつかのグループにデータ集合を分割することです。データマイニングや統計分析などでよく利用され、データ集合の傾向を調べたいときなどに役に立ちます。 例えば下図の例ですと、当初はデータがゴチャゴチャと混ざっていてよく分からなかったのですが、クラスタリングすることで、実際は3つのグループのデータのみから構成されていることが分かります。 様々なクラスタリング手法がこれまでに提案されていますが、有名なところではK-means法などが挙げられます。ここでは詳細については触れませんが、クラスタリングについてより詳しく知りたい方は以下の

          軽量データクラスタリングツールbayon - mixi engineer blog
        • クラスタリング (クラスター分析) - Toshihiro Kamishima

          クラスタリング (clustering) とは,分類対象の集合を,内的結合 (internal cohesion) と外的分離 (external isolation) が達成されるような部分集合に分割すること [Everitt 93, 大橋 85] です.統計解析や多変量解析の分野ではクラスター分析 (cluster analysis) とも呼ばれ,基本的なデータ解析手法としてデータマイニングでも頻繁に利用されています. 分割後の各部分集合はクラスタと呼ばれます.分割の方法にも幾つかの種類があり,全ての分類対象がちょうど一つだけのクラスタの要素となる場合(ハードなもしくは,クリスプなクラスタといいます)や,逆に一つのクラスタが複数のクラスタに同時に部分的に所属する場合(ソフト,または,ファジィなクラスタといいます)があります.ここでは前者のハードな場合のクラスタリングについて述べます.

            クラスタリング (クラスター分析) - Toshihiro Kamishima
          • CoreOSによるDockerコンテナのクラスタリング

            This document contains configuration files for deploying a CoreOS cluster on Google Cloud Platform (GCP) and running a sample "busybox" application across the cluster nodes using Fleet. It specifies settings for etcd, fleet, SSH keys, and a unit file template for running the busybox container with load balancing. Instructions are provided for initializing the GCP project, launching 3 CoreOS instan

              CoreOSによるDockerコンテナのクラスタリング
            • 第1回 クラスタリングを5分で完全理解

              クラスタリングとは “クラスタ”とは“群れを成す”とか“房になる”といった意味です。コンピュータ用語でいう,クラスタリングとは,複数のコンピュータを房のようにつなげる,といった意味になります。すなわち,複数のコンピュータを接続し,全体で1台のコンピュータであるかのように振る舞わせる技術です。 クラスタリングの目的は,大きく2つに分類できます。 (1) 拡張性,高速性:接続するコンピュータの台数を増やして,性能の向上を図る (2) 高可用性:1台が停止してもシステム全体が止まることはなく,処理を継続させる (1)を実現する技術としては,「HPC(High Performance Computing)」や「ロードバランサ(負荷分散)」というキーワードが挙げられます。 本連載では,(2)の高可用性を実現するクラスタリング技術を対象とします。この高可用性を実現するためのソフトは(1)の技術と区別し

                第1回 クラスタリングを5分で完全理解
              • クラスタリングの定番アルゴリズム「K-means法」をビジュアライズしてみた

                集合知プログラミング を読んでいたら、K-means 法(K平均法)の説明が出てきました。 K-means 法はクラスタリングを行うための定番のアルゴリズムらしいです。存在は知っていたんだけどいまいちピンときていなかったので、動作を理解するためにサンプルを作ってみました。 クリックすると1ステップずつ動かすことができます。クラスタの数や点の数を変更して、Restart を押すと好きなパラメータで試すことができます。 こうやって1ステップずつ確認しながら動かしてみると、意外に単純な仕組みなのが実感できました。 (追記) HTML5 版の K-means 法を D3.js でビジュアライズしてみた も作成しました。Flash を表示できない環境ではそちらをご覧ください。 K-means 法とは K平均法 - Wikipedia に詳しく書いてあるけど、もうすこしザックリと書くとこんなイメージに

                  クラスタリングの定番アルゴリズム「K-means法」をビジュアライズしてみた
                • [MySQLウォッチ]第28回 MySQL 5.1期待のクラスタリング機能

                  数カ月前にMySQL 5.1 GA版 のリリース見通しを5月と記述したが,残念ながら下半期に突入した現在もBata版にとどまっている。バージョン5.0から5.1へのアップは,番号としてはポイント以下のマイナー・バージョンアップだ。しかし,非常に大きな期待を持って待っているユーザーも多いだろう。それは,MySQL 5.1 からMySQL Clusterがストレージ対応になるからだ。 今回は,MySQL 5.1 GA版 のリリース準備として,期待の高まるMySQL Clusterのストレージ対応を紹介する。 MySQL Cluster の登場 もともとMySQL Clusterは,NDB Clusterという商品だったものをMySQL ABが自社製品として取り込み,MySQL 4.1.3 (RPM版はMySQL 4.1.10)から実装が始まった。それ以前は,標準機能のReplicationかサ

                    [MySQLウォッチ]第28回 MySQL 5.1期待のクラスタリング機能
                  • GWなのでRaspberry Pi 5複数台をクラスタリングしてGrafana on Kubernetesを構築する | DevelopersIO

                    はじめに 世の中ではGrafana Weekということで、Raspberry Pi 5複数台をクラスタリングしてKubernetesを作成し、Grafanaを載せてみたいと思います。 というのは冗談ですが、最近趣味で安価に常駐プロセスをデプロイできるホスティング環境に悩んでいました。常駐しないなら最近はゼロコールドスタートなV8 Isolateを使ったCloudflare WorkersやDeno Deployが無料枠が大きくいい感じです。 一方常駐プロセスはHerokuの無料プランがなくなりました。AWS AppRunnerは起動時間を人間が稼働している時間のみに絞っても10$はかかります。fly.ioは、Legacy hobby planでCPU-1x 256mb VM 3つと3 GB 永続ボリュームストレージは無料で扱えます。fly.ioはCLIもよくできているので、軽い検証の場合こ

                      GWなのでRaspberry Pi 5複数台をクラスタリングしてGrafana on Kubernetesを構築する | DevelopersIO
                    • K-means法によるクラスタリングのスマートな初期値選択を行うK-means++ - kaisehのブログ

                      K-means法は、入力データからK個のランダムな個体を初期クラスタの中心として選択し、以降、クラスタの重心を移動させるステップを繰り返すことでクラスタリングを行う非階層的手法です。K-means法はシンプルで高速ですが、初期値依存が大きいのが弱点で、不適切な初期値選択をすると間違った解に収束してしまいます。 以下は、Introduction to Information Retrievalの16章に出てくる例です。 {d1, d2, ..., d6}をK=2でクラスタリングする場合、{{d1, d2, d4, d5}, {d3, d6}}が大域最適解ですが、初期クラスタの中心をd2, d5で与えると、{{d1, d2, d3}, {d4, d5, d6}}という誤った解に収束してしまいます。 この問題を改善するK-means++という手法を見つけたので、試してみました。 K-means+

                        K-means法によるクラスタリングのスマートな初期値選択を行うK-means++ - kaisehのブログ
                      • Heartbeatでかんたんクラスタリング(4):ミラーリングツール「DRBD」によるデータ保護 (1/3) - @IT

                        1つの例として「SAN」(Storage Area Network)があります。データを格納するストレージ自体が冗長化されている製品も多いですし、サーバをSANに接続するためのHBA(Host Bus Adapter)を二重化することも可能ですが、コストもかさみます。 現在ならば、SCSIブロックをIP化してしまう「iSCSI」も選択肢として挙げられるでしょう。ですが最近までiSCSIは、「iSCSi接続を確立するためのイニシエータが不安定だ」などといわれることもありました。また、データを共有する「NFS」(Network File System)を用いてほかのサーバにデータを保存することもできます。しかし外部にデータを置くとなると、どうしても、その分コストも高くなってしまいます。 最もコストを抑える方法を考えた場合に浮上してくる選択肢がDRBDです。Heartbeatによるサービスの冗長

                          Heartbeatでかんたんクラスタリング(4):ミラーリングツール「DRBD」によるデータ保護 (1/3) - @IT
                        • CoreOS on EC2でDockerコンテナをクラスタリングする | DevelopersIO

                          はじめに ここ最近のDockerムーブメントの中で、キーワードとして良く取り上げられるようになったものの一つにCoreOSがあります。つい先日もGoogle Compute EngineがCoreOSを正式にサポートしたことが大きな話題となっていました。 CoreOSはLinuxディストリビューションの一つです。細かい説明については、外部サイトになりますがCoreOS 入門 - Qiitaという記事が非常に参考になりますのでご一読下さい。 ざっくり書くと、仮想化コンテナを大規模に運用することに特化したLinuxOSです。etcdという分散KVSとfleetという分散システムによるクラスタリング機能を標準的に持っています。 そこで今回は、Amazon EC2上でCoreOSを導入し、更にfleetを使ってDockerコンテナをクラスタリングして起動させる、ということをやってみました。 やった

                            CoreOS on EC2でDockerコンテナをクラスタリングする | DevelopersIO
                          • Linuxクラスタリング多様化するクラスタ方式

                            現在では、コンピュータを導入していない企業はないといえるほど、私たちの業務はコンピュータに依存しています。また、インターネット利用による新しいビジネスは、コンピュータがあればよいというものではなく、いかにサービスを提供し続けるかが成功のための重要なカギとなります。例えば、1台のマシンが故障や過負荷によりダウンしただけで、顧客へのサービスが全面的にストップしてしまうことがあります。そうなると、莫大な損害を引き起こすだけではなく、顧客からの信用を失いかねません。 このような事態に備えるのがクラスタシステムです。クラスタシステムを導入することにより、万一のときのシステム稼働停止時間(ダウンタイム)を最小限に食い止めたり、負荷を分散させることでシステムダウンを回避することが可能になります。 「群れ」「房」の言葉どおり、クラスタシステムとは「複数のコンピュータを一群(または複数群)にまとめて、信頼性

                              Linuxクラスタリング多様化するクラスタ方式
                            • Newman アルゴリズムによるソーシャルグラフのクラスタリング

                              昨今よく耳にするキーワード「ソーシャルグラフ」。その可能性・活用方法について様々な企業に注目されています。今回はその「ソーシャルグラフ」を「どうすればクラスタリングできるのか?」という観点で、グラフに対するクラスタリングの基礎を説明いたします。また、具体的なクラスタリング手法として Newman アルゴリズムをご紹介いたします。Read less

                                Newman アルゴリズムによるソーシャルグラフのクラスタリング
                              • 連載記事 「Heartbeatでかんたんクラスタリング」

                                Heartbeatの特徴とユニークな機能 連載:Heartbeatでかんたんクラスタリング(1) オープンソースソフトウェアの「Heartbeat」をご存じでしょうか? これを使い、Linux上でHAクラスタを構成する方法を紹介します

                                • クラスタリングツール「bayon」を試してみた - download_takeshi’s diary

                                  夜中の3時半過ぎですが、久しぶりになんか書こうと思います。 ちょっと前にmixiのfujisawaさんという方がすごくナイスなソフトウェアをリリースしてくれました。 「軽量データクラスタリングツールbayon」 http://alpha.mixi.co.jp/blog/?p=1049 今までにもCLUTOというすごく高精度なクラスタリングツールがありましたが、こいつはライセンス的にちょっとイケズな感じでした。そこにbayonがスーパーマンのように登場してくれました!「商用利用OKだよ」ということで、仕事の上での悩みが解決しました。本当にありがたいことです。 さてさて、早速使ってみたいんですが、ブログに書くのにちょうどいい題材がなかったので、以前に自分が書いたエントリからデータを持ってくることにしました。 「芸能人の相関関係を探ってみるスクリプト」 http://d.hatena.ne.jp

                                    クラスタリングツール「bayon」を試してみた - download_takeshi’s diary
                                  • 【機械学習】Yahoo Newsの記事をMLlibのトピックモデル(LDA)でクラスタリングする。 - Qiita

                                    Sparkシリーズ第3弾の記事です。MLlibのLDAを使ってYahoo Newsの記事をトピックモデル(LDA:Latent Dirichlet allocation)でクラスタリングしてみます。 第一弾 【機械学習】iPython NotebookでSparkを起動させてMLlibを試す http://qiita.com/kenmatsu4/items/00ad151e857d546a97c3 第二弾 【機械学習】Spark MLlibをPythonで動かしてレコメンデーションしてみる http://qiita.com/kenmatsu4/items/42fa2f17865f7914688d 0. 環境 OS: Mac OSX Yosemite 10.10.3 Spark: spark-1.5.0-bin-hadoop2.6 Python: 2.7.10 |Anaconda 2.2.0

                                      【機械学習】Yahoo Newsの記事をMLlibのトピックモデル(LDA)でクラスタリングする。 - Qiita
                                    • Pythonの機械学習ライブラリtslearnを使った時系列データのクラスタリング

                                      tslearnとは 時系列分析のための機械学習ツールを提供するPythonパッケージで、scikit-learnをベースとして作られているみたいです。 主な機能として、クラスタリング、教師ありの分類、複数の時系列を重ねた際の重心の計算ができたりします。 今回使用するに至った一番のモチベーションは、波形や振動などの時系列データに対してクラスタリングできるというところです。 tslearnインストール pipコマンドでインストールできます。 Kshapeというクラスタリング手法 今回tslearnで使用するモジュールとして、Kshapeというクラスタリング手法を時系列データに適用していきたいと思います。 Kshapeは2015年に下記の論文で提唱された方法で、以下の流れで実行されるアルゴリズムになります。 相互相関測定に基づいた距離尺度を使う(Shape-based distance: SBD

                                        Pythonの機械学習ライブラリtslearnを使った時系列データのクラスタリング
                                      • CoreOS + etcd + fleetによるクラスタリング事始め | さくらのナレッジ

                                        CoreOSはDocker用に作られたとても小さなLinuxディストリビューションです。その中で提供されている大きな3つの機能として、Docker/etcd/fleetが知られています。この3つを組み合わせるとクラスタリング構成がとても簡単に実現できるようになります。 ということでさくらのクラウドを使ってフェイルオーバーする所までをトライしてみます。 サーバを立てる 今回は3台のサーバを立てます。OSは全てCoreOSになります。サーバの追加を行う際にアーカイブ選択で CoreOS 367.1.0 (stable) #112600559854 を選択します。後、今回は管理ユーザのパスワードを入力しています(理由は後述)。複数台のサーバを使いますのでホスト名を忘れずに設定しておきます。 サーバ追加画面。アーカイブからCoreOSを選びます。 CoreOSの設定 CoreOSはとてもシンプルな

                                          CoreOS + etcd + fleetによるクラスタリング事始め | さくらのナレッジ
                                        • Pacemakerでかんたんクラスタリング体験してみよう! 記事一覧 | gihyo.jp

                                          第5回Pacemakerを運用してみよう![保守運用編(2)] 岡和田拓也 2011-05-12

                                            Pacemakerでかんたんクラスタリング体験してみよう! 記事一覧 | gihyo.jp
                                          • クラスタリングによる迷路作成アルゴリズム

                                            はじめに クラスタリングアルゴリズムにより、解くと絵が浮かび上がる 迷路を作成する方法を紹介する。 クラスタリングとは ウェブのリンク情報や、mixiの友人関係など、ネットワークの性質を 知りたいことがよくある。このとき、ネットワークの性質として このネットワークにおいて任意に選んだ要素Aと要素Bはつながっているか? このネットワークは全体がつながっているか? つながっていないとしたらいくつのグループに分かれるか? 要素数最大のグループはどれか? などの情報が欲しくなる。このような解析をするときに 必要となるのがクラスタリングである。 クラスタリングとは、同値関係のリストが与えられたときにグループ分けを することである。たとえば、 友達の友達は友達である と定義すると、友人関係は同値関係を作る。 その上で、 A君とB君は友達 C君とE君は友達 B君とD

                                            • クラスタリングツール bayon がとてつもなく素晴らしいです!

                                              クラスタリングツール bayon がとてつもなく素晴らしいです! 2009-06-10-5 [Algorithm][Software] mixi の fujisawa さんによる、C++ で書かれたクラスタリングツール bayon がシンプルイナフで猛烈に素晴らしくてクールです。 - 軽量データクラスタリングツールbayon (mixi Engineers' Blog) http://alpha.mixi.co.jp/blog/?p=1049 - チュートリアル(Tutorial_ja - bayon) http://code.google.com/p/bayon/wiki/Tutorial_ja 詳細は上記URLを見てもらうとして、 たまたま手元に250万件のデータ(ラベル+特徴語リスト)があったのでさっそく試してみました。 ドキュメント数250万件。 各ドキュメントの特徴を現すキーの平

                                                クラスタリングツール bayon がとてつもなく素晴らしいです!
                                              • クラスタリング技術を使った「はてなブックマーク」でのお気に入りユーザ数ランキング(簡易ジャンル別) - llameradaの日記

                                                今度は「はてなブックマーク」の「お気に入り」ネットワークで、ジャンル別のランキングを求めてみました。同じユーザから「お気に入り」されているユーザは、同じジャンルに分類されます。詳細は以前の記事を参照してください。 参考リンク:クラスタリング技術を使ったAmazon DVDでの出演回数ランキング(簡易ジャンル別) - llameradaの日記 結果をみると「はてな」の人々が同じクラスタに分類されたり、サブカル系のブックマークをするユーザがまとまっているなど、そんなに結果は悪くないようです。新たな「お気に入り」を探す手助けになるかもしれません。なお、ユーザ数は今回収集した3647ユーザ中での数になりますので、実際より少なくなります。 追記:深い考えもなしに公開してしまいましたが、人を分類するのは問題が多いです。しかも、クラスタリング技術は基本的に大雑把で分類精度はあまり高くないのが普通です。い

                                                  クラスタリング技術を使った「はてなブックマーク」でのお気に入りユーザ数ランキング(簡易ジャンル別) - llameradaの日記
                                                • Pythonで単語分散表現のクラスタリング - Ahogrammer

                                                  最近の自然言語処理では、単語の分散表現は当たり前のように使われています。 単語分散表現では、各単語が高次元ベクトル空間に配置され、加減乗除等の演算を行えるようになります。 これらのベクトルは、意味の近い単語に対しては同じようなベクトルになることがわかっています。 本記事では、単語分散表現のベクトルをクラスタリングし、意味が近い単語のクラスタを作ってみたいと思います。 これらのクラスタは、眺めて楽しむだけでなく、機械学習の素性として使うこともできます。 イメージ的には、以下のような感じで単語をクラスタにまとめます。 では、単語分散表現をクラスタリングして、単語のクラスタを作ってみましょう。 準備 まずは、作業用のディレクトリを作成しておきましょう。 また、必要に応じて Python の仮想環境も用意します。 以下のコマンドを実行することで、ディレクトリを用意します。 $ mkdir work

                                                    Pythonで単語分散表現のクラスタリング - Ahogrammer
                                                  • 今日から使える! みんなのクラスタリング超入門

                                                    第2回さくさくテキストマイニング勉強会で発表したk-meansに関する資料です。Weniger lesen

                                                      今日から使える! みんなのクラスタリング超入門
                                                    • 実際に作って理解する! Linuxサーバーのクラスタリング

                                                      本連載は,サーバーの信頼性確保に重要となる「クラスタリング」を体験的に学ぶものです。Linuxと,オープンソースのクラスタリング・ソフトを使い,無料で手軽に体験しましょう。まず,第1回として“クラスタリングとは何か”から解説します。 目次 ・第1回 クラスタリングを5分で完全理解 ・第2回 Linuxで動作するHAクラスタリング・ソフト ・第3回 Heartbeatでクラスタリングを作ってみよう(準備編) ・第4回 Heartbeatでクラスタリングを作ってみよう (インストール編) ・第5回 「Heatbeatでクラスタリングを作ってみよう」(設定編):OS,Heatbeatの設定手順 ・第6回 「Heatbeatでクラスタリングを作ってみよう」(動作テスト編):動作テストの詳細手順 ・第7回 クラスタ構成を拡張させよう(準備・設定編) ・第8回 クラスタ構成を拡張させよう(動作テスト編

                                                        実際に作って理解する! Linuxサーバーのクラスタリング
                                                      • Docker 1.9がリリース。マルチホストネットワーキング、クラスタリングのDocker Swarmなどが本番環境で利用可能に

                                                        Docker 1.9がリリース。マルチホストネットワーキング、クラスタリングのDocker Swarmなどが本番環境で利用可能に Docker 1.9では、マルチホストネットワーク機能が安定版となり、永続的ストレージ機能が強化され、クラスタリングツールのDocker Swarmが正式版となりました。 マルチホストネットワーク機能 マルチホストネットワーク機能は、Docker Engineの機能として複数のホストにまたがる仮想ネットワークを作成可能です。任意のネットワークトポロジをコンテナに割り当てることができ、仮想ネットワークのおかげで、どのホスト上でコンテナを実行するかを気にせずにコンテナのネットワークを構成できます。 今回のリリースから安定版となるため、本番環境での利用が可能になりました。 永続的なストレージ Docker Engine 1.9では完全に再設計されたボリュームシステムが

                                                          Docker 1.9がリリース。マルチホストネットワーキング、クラスタリングのDocker Swarmなどが本番環境で利用可能に
                                                        • 連載記事 「Linuxクラスタリングへの招待」

                                                          【 pidof 】コマンド――コマンド名からプロセスIDを探す (2017/7/27) 本連載は、Linuxのコマンドについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は、コマンド名からプロセスIDを探す「pidof」コマンドです。 Linuxの「ジョブコントロール」をマスターしよう (2017/7/21) 今回は、コマンドライン環境でのジョブコントロールを試してみましょう。X環境を持たないサーバ管理やリモート接続時に役立つ操作です 【 pidstat 】コマンド――プロセスのリソース使用量を表示する (2017/7/21) 本連載は、Linuxのコマンドについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は、プロセスごとのCPUの使用率やI/Oデバイスの使用状況を表示する「pidstat」コマンドです。 【 iostat 】コマンド――I

                                                          • 第1回 Pacemakerの歴史を見てみよう!:Pacemakerでかんたんクラスタリング体験してみよう!|gihyo.jp … 技術評論社

                                                            はじめに Pacemakerというと、心臓ペースメーカーやマラソンペースメーカー、某DJガジェットという印象があるかもしれませんが、それだけではありません! この連載ではオープンソースで作られているHAクラスタソフト「Pacemaker」を概要から構築、保守運用にいたるまでLinux-HA Japanのプロジェクトメンバーで紹介します。HAクラスタは敷居が高いと考える人は多いでしょうが、この連載で身近なソフトウェアと思っていただければ幸いです。記念すべき連載第1回目では、Pacemakerの概要、歴史を紹介します。 HAクラスタって? まずクラスタとは何か説明しましょう。クラスタとはもともと果実や花の房という意味で、同じようにまとまっているものの事を言います。 複数のコンピュータをつなげ、全体で1つのコンピュータのように振る舞わせる技術で、大きく分けて信頼性向上を目的とした「高可用性(Hi

                                                              第1回 Pacemakerの歴史を見てみよう!:Pacemakerでかんたんクラスタリング体験してみよう!|gihyo.jp … 技術評論社
                                                            • Vagrant を使って fluentd のクラスタリングを試す | DevelopersIO

                                                              Vagrant を使って、fluentd のクラスタリング(負荷分散とHA構成)を試してみました。 イメージはこんな感じ。 ログ受信側(log aggregators)のセットアップ ※Vagrant をインストールしてない場合は、別途インストールしてください。 2台のサーバを順番にセットアップします。 先ずは、1台目。 $ mkdir -p vagrant/server1 && cd vagrant/server1 $ vagrant box add server1 https://dl.dropbox.com/u/7225008/Vagrant/CentOS-6.3-x86_64-minimal.box $ vagrant init server1 Vagrantfile を以下のように編集します。 $ vim Vagrantfile config.vm.box = "server1"

                                                              • クラスタリングで時系列予測はできる? 〜Twitterの株価を予測してみた〜 - BASE開発チームブログ

                                                                これは「BASE Advent Calendar 2018」の20日目の記事です。 devblog.thebase.in こんにちは。Data Strategy Group の岡です。趣味は珍しいお酒を飲むこと、将来の夢はウイスキーの蒸留所を持つことです。 私は機械学習エンジニアとしてまだ2年目なのですが、「この予測手法、本やweb上でほとんど見かけないな。」とずっと気になっている手法があります。ざっくり説明すると、時系列データをクラスタリングして同クラスタ内の平均を予測に使う、というもので、私より20くらい歳上の分析屋に教えてもらいました。下記の論文が一番これに近いと思います。 「Time Series Forecasting through Clustering - A Case Study」 今回は実験も兼ねてその予測手法を再現しようと思います。 使用データ そういえば、昨日は@To

                                                                  クラスタリングで時系列予測はできる? 〜Twitterの株価を予測してみた〜 - BASE開発チームブログ
                                                                • 「erockrの運用とデータの活用」グラビアアイドルの自動クラスタリング、カップ分析ほか。 - konisimple log

                                                                  画像xエンジニアリング勉強会(GXEB)という勉強会で「erockrの運用とデータの活用」というテーマでライトニングトークをしてきたので、その内容を文字におこしてみました。 ちなみにこのGXEBという勉強会はOppai-Detect3 - ゆーすけべー日記などのすごい発表も聞けて、とても楽しい勉強会でした!他の人の発表は2010-11-27 - 海老かつ日記をご覧ください。 ※発表でフォローしきれなかったところは追補しました。 koni 大学3年生 (就職活動中) 趣味:ウェブサービスをつくること、テニス Twitter: @koni 育ち:千葉県流山市 今:埼玉県所沢市 お願い ライトニングトークどころか、こういった勉強会は初めてです。緊張しています。どうか暖かい気持ちで見守ってください。 →「こに」の自己紹介 - konisimple erockr? erockr = flickr +

                                                                    「erockrの運用とデータの活用」グラビアアイドルの自動クラスタリング、カップ分析ほか。 - konisimple log
                                                                  • JavaScriptで画像のクラスタリングによるドット絵風加工 – Rest Term

                                                                    pixel clustering using k-means++ 前回のJavaScriptでPoisson Image Editingによる滑らかな画像合成に引き続き、HTML5 Canvasを使ったJavaScriptによる画像処理の一例を紹介します。 今回は画像の画素値に対するクラスタリング(分類)を画像加工用途に応用します。クラスタリングには各画素のRGB値を特徴ベクトル(次元数3)としてk-means法と呼ばれる手法を使って行います(実装上はk-means法の初期値選択アルゴリズムを改良したk-means++法を利用)。以下のサイトでOpenCVを利用した実装例が紹介されています。 k-meansクラスタリングによる画像分割,減色 – opencv.jp 上記サイト内でも言及されているように、k-means法による画像の領域分割や減色処理はあまり良い結果が得られないことが知られて

                                                                      JavaScriptで画像のクラスタリングによるドット絵風加工 – Rest Term
                                                                    • 【ハウツー】JVMレベルでクラスタリングを可能に - OpenTerracotta (1) JVMレベルのクラスタリングって何? | エンタープライズ | マイコミジャーナル

                                                                      Open Terracottaは、複数のJVMをまたいでJavaオブジェクトをキャッシュすることができるクラスタリングソリューションだ。以前は商用製品であったものが、2006年末にオープンソース化された。ライセンスは、Mozilla Public LicenseをベースとしたTerracotta Public Licenseであり、商用プロダクトにも問題なく利用できる。 なぜTerracottaが必要か アプリケーションにとって「パフォーマンス」は重要だ。特にデータベースを使用するアプリケーションはデータベースへのネットワークアクセス、検索クエリの実行性能などに足を引っ張られてパフォーマンスが思うように出ないことも多い。 そこで考え付くのが検索結果をキャッシュして再利用することであるが、これには別の問題がある。一つは、キャッシュを利用すると将来的な拡張性を損ねる可能性があることである。例え

                                                                      • Jabberサーバーをクラスタリングしてみました。 : DSAS開発者の部屋

                                                                        みなさん Jabber をご存じですか? Jabber はオープンな仕様のメッセン ジャーサービスのことで最近だと Google Talk で使用している方が多いと思 います。 KLab では 2001年ぐらいから、誰でも Jabber を使うことが出来る Jabber.JP というサービスを運用してい ます。まだ Jabber を使用したことがない方は是非こちらの「Jabber をはじめよう」 を ご覧になって Jabber を使ってみて下さい。 Jabber.JP は jabberd という実装を使用してい たのですが、冗長構成が難しいという問題がありました。 そこで先日、Jabber.JP では大規 模なメンテナンスを行い ejabberd という実装で分散、冗長化を行ってみました。ejabberd はその名の通り、Erlang で 実装された Jabber サーバーで、Mnesia

                                                                          Jabberサーバーをクラスタリングしてみました。 : DSAS開発者の部屋
                                                                        • bayonでソフトクラスタリング - mixi engineer blog

                                                                          先日ようやくドラクエ9をクリアしたのですが、切ない話が多くて、たまに泣きそうになってしまったfujisawaです。以前ご紹介したデータクラスタリングツールbayonにいくつか機能追加を行いましたので、その中から以下の2つをご紹介させていただきます。 入力データ中の特徴的なキーを自動的に特定して、クラスタリングの精度を向上させる 事前に行ったクラスタリング結果を使用して、各ドキュメントに関連するクラスタを特定する 入力データから特徴的な要素を特定 bayonでは入力データとして、各ドキュメントに対し、その特徴を表すキーとポイントを指定する必要があります。例えば以下の例では、最近食べたメニューの名前とその回数を、各ユーザの特徴として指定しています。 fujisawa 卵かけご飯 4 みそ汁 6 ソーメン 3 kimura ステーキ 8 みそ汁 7 寿司 4 ... ここで、実は「みそ汁」は多く

                                                                            bayonでソフトクラスタリング - mixi engineer blog
                                                                          • DRBD+heartbeat+LVM(on Fedora Core10)によるクラスタリング

                                                                            こんにちは、亀本です。 今回は、PHPとかから少し離れて、サーバのクラスタリングのお話です。 ちょっと仕事で冗長化システムを組む必要があったので、せっかくなので記事にまとめました。 さて、ここで目指すのは、DRBDを使ったデータレプリケーションサーバ( Master / Slave 構成 )の自動フェイルオーバークラスタ( 非フェイルバック構成 )です。 ネットワーク構成としては、ルータから結ばれるLAN(eth0に接続)とは別に、eth1で1対1のLAN接続を行います。 また、heartbeatでのクラスタ構成後は、eth0に仮想IPとして192.168.1.100を割り振るようにします。 eth1の設定は、 # vi /etc/sysconfig/network-scripts/ifcfg-eth1 DEVICE=eth1 HWADDR=00:00:00:00:00:00 ONBOOT

                                                                              DRBD+heartbeat+LVM(on Fedora Core10)によるクラスタリング
                                                                            • 『入門ソーシャルデータ』で文書クラスタリングと文書要約を学ぶ - 武蔵野日記

                                                                              先日献本いただいた「入門ソーシャルデータ データマイニング、分析、可視化のテクニック」 入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック 作者: Matthew A. Russell,奥野陽(監訳),佐藤敏紀(監訳),瀬戸口光宏(監訳),原川浩一(監訳),水野貴明(監訳),長尾高弘出版社/メーカー: オライリージャパン発売日: 2011/11/26メディア: 大型本購入: 18人 クリック: 779回この商品を含むブログ (42件) を見るを読了 (多謝!)。tkng さんも書評を書かれているし echizen_tm さんも書評を書かれているので、いまさら感は否めないが、別の観点から少し寸評。本書は、データを抽出してからの可視化の方法が全体の半分以上を占めていて、そういう方法を知らない人には参考になると思う。 研究のための実験をしていても、実は地味に重要なのは機械学習が

                                                                                『入門ソーシャルデータ』で文書クラスタリングと文書要約を学ぶ - 武蔵野日記
                                                                              • [ThinkIT] 第1回:Tomcatによるクラスタリングの実現 (1/4)

                                                                                現在、エンタープライズ環境で動作するアプリケーションサーバには様々なものがありますが、どれもデフォルトでクラスタリングの機能を搭載しているものがほとんどです。 クラスタリングを行う目的としては主に2つあげられます。1つはパフォーマンスの向上で、もう1つは可用性の向上です。まずは、これらの機能について解説していきます。 開発したアプリケーションに対して非常に多数のアクセスがあった場合、1台のサーバでは処理がまかないきれなくなります。 そういった場合には、前段にロードバランサを配置することで複数台に処理を振り分ければよいのですが、ECサイトなどでログインユーザのセッション情報などを保持しているアプリケーションが動作している場合、最初にログインしたサーバとは違うサーバに処理が移った場合セッション情報が共有されていないと継続して処理を行うことができなくなってしまいます。 こういった場合でもクラスタ

                                                                                • IIR の階層的クラスタリングを試す (nakatani @ cybozu labs)

                                                                                  Pathtraq で Web ページの自動分類を手がけてみて。 Web ページは日々どんどん変わっていくのでフィルタは常に更新されなければいけないんですが、そのためには適切なタイミングに、適切な学習データを用意しなければならない。大変。 メンテナンスフリーが理想ですが、もちろん難しい。 現実的なところとしては「追加学習が必要なことを検知して、適切な学習データの候補を提案してくれる」というものが作りたいなあ……などなど考えているわけです。 そこらへんも含めて、自然言語処理とか機械学習とかそこら辺のお勉強をしてるんですが、実際に手を動かさないとわかんないですよねー。 というわけで、 "Introduction to Information Retrieval" の Chapter 17 "Hierarchical clustering" に沿って、ドキュメントの分類器を作ってみました。 ポイン