サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
衆院選
fuji-151a.hatenablog.com
Apache Kafkaを実際に動かしてみた. Kafkaって何?って方はApache Kafkaについて - 技術メモ(仮)を参照してくれると嬉しい. 今回はproduceとconsumeの挙動を見てみた. Kafkaを利用するには以下の環境が必要. Java(JDK6と7で動くことは確認) Zookeeper(3.3.4以降ならOKらしい) 今回仮想で以下の2台のサーバを作成した. Kafka(ホスト名:kafka) Zookeeper(ホスト名:zookeeper) これらを利用しKafkaを動かしてみる. Zookeeper 以下の処理はホスト名:zookeeperのサーバで行う. インストール まずZookeeperをzookeeperサーバにインストールする. // JDKインストール yum install java-1.7.0-openjdk-devel // Zookee
1年前にApache Kafkaについてざっくり紹介したことがあったが, システム図が0.7系のままになっていたので今回ちょっと修正して 再度Kafkaについて書いてみる. Kafkaとは? 復習になるがApache KafkaとはLinkedinが開発したpublish-subscribeシステム. 特徴 スケーラブル 高速 対障害性に強い などなど ちなみにScalaで書かれてる. 0.7系はsbtだったのに0.8からGradleにBuild Toolが変わった. ちなみに公式ページはここhttp://kafka.apache.org/ githubはここgithub.com 用語 Message 流すデータ.例えばTwitterの1ツイートデータ,サーバの1ログとかが1Messageに当たる. topic messageのカテゴリのこと.Topicは自分で名前を決めれる. 例えばtw
前回はJavaでMeCabを動かせるようにした. それを用いてTFを算出しようかな考えた. しかし,そもそもTFってなに?から始まると思う. 主にtf-idf法で用いられる.特徴語を算出する方法. 今回はこのtf値とidf値.すなわちtf-idf法について説明したいと思う. tf-idf法 tfidf=tf・idf これで算出できる. tf値とidf値を掛けるだけ.なんて簡単なんでしょう!! でも普通の人はtfもidfもわからないと思う.なので分けて説明する. tf TF値は言葉通り単語の出現頻度のことである. 以下にTerm Frequencyを求める数式を示す. この時のni,jはある単語iの文書jにおける出現回数.分母は文書に出現する単語の総数を示している. ようは単語の頻度/文章で出現する総単語数 これだけ書かれていてもわけわからないと思う. 例えば以下のような文章があったとする.
このページを最初にブックマークしてみませんか?
『fuji-151a.hatenablog.com』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く