タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

分析に関するmonochrome_K2のブックマーク (3)

  • Apache Kafkaがついにバージョン1.0に到達、オープンソース化から約7年。大量のデータを高速に収集できるメッセージ処理システム

    大量のデータを高速に収集できるメッセージ処理システムとして知られる「Apaceh Kafka」が、正式バージョンとなる「Apache Kafka 1.0」に11月1日付けで到達したことが、Kafkaの主要な開発元であるConfluentから発表されました。 Apache Kafkaはスケーラビリティに優れ、大量のデータをリアルタイムに処理する機能を備えたソフトウェアです。 さまざまなアプリケーションやシステムから送られてくるログや大量のセンサーなどから生成されるデータなど、リアルタイムに送信されてくるストリームデータをいったんKafkaで受け止め、それをまとめてHadoopなどの分析エンジンに渡してデータの分析を行う、といった形で使われます。 また、その名称は「変身」などで知られる作家のフランツ・カフカにちなんだものとされています。 バージョン1.0では、Stream APIの強化、Jav

    Apache Kafkaがついにバージョン1.0に到達、オープンソース化から約7年。大量のデータを高速に収集できるメッセージ処理システム
  • 機械学習を使って東京23区のお買い得賃貸物件を探してみた - データで見る世界

    さて、改めて今回の目的を確認しておくと、機械学習を使って東京都23区のお買い得賃貸物件を発見しよう、というものです。前回までの記事で、お買い得賃貸物件を発見するためのデータを収集し、分析にかけられるよう前処理してきました。 www.analyze-world.com www.analyze-world.com 今回の記事では、いよいよ機械学習を使って分析していきましょう。前回まではPythonを使っていましたが、この分析ではRを用いています。なお、コードはGitHub(https://github.com/ShoKosaka/Suumo)に上げておきますので興味ある方は参照ください。 最初に、データの中身をざっくり見ていきます。具体的には、分析のキーになるポイントをグラフにしながら、賃貸物件の現状や変数同士の関係性を把握していきます。 データ探索 まず、23区の中でどこが物件数が多いのかを

    機械学習を使って東京23区のお買い得賃貸物件を探してみた - データで見る世界
  • 互助会の構造をGephiで可視化してみる - ゆとりずむ

    こんにちは、らくからちゃです。 以前ぶらっとインターネットをぶらぶらしていたら、こんな記事を見つけました。 『パナマ文書』の問題については、いいなー偉い人は沢山お金持っててさー、と遠い世界の話にしか感じられませんでしたが、解析手法については中々興味深いお話でした。 今回の流出事件では、2.6TBもの大量のデジタルデータが流出されたと言われています。しかし、このデータの中から、資金の流れの関連性を分析していくのは、人力では不可能に近い作業です。そこで今回力を発揮したのが『グラフ解析』という手法です。 グラフ解析とは何か グラフというと、折れ線であったり縦棒であったり、そういった数値を可視化するツールとしての印象をお持ちかもしれませんが、数学の用語としては様々な要素と要素の関係性を分析するツールという意味で用いられます。 つーても分かりづらいかもしれませんが、『人物相関図』のようなものと言えば

    互助会の構造をGephiで可視化してみる - ゆとりずむ
  • 1