タグ

hadoopとpythonに関するt10471のブックマーク (3)

  • Python + Hive on AWS EMR で貧者のログサマリ

    1. Akira Chiku is an engineer who works on an engineering team. Their requirements include collecting between 10-20GB of data per day from various sources like Hadoop and Hive. 2. Data is collected from sources like Fluentd and parsed using Query String and stored in Hive. It is then processed and visualized. 3. Data can be stored in S3, processed using services like AWS EMR, and visualized in das

    Python + Hive on AWS EMR で貧者のログサマリ
  • PythonからHDFSを操作する - 偏った言語信者の垂れ流し

    HadoopのHDFS(分散ファイルシステム)にはWebHDFSというREST APIがあり、HTTPで操作できる。 WebHDFS REST API Pythonからこれを簡単に使うためのモジュールを探したところ、PyPIでWebHDFS、pywebhdfsの2つを見つけた。 WebHDFS 0.2.0 : Python Package Index pywebhdfs 0.4.1 : Python Package Index WebHDFSという名前のモジュールは、RENAMEとAPPENDの操作に対応してなくてコードもイマイチ。 pywebhdfsのほうはrequestsモジュールを使ってきれいに作られていて、ドキュメントもある。これが良さそう。 pywebhdfs 0.2.2 documentation — pywebhdfs 0.2.2 documentation pywebhdf

    PythonからHDFSを操作する - 偏った言語信者の垂れ流し
  • hadoopの話とpythonでデータマイニングをする話 - gumi Engineer’s Blog

    gumiの粟飯原です。 データマイニングやってます。しかしながら最近はあまりデータをいじる時間がなく社内でプレゼンばかりする日々で、社内でも私がなにやってるのかわからないというもっぱらの評判。そこで今回は一応データ解析もやってはいるんだよということを内外に主張するためにもデータマイニングの話をしようと思います。 アプリの基的な日々の統計データ取得などは別の方々はやられているので、私からはhadoopを使った大規模解析の話や、そこで得られたデータを分析する環境の話をしたいと思います。コードを併記した具体例などは今回載せられないのですが、今後また紹介していければと思います。 大規模データの解析 日々のログ解析やDB解析はcronによる処理で毎朝レポーティングを行っているのですが、新しい情報を過去のアクセスログからまとめてどかんと取得したいと言う時はHadoopによる大規模解析を実行しています

    hadoopの話とpythonでデータマイニングをする話 - gumi Engineer’s Blog
  • 1