[B! hadoop][python] t10471のブックマーク

t10471 id:t10471

hadoopとpythonに関するt10471のブックマーク (3)

Python + Hive on AWS EMR で貧者のログサマリ
Sep 14, 201422 likes6,707 viewsAI-enhanced description 1. Akira Chiku is an engineer who works on an engineering team. Their requirements include collecting between 10-20GB of data per day from various sources like Hadoop and Hive. 2. Data is collected from sources like Fluentd and parsed using Query String and stored in Hive. It is then processed and visualized. 3. Data can be stored in S3, proce
t10471 2014/09/15
aws

python

Hadoop

hive
リンク
PythonからHDFSを操作する - 偏った言語信者の垂れ流し
HadoopのHDFS(分散ファイルシステム)にはWebHDFSというREST APIがあり、HTTPで操作できる。 WebHDFS REST API Pythonからこれを簡単に使うためのモジュールを探したところ、PyPIでWebHDFS、pywebhdfsの2つを見つけた。 WebHDFS 0.2.0 : Python Package Index pywebhdfs 0.4.1 : Python Package Index WebHDFSという名前のモジュールは、RENAMEとAPPENDの操作に対応してなくてコードもイマイチ。 pywebhdfsのほうはrequestsモジュールを使ってきれいに作られていて、ドキュメントもある。これが良さそう。 pywebhdfs 0.2.2 documentation — pywebhdfs 0.2.2 documentation pywebhdf
t10471 2013/10/22
python

hadoop
リンク
hadoopの話とpythonでデータマイニングをする話 - gumi Engineer’s Blog
gumiの粟飯原です。データマイニングやってます。しかしながら最近はあまりデータをいじる時間がなく社内でプレゼンばかりする日々で、社内でも私がなにやってるのかわからないというもっぱらの評判。そこで今回は一応データ解析もやってはいるんだよということを内外に主張するためにもデータマイニングの話をしようと思います。アプリの基本的な日々の統計データ取得などは別の方々はやられているので、私からはhadoopを使った大規模解析の話や、そこで得られたデータを分析する環境の話をしたいと思います。コードを併記した具体例などは今回載せられないのですが、今後また紹介していければと思います。大規模データの解析日々のログ解析やDB解析はcronによる処理で毎朝レポーティングを行っているのですが、新しい情報を過去のアクセスログからまとめてどかんと取得したいと言う時はHadoopによる大規模解析を実行しています
t10471 2010/10/10
hadoop

python

プログラミング
リンク
1