manabouのブックマーク - はてなブックマーク

「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

Hadoopの時代は終わった、という言説をたまに見かけるようになりました。もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。以上をご了承の上、読み進めてください。要約データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

manabou 2017/08/07

リンク

誰でもできる、プレゼンが劇的にうまくなる基本テクニック - 科学と非科学の迷宮

私も「テクニカルエバンジェリスト」などという大層な肩書を会社からいただいており、講演や連載記事などの執筆を行っていますが、私のプレゼン技術は数年前にMSの西脇さんのプレゼンセミナーに参加させていただいて学んだものがほとんどで、正直言うとこのような記事を書いて講釈を垂れるような立場ではありません。しかし、直近で西脇さんのセミナーがないということと、会社も大きくなり同僚が増えていく中で、速やかに自分のプレゼン技術を共有しなければならないという状況になったため、恥ずかしながら自分なりの方法を説明するためにこの記事を執筆することにしました。プレゼンとは銘打っていますが、実際にはプレゼンだけでなく、ブログの記事執筆などさまざまな表現の場で活用することができます。"present"とは「伝える」「表現する」という意味であることからもわかるかと思います。著者の経験公開イベントでのプレゼンは、小さ

manabou 2017/02/01

リンク

セールスエンジニアという仕事 - 科学と非科学の迷宮

現在の自分の肩書である「セールスエンジニア」という仕事がどのようなものか知らない方も多く、毎回説明するのが大変なのでブログ記事にしました。セールスエンジニアという仕事はなかなか馴染みがありませんが、20代後半から30代のIT エンジニアのキャリアパスとしては面白い仕事の一つだと思います。マネージャーになるかどうか考える前に、是非一度読んでください。この記事では、ClouderaのようなB2BのITソフトウェアベンダーのセールスエンジニアを想定して執筆しています。他の業界のセールスエンジニアについては確実に状況が異なりますのでご注意ください。要約セールスエンジニアとは、お客様が自分たちの製品を正しく活用できるよう情報を提供していき、営業が製品・サービスを販売するのを助ける仕事です。お客様への製品紹介と提案が主要業務ですが、その方法は様々です。お客様の要望を満たすようなサンプルプログラムを

manabou 2016/06/05

リンク

今日からすぐに使えるデプロイ・システム管理ツール Fabric 入門 - 科学と非科学の迷宮

Fabric は、Python 製のデプロイ・システム管理ツールです。最近、構築や運用を自動化するための様々なツールが出てきています。構成管理ツールの Puppet や Chef が有名ですが、使うまでに覚えることが多いのが欠点です。しかし、Fabric は非常にシンプルなツールで、今からすぐに使うことができます。 Fabric はデプロイ・システム管理ツールで、類似のツールとして Ruby 製の Capistrano があります。 Fabric の最大の特長は、シェルスクリプトを書き慣れた人がいきなり利用できるところです。シェルスクリプトとしてまとめていたコマンドをそのまま run() メソッドや sudo() メソッドで囲むだけで、使うことができます。シェルスクリプトを使っていていると、いくつもの問題に遭遇します。名前空間の管理変数の扱い複雑なデータ構造がない(せいぜい

manabou 2013/10/29

リンク

Hadoopのディスクあふれ対策(補足) - 科学と非科学の迷宮

最近流行りのディスク容量があふれたときの挙動、Hadoop編を書こうと思ったらwyukawaさんが既に書いてくださったのでやめました。 ……と思ったのですが、せっかくなので id:wyukawa さんが書いてない箇所を補足してみようと思います。 ( この記事は @kernel023 にレビューしてもらっています。ありがとうございます ) wyukawaさんの記事へのコメントまずHBaseを使っている場合はcompactionがある関係上Disk使用率は50%以内に抑えておくのが無難だと思います。この辺はCassandraと同じですね。全データを同時にコンパクションするケースはまずないので無理に50%以下に抑えなくていいとは思いますが、意識はしておいた方がいいですね。私は60%での警告を推奨しますが、この辺はケースバイケースです。 MapReduce の出力結果など、いきなり容量増える

manabou 2013/08/05

リンク

PyFes LT 2012.08 で「使い捨て python コードの書き方」についてしゃべってきました - 科学と非科学の迷宮

使い捨て python コードの書き方 from Sho Shimauchi サポートの仕事におけるプログラミングというのは通常の開発と少し異なっています。「1時間以内に数十GBのログを解析して問題を特定し対策を回答しなければいけない」などということはしょっちゅう発生しますので、ちまちま時間をかけてコードを書いていられません。その代わりプログラムそのものをお客様に提供するわけではなく、解析の道具として手足のように使うことが要求されますので、基本的に品質は求められません。そういう意味では、プログラミングコンテストに性質が近いかもしれません。あそこまでの高度なアルゴリズムを使うことは稀ですが。先日 PyFes LT で話をした内容を要約すると、「作成スピード向上のためにもある程度のテストやコード管理は必要ですよ」ということです。わずかでもテストを書いておけばケアレスミスの確認・修正時

manabou 2012/08/29

リンク

勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮

id:kaigai の主催する勉強会で発表してきました。 Hadoop for programmerView more presentations from shiumachi. 答えられなかった質問 Shuffleフェーズって、ソートをどういう仕組みでやってるの？　データ全部をなめてるの？ Partitionerというクラスでデータを振り分けてる。タスクごとは独立してるのでデータをまたがってアクセスすることはないと思う。でも細かいことはちょっとわからない。 Map中にデータ追加したらどうなるのか？さすがに扱うデータは最初に決めていると思うが、やったことないのでわからない。 Streamingって具体的にどんな処理してるの？ jarファイルは投げてるけど、実行時に使うスクリプトはどうやって投げてるのかわからない。あとで調べときます。今の世の中に出てるHadoop本って構築とか運用の話

manabou 2010/09/16

リンク

Hadoopリンクまとめ(1) - 科学と非科学の迷宮

Part1 / Part2 更新履歴 2010/06/20 リンク追加入門、事例紹介、ニュース Part2へ移動 EC2、Pig、MapReduce、HDFS 新規追加性能測定公式 Welcome to Apache Hadoop! 日本語訳 Hadoopユーザー会 Welcome to Hadoop MapReduce! "大規模な計算ノード・クラスタ上において膨大なデータを高速で並列処理するアプリケーションを作成するためのプログラミングモデルおよびソフトウェアフレームワーク" Welcome to Pig! "大規模なデータセットを分析するためのプラットフォーム""Pig の言語レイヤを構成しているのは、Pig Latin と呼ばれるテキストベースの言語" wikipedia Apache Hadoop - Wikipedia, the free encyclopedia Apa