タグ

ブックマーク / shiumachi.hatenablog.com (8)

  • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

    Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

    「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
  • セールスエンジニアという仕事 - 科学と非科学の迷宮

    現在の自分の肩書である「セールスエンジニア」という仕事がどのようなものか知らない方も多く、毎回説明するのが大変なのでブログ記事にしました。セールスエンジニアという仕事はなかなか馴染みがありませんが、20代後半から30代のITエンジニアのキャリアパスとしては面白い仕事の一つだと思います。マネージャーになるかどうか考える前に、是非一度読んでください。 この記事では、ClouderaのようなB2BのITソフトウェアベンダーのセールスエンジニアを想定して執筆しています。他の業界のセールスエンジニアについては確実に状況が異なりますのでご注意ください。 要約 セールスエンジニアとは、お客様が自分たちの製品を正しく活用できるよう情報を提供していき、営業が製品・サービスを販売するのを助ける仕事です。お客様への製品紹介と提案が主要業務ですが、その方法は様々です。お客様の要望を満たすようなサンプルプログラムを

    セールスエンジニアという仕事 - 科学と非科学の迷宮
  • リスクヘッジと給料と英語 - 科学と非科学の迷宮

    この記事の要約 英語が話せるようになれば、日の人材市場ではなくグローバルの人材市場で自分の価値を判断されるようになる ITエンジニアにとって日語のみの仕事はグローバルに比べて給料・待遇ともに劣っていて、各種経済予測からこれが改善されることは絶望的 英語使ってグローバル企業で働くことは、「一攫千金や立身出世を狙う野心家のキャリアパス」ではなく、ITエンジニアにとって生き残るための必須能力となりつつある あけましておめでとうございます。今年もよろしくお願いします。 最近、私の会社で日での格的な採用活動を始めました。その関係で転職に興味ありそうな人と色々と話をしているのですが、全員が共通して「英語がきつそうで……」といった反応でした。いずれも技術者として優秀な方々ばかりで、その技術の修得に多大な努力を要していたはずです。自然言語というものは、母語であれば普通は特に専門教育を受けずとも使え

    リスクヘッジと給料と英語 - 科学と非科学の迷宮
  • Hadoopのディスクあふれ対策(補足) - 科学と非科学の迷宮

    最近流行りのディスク容量があふれたときの挙動、Hadoop編を書こうと思ったらwyukawaさんが既に書いてくださったのでやめました。 ……と思ったのですが、せっかくなので id:wyukawa さんが書いてない箇所を補足してみようと思います。 ( この記事は @kernel023 にレビューしてもらっています。ありがとうございます ) wyukawaさんの記事へのコメント まずHBaseを使っている場合はcompactionがある関係上Disk使用率は50%以内に抑えておくのが無難だと思います。この辺はCassandraと同じですね。 全データを同時にコンパクションするケースはまずないので無理に50%以下に抑えなくていいとは思いますが、意識はしておいた方がいいですね。 私は60%での警告を推奨しますが、この辺はケースバイケースです。 MapReduce の出力結果など、いきなり容量増える

    Hadoopのディスクあふれ対策(補足) - 科学と非科学の迷宮
  • Clouderaで作るデータ分析環境 - 科学と非科学の迷宮

    wyukawaさんがデータ分析環境について書いていましたが、全部 CDH を使えば実現可能なので便乗して書いておこうと思います。 1. ETL 処理 CDH なら以下のツールがあります。 Sqoop RDBMS / DWH などに対するインポート・エクスポートツール。最近日語のも出版されたので皆さん買ってください。 Hue を使えば Web ブラウザ上から設定できます。デモビデオはこちら。 Pig Hive の影に隠れがちなクエリ言語ですが、特に ETL として使う場合は書きやすいです。中身は MapReduce。Java はもちろん、PythonJavascriptRuby、そしてGroovyでUDFが書けるのが特徴。HCatalog というツールのおかげで Hive 同様スキーマを扱えるようになりました。 Hue を使えば Web ブラウザ上から実行できます。デモビデオはこちら

    Clouderaで作るデータ分析環境 - 科学と非科学の迷宮
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • HBase 0.96 で導入される新しいコンパクション「Exploring Compaction」 - 科学と非科学の迷宮

    Hadoopアドベントカレンダー2013、3日目を担当する @shiumachi です。 今回は HBase 0.96 の新機能を一つ紹介します。 要約 HBase 0.96 は賢くなったのでみんな使おう。 コンパクションのおさらい HBase では、Log Structured-Merge tree (LSM-tree) というデータ構造を使っています。 LSM-tree を簡単に説明すると、入力されたデータをログとメモリ上のデータストア(Memstore、メモリストア) に書き込みます。 メモリストアがいっぱいになると、まとめてディスクにフラッシュし、新しいストアファイルを生成します。 このストアファイルがたまってきたときに、少しづつ一まとめにしてなるべくファイル数を少なくするようにします。これがコンパクションです。 コンパクションを実行することにより、ファイルは一つにまとまります。こ

    HBase 0.96 で導入される新しいコンパクション「Exploring Compaction」 - 科学と非科学の迷宮
  • 今日からすぐに使えるデプロイ・システム管理ツール Fabric 入門 - 科学と非科学の迷宮

    Fabric は、Python 製のデプロイ・システム管理ツールです。 最近、構築や運用を自動化するための様々なツールが出てきています。 構成管理ツールの Puppet や Chef が有名ですが、使うまでに覚えることが多いのが欠点です。 しかし、Fabric は非常にシンプルなツールで、今からすぐに使うことができます。 Fabric はデプロイ・システム管理ツールで、類似のツールとして Ruby 製の Capistrano があります。 Fabric の最大の特長は、シェルスクリプトを書き慣れた人がいきなり利用できるところです。 シェルスクリプトとしてまとめていたコマンドをそのまま run() メソッドや sudo() メソッドで囲むだけで、使うことができます。 シェルスクリプトを使っていていると、いくつもの問題に遭遇します。 名前空間の管理 変数の扱い 複雑なデータ構造がない(せいぜい

    今日からすぐに使えるデプロイ・システム管理ツール Fabric 入門 - 科学と非科学の迷宮
    nobusue
    nobusue 2013/04/21
    もっかい読む
  • 1