タグ

ブックマーク / shiumachi.hatenablog.com (13)

  • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

    Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

    「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
    raimon49
    raimon49 2017/07/10
    MapReduceとHDFS、それぞれのポジショニング。処理エンジン部分のMapReduceはSQLライクな処理エンジンやSparkの登場で役目を終えつつある。
  • セールスエンジニアという仕事 - 科学と非科学の迷宮

    現在の自分の肩書である「セールスエンジニア」という仕事がどのようなものか知らない方も多く、毎回説明するのが大変なのでブログ記事にしました。セールスエンジニアという仕事はなかなか馴染みがありませんが、20代後半から30代のITエンジニアのキャリアパスとしては面白い仕事の一つだと思います。マネージャーになるかどうか考える前に、是非一度読んでください。 この記事では、ClouderaのようなB2BのITソフトウェアベンダーのセールスエンジニアを想定して執筆しています。他の業界のセールスエンジニアについては確実に状況が異なりますのでご注意ください。 要約 セールスエンジニアとは、お客様が自分たちの製品を正しく活用できるよう情報を提供していき、営業が製品・サービスを販売するのを助ける仕事です。お客様への製品紹介と提案が主要業務ですが、その方法は様々です。お客様の要望を満たすようなサンプルプログラムを

    セールスエンジニアという仕事 - 科学と非科学の迷宮
    raimon49
    raimon49 2016/06/04
    日本のIT企業にもセールスエンジニアやサポートエンジニアというキャリアパスが用意されると良いのにと実感する。
  • Fabric の run() メソッドと sudo() メソッド - 科学と非科学の迷宮

    この記事では、Fabricの主要メソッドである run() と sudo() について解説します。 サンプルコードは https://github.com/shiumachi/fabric-sample にあります。 run() と sudo() の基 読みやすくするため、以後は必要がない限り run() メソッドのみを取り上げます。run() で出来ることはほぼ全て sudo() でも出来ます。断りが無い限り、run() は sudo() と読み替えることができます。 from fabric.api import run でインポート可能 run([コマンド文字列]) で、任意のコマンド文字列を実行可能 sudo([コマンド文字列]) とすれば、任意のコマンド文字列を sudo できる エラーハンドリング run() で実行したコマンドが失敗した場合、fab コマンド自体がその場で中断

    Fabric の run() メソッドと sudo() メソッド - 科学と非科学の迷宮
    raimon49
    raimon49 2014/11/04
    run()の引数warn_only=True, quiet=Trueや返り値の中身について。
  • 今日からすぐに使えるデプロイ・システム管理ツール Fabric 入門 - 科学と非科学の迷宮

    Fabric は、Python 製のデプロイ・システム管理ツールです。 最近、構築や運用を自動化するための様々なツールが出てきています。 構成管理ツールの Puppet や Chef が有名ですが、使うまでに覚えることが多いのが欠点です。 しかし、Fabric は非常にシンプルなツールで、今からすぐに使うことができます。 Fabric はデプロイ・システム管理ツールで、類似のツールとして Ruby 製の Capistrano があります。 Fabric の最大の特長は、シェルスクリプトを書き慣れた人がいきなり利用できるところです。 シェルスクリプトとしてまとめていたコマンドをそのまま run() メソッドや sudo() メソッドで囲むだけで、使うことができます。 シェルスクリプトを使っていていると、いくつもの問題に遭遇します。 名前空間の管理 変数の扱い 複雑なデータ構造がない(せいぜい

    今日からすぐに使えるデプロイ・システム管理ツール Fabric 入門 - 科学と非科学の迷宮
    raimon49
    raimon49 2013/04/14
    複数ホストに対して定義したレシピを任意の順序で実行。覚えることが少なくてシンプルという話。
  • PyFes LT 2012.08 で「使い捨て python コードの書き方」についてしゃべってきました - 科学と非科学の迷宮

    使い捨て python コードの書き方 from Sho Shimauchi サポートの仕事におけるプログラミングというのは通常の開発と少し異なっています。 「1時間以内に数十GBのログを解析して問題を特定し対策を回答しなければいけない」などということはしょっちゅう発生しますので、ちまちま時間をかけてコードを書いていられません。 その代わりプログラムそのものをお客様に提供するわけではなく、解析の道具として手足のように使うことが要求されますので、基的に品質は求められません。 そういう意味では、プログラミングコンテストに性質が近いかもしれません。あそこまでの高度なアルゴリズムを使うことは稀ですが。 先日 PyFes LT で話をした内容を要約すると、「作成スピード向上のためにもある程度のテストやコード管理は必要ですよ」ということです。 わずかでもテストを書いておけばケアレスミスの確認・修正時

    PyFes LT 2012.08 で「使い捨て python コードの書き方」についてしゃべってきました - 科学と非科学の迷宮
    raimon49
    raimon49 2012/09/02
    Gistにテストコードとセットで育てる。
  • hadoopのバージョン表記について - 科学と非科学の迷宮

    (2012/01/10 追記) Cloudera 社から hadoop 1.0 に関する公式ブログ記事が公開されました。そちらの方がより分かりやすく正確に書いています。まずはそちらをご覧ください。 先日 hadoop-1.0 がリリースされたことが巷で話題になっています。 話題になること自体は構わないのですが、この 1.0 が実は 0.20 系の派生だということはあまり理解されていないように見えます。 1.0.0 は従来のバージョンナンバリングポリシーで言えば 0.20.205.1 に相当するものです。 つまり、最新版 0.23 で採用された MapReduce2 を初めとする様々な新機能はこの 1.0 には入っていないということです。 わかりやすく図にしてみました。 よって、新機能を試したいとかいう人には全くおすすめしません。 また、上記の通り既存のバージョンとなんら変わりがないので、た

    hadoopのバージョン表記について - 科学と非科学の迷宮
    raimon49
    raimon49 2011/12/31
    バージョニングポリシー 互換性
  • 英語によるhadoop系メーリングリストへのバグレポート提出ガイド - 科学と非科学の迷宮

    hadoop アドベントカレンダー 2011、1日目及びその他空いているところ全部を担当する @shiumachi です。 27日は誰もいないようなのでこれを27日とします。 id:showyou さんの担当でした。28日目とします。showyou さんすいません 基 テンプレ的に書くとこんな感じ。 「来は……であるべきだが、実際にはこうなっている」 前半は should を使い、but/in fact/however/while などを使って逆接でつないで次の文を書く。 以下の項目があるとレスポンスしやすい。 項目名 内容 概要 数行程度で何が起きたか書く 症状 特に、ログに例外が吐かれてたら必ず貼り付けること 直前にどんな作業をしていたか 何か特殊な作業を行っていたら、その手順を書く 再現性の有無 そのまんま 再現方法(わかっていれば) そのまんま 可能なら、該当 conf ファイ

    英語によるhadoop系メーリングリストへのバグレポート提出ガイド - 科学と非科学の迷宮
    raimon49
    raimon49 2011/12/29
    素晴らしく参考になる
  • CentOS6開発プロジェクトの現状 - 科学と非科学の迷宮

    先週、CentOS 6 はいつ頃出るのかどうか、ふと気になりました。 リリース予定もニュースにならないし、どうしたのだろうと調べていたら、CentOSの開発MLが荒れていることを知りました。 不安を感じた私は調査を続けました。 すると、LWN.net の一つの記事に、CentOS の開発の現状について書かれたものがあることを発見しました。 それを読んでまず知ったのが、CentOS は単純に RHEL のソースをリビルドするだけではなく、かなりの労力を費やして作られるディストリビューションであるということです。 そして、開発コミュニティの運営に苦戦している CentOS 開発チームの姿がそこにはありました。 この記事は是非多くの人に読んでもらいたいと思い、何人かの人にレビューをお願いした上で翻訳してみました。 それでは編をどうぞ。 CentOS 6 の困難、立ち向かう人々 Original

    CentOS6開発プロジェクトの現状 - 科学と非科学の迷宮
    raimon49
    raimon49 2011/01/23
    RHEL 6ベースCentOS, 商標監査プロセスの遅延, コミュニティ運営の難しさ
  • 2010年まとめ:データと向き合った一年 - 科学と非科学の迷宮

    はじめに:2010年弾丸ツアー 今年一年を一言でまとめると、「データと向き合った」一年でした。 2009年の終わり、私は The Datacenter as a Computer の読書会を通して、分散システムによる大量なデータの処理がこれからの時代にもっと重要になるということを学びました。 The Datacenter as a Computer 読書会 その流れを受け、1月には id:marqs や id:daisukebe とともに「集合知プログラミング」の読書会を開き、データマイニングの基礎を勉強しました。 大量のデータを扱う前に、小さなデータを扱う術を身につける必要があると思ったからです。 Programming Collective Intelligence 100111View more presentations from Sho Shimauchi. 第1回集合知プログラ

    2010年まとめ:データと向き合った一年 - 科学と非科学の迷宮
  • Hiveクエリチューニングメモ - 科学と非科学の迷宮

    Hadoop2版を買ったその一週間後にDeals of the day で半額セールやられて死にたくなったので腹いせに書く はじめに ここに書いてあるのは全部参考リンク・文献からひっぱってきただけで、ほとんど全部検証してない。間違いがあればなるべく早めに更新するよう努力はするが、鵜呑みにして何が起きても自己責任で。 Hive のクエリチューニングに関するメモ書きである。以下のことは「書いていない」 Hadoop自体のチューニング Hive のクエリチューニング以外の話 例えば、圧縮ファイルを Hive 上で扱うにはどうするかとか JOIN 一番左のテーブルに最も大きなテーブルを持ってくる 一番左のテーブルがMRでいう入力データとして流れる。インナーテーブルのデータはメモリに保持される。 同一 JOIN キー 通常は 1 JOIN = 1 MR ジョブだが、同一の JOIN キーを使ってい

    Hiveクエリチューニングメモ - 科学と非科学の迷宮
    raimon49
    raimon49 2010/11/20
    JOIN句 最も大きなテーブルを1番左に
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
    raimon49
    raimon49 2010/09/29
    すごいボリューム。
  • ロボットは死を受け入れることができるのだろうか - 科学と非科学の迷宮

    id:Spiny-anteater と、twitter上で面白い話ができたのでメモ。(元tweetは末尾に記載) 人はどのように死を受け入れるのでしょう? 何を以って他人の死を認識するのでしょう? 少し生きていれば、そこそこ多くの人が「まだあの人が生きている気がする」という感じを味わったことがあるでしょう。 しかし、ある時から「あの人はもう死んでいる」という事実を受け入れているはずです。 その認識の変化のトリガになっているものは一体なんなのでしょう? これが解明されれば、人工知能に「死を受け入れる」という概念を伝えることができるかもしれません。 元tweet @shiumachi 「人間誰しも一回ぐらい心の中で人を殺したことがある」とはよく言うけど「人間誰しも一回ぐらい心の中で人を生き返らせたことがある」とはあまり言わないな @Spiny_anteater @shiumachi 生き返らせ

    ロボットは死を受け入れることができるのだろうか - 科学と非科学の迷宮
  • 勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮

    id:kaigai の主催する勉強会で発表してきました。 Hadoop for programmerView more presentations from shiumachi. 答えられなかった質問 Shuffleフェーズって、ソートをどういう仕組みでやってるの? データ全部をなめてるの? Partitionerというクラスでデータを振り分けてる。タスクごとは独立してるのでデータをまたがってアクセスすることはないと思う。でも細かいことはちょっとわからない。 Map中にデータ追加したらどうなるのか? さすがに扱うデータは最初に決めていると思うが、やったことないのでわからない。 Streamingって具体的にどんな処理してるの? jarファイルは投げてるけど、実行時に使うスクリプトはどうやって投げてるのかわからない。 あとで調べときます。 今の世の中に出てるHadoopって構築とか運用の話

    勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮
    raimon49
    raimon49 2010/09/16
    Hadoopの使いどころはメモリに載らないサイズの大規模データを扱う場面。関数型プログラミングのmap()とreduce()に当てはめるとバッチ処理のイメージがし易い。とても分かり易い資料。
  • 1