タグ

ブックマーク / shiumachi.hatenablog.com (22)

  • 「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮

    Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが

    「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
    hokorobi
    hokorobi 2017/07/14
  • 新Google翻訳を使って3700ワードの技術文書を1時間で翻訳した - 科学と非科学の迷宮

    新しいGoogle翻訳がニューラルネットワークに基づく機械翻訳に移行して品質が向上した、というので早速使ってみました。 翻訳対象はHadoopのFair Schedulerに関するドキュメントです。 Fair Schedulerは、Capacity Schedulerと並ぶHadoopの2つのスケジューラの一つですが、挙動が少し複雑で、理解するのに苦労します。ドキュメント自体も長く、英語に不慣れな人には読むのがなかなか大変な文書で、前々から訳したいとは思っていました。しかし、3700ワード(A4に文字ぎっしりで7ページ近く)の技術文書を訳すとなると、かなりの労力が必要になります。少なくとも一日仕事になるのは間違いありません。私も仕事が忙しく、なかなか翻訳の時間がとれなかったため、翻訳作業はタスクキューの底に埋もれてしまっていました。 そこで、今回新しい翻訳がどれほどのものか試すのも兼ねて、

    新Google翻訳を使って3700ワードの技術文書を1時間で翻訳した - 科学と非科学の迷宮
    hokorobi
    hokorobi 2016/12/12
    内容とはほとんど関係ないけれど、以前はexcite翻訳の方が良いじゃろと思っていたので、google翻訳を使っている人が多そうだったのが不思議だった。
  • セールスエンジニアという仕事 - 科学と非科学の迷宮

    現在の自分の肩書である「セールスエンジニア」という仕事がどのようなものか知らない方も多く、毎回説明するのが大変なのでブログ記事にしました。セールスエンジニアという仕事はなかなか馴染みがありませんが、20代後半から30代のITエンジニアのキャリアパスとしては面白い仕事の一つだと思います。マネージャーになるかどうか考える前に、是非一度読んでください。 この記事では、ClouderaのようなB2BのITソフトウェアベンダーのセールスエンジニアを想定して執筆しています。他の業界のセールスエンジニアについては確実に状況が異なりますのでご注意ください。 要約 セールスエンジニアとは、お客様が自分たちの製品を正しく活用できるよう情報を提供していき、営業が製品・サービスを販売するのを助ける仕事です。お客様への製品紹介と提案が主要業務ですが、その方法は様々です。お客様の要望を満たすようなサンプルプログラムを

    セールスエンジニアという仕事 - 科学と非科学の迷宮
    hokorobi
    hokorobi 2016/06/04
  • 転職してから4年が経ちました - 科学と非科学の迷宮

    といっても4月1日の話なのでもう一ヶ月以上も前になるのですが、色々と忙しくて後回しにしてました。 ブログで転職報告してから4年の間、どういう仕事をしてきたのか書いてないことに気づいたので、せっかくなのでちょっとまとめてみようと思います。 1年目(2011年) 「朝、ベッドから起きると、そこが職場になっていた」 この感覚は今でも忘れません。オフィスも同僚もいなかった私は、在宅勤務という形で Cloudera での仕事を始めました。1Kの小さいマンションに住んでいたため他の作業部屋がなく、自分のベッドの横の机がそのまま仕事場になりました。 サポートエンジニア(今は COE = カスタマー・オペレーション・エンジニアという名前になっている)として今の会社での仕事を始めたのですが、肩書き通りの仕事だけをしていればいいなんていうことは当然あるわけもなく、日にいる唯一のエンジニアとして何でも仕事をこ

    転職してから4年が経ちました - 科学と非科学の迷宮
    hokorobi
    hokorobi 2015/05/10
  • Fabric の run() メソッドと sudo() メソッド - 科学と非科学の迷宮

    この記事では、Fabricの主要メソッドである run() と sudo() について解説します。 サンプルコードは https://github.com/shiumachi/fabric-sample にあります。 run() と sudo() の基 読みやすくするため、以後は必要がない限り run() メソッドのみを取り上げます。run() で出来ることはほぼ全て sudo() でも出来ます。断りが無い限り、run() は sudo() と読み替えることができます。 from fabric.api import run でインポート可能 run([コマンド文字列]) で、任意のコマンド文字列を実行可能 sudo([コマンド文字列]) とすれば、任意のコマンド文字列を sudo できる エラーハンドリング run() で実行したコマンドが失敗した場合、fab コマンド自体がその場で中断

    Fabric の run() メソッドと sudo() メソッド - 科学と非科学の迷宮
  • 今日からすぐに使えるデプロイ・システム管理ツール Fabric 入門 - 科学と非科学の迷宮

    Fabric は、Python 製のデプロイ・システム管理ツールです。 最近、構築や運用を自動化するための様々なツールが出てきています。 構成管理ツールの Puppet や Chef が有名ですが、使うまでに覚えることが多いのが欠点です。 しかし、Fabric は非常にシンプルなツールで、今からすぐに使うことができます。 Fabric はデプロイ・システム管理ツールで、類似のツールとして Ruby 製の Capistrano があります。 Fabric の最大の特長は、シェルスクリプトを書き慣れた人がいきなり利用できるところです。 シェルスクリプトとしてまとめていたコマンドをそのまま run() メソッドや sudo() メソッドで囲むだけで、使うことができます。 シェルスクリプトを使っていていると、いくつもの問題に遭遇します。 名前空間の管理 変数の扱い 複雑なデータ構造がない(せいぜい

    今日からすぐに使えるデプロイ・システム管理ツール Fabric 入門 - 科学と非科学の迷宮
  • 「最近更新したページ一覧」を生成するsphinx拡張、recentpages ( #sphinxjp アドベントカレンダー 13日目) - 科学と非科学の迷宮

    アドベントカレンダーへの参加を大幅に遅刻しました。すいません。 この記事では、私が今年作成した「最近更新したページ一覧」を生成するsphinx拡張、sphinxcontrib-recentpages を紹介します。 sphinxcontrib-recentpages とは? Sphinx プロジェクト内で作成した rst ファイルを更新された順にソートしてリスト表示するための Sphinx 拡張です。 この拡張を使えば、pukiwiki に標準で備わっている「最近更新されたページ」を表示することができます。 プロジェクトページはこちら: https://bitbucket.org/shiumachi/sphinxcontrib-recentpages インストール方法 easy_install でインストールしてください。 $ easy_install sphinxcontrib-rece

    「最近更新したページ一覧」を生成するsphinx拡張、recentpages ( #sphinxjp アドベントカレンダー 13日目) - 科学と非科学の迷宮
  • sphinx拡張開発メモ ( #sphinxjp アドベントカレンダー 13.1日目) - 科学と非科学の迷宮

    前回の記事では私が作成した sphinx 拡張、sphinxcontrib-recentpages の紹介をしました。 この記事では sphinx 拡張の開発をしたときに気づいたことなどのメモを紹介します。 私は sphinx 拡張の開発は初心者ですので、間違いがあるかもしれません。間違いを発見した場合はご連絡いただけると助かります。 チュートリアル まずはチュートリアルをやること。 http://sphinx-users.jp/doc11/ext/tutorial.html まず def setup(app): という関数を作る。 ノード app.add_node(<ノード名>) で登録。 このノードは新しいクラスとして、docutils.nodes.<ノード> クラスを必要なだけ継承する。 class recentpages(nodes.General, nodes.Elemen

    sphinx拡張開発メモ ( #sphinxjp アドベントカレンダー 13.1日目) - 科学と非科学の迷宮
  • 大企業のマネージャもスタートアップに飛び込もうぜ - 科学と非科学の迷宮

    (注: ここでの話は主にB2BのIT業界の話をしています。他の業界は知りません) IT系のそこそこ有名なスタートアップの会社に勤めている人と何度か話す機会がありましたが、口を揃えて「いいマネージャがほしい」と言います。 エンジニアの場合、2つの点で優秀な人を(相対的に)集めやすいです。 エンジニア同士の横の連携が強く、一人優秀な人を雇えばその人のネットワークを使って別の優秀な人を雇いやすい(くどいようですが「相対的に」) github やオープンソースプロジェクト、勉強会などのアクティビティを見ることができるので比較的容易にスキルを判別できる ところが優秀なマネージャとなるとそうもいきません。そのマネージャが優秀かどうかは一緒に仕事した人じゃないとわからないので、単に面接しただけでは判別しにくいです。 さらに、エンジニアはともかく優秀なマネージャは大企業にとどまって外に出てこないので、おそ

    大企業のマネージャもスタートアップに飛び込もうぜ - 科学と非科学の迷宮
    hokorobi
    hokorobi 2012/10/07
  • PyFes LT 2012.08 で「使い捨て python コードの書き方」についてしゃべってきました - 科学と非科学の迷宮

    使い捨て python コードの書き方 from Sho Shimauchi サポートの仕事におけるプログラミングというのは通常の開発と少し異なっています。 「1時間以内に数十GBのログを解析して問題を特定し対策を回答しなければいけない」などということはしょっちゅう発生しますので、ちまちま時間をかけてコードを書いていられません。 その代わりプログラムそのものをお客様に提供するわけではなく、解析の道具として手足のように使うことが要求されますので、基的に品質は求められません。 そういう意味では、プログラミングコンテストに性質が近いかもしれません。あそこまでの高度なアルゴリズムを使うことは稀ですが。 先日 PyFes LT で話をした内容を要約すると、「作成スピード向上のためにもある程度のテストやコード管理は必要ですよ」ということです。 わずかでもテストを書いておけばケアレスミスの確認・修正時

    PyFes LT 2012.08 で「使い捨て python コードの書き方」についてしゃべってきました - 科学と非科学の迷宮
  • 技術系メーリングリスト上で使える英語の習得法 - 科学と非科学の迷宮

    前回バグレポートの提出方法というテーマで記事を書きましたが、今回は英語にフォーカスして少し書いてみることにします。 英語の学習法は数多くありますが、もし英語を学ぶ目的が「IT技術系メーリングリストに投稿し、議論する」ことが目的でしたら少しだけ楽な方法があります。 それは、技術系メーリングリストを片っ端から登録し、辞書を引くたびに検索をかけ、自分独自の例文集を作成することです。 ある特定のクラスタ内で他人とのコミュニケーションをとるとき、そのクラスタ固有の用法が生まれることがあります。例えば日語においても、IT技術系クラスタで使う英語と他のクラスタ、例えば家族、大学の友人などの集団に属しているときに使う言葉は異なります。「割り当てる」という単語は、IT 系のクラスタでは頻繁に見かけますが、この単語を家族間で使うことはあまりないでしょう。方言なども、あるクラスタでは多用するが他のクラス

    技術系メーリングリスト上で使える英語の習得法 - 科学と非科学の迷宮
  • Sphinx で 日本語 pdf を出力する(Mac OS X Lion) - 科学と非科学の迷宮

    なぜ Tex 経由か? rst2pdf ではダメなのか? rst2pdf は現在日語出力がうまくできませんでした。 私の環境設定の問題かもしれませんが、デバッグするよりもう一つの環境を作った方がいいと判断して Tex 経由で作ることにしました。 用意するもの 都合 10 GB ぐらいの空き容量は用意しといた方がいいです。 zip 圧縮ファイル 1.7 GB 展開後 1.7 GB インストールにさらに 3.3 GB の空き容量を要求 全くもってこのパッケージングの思想が理解できませんが(yum リポジトリのようなものを用意して必要なものだけ DL できるようにしたりすればいいのに)、仕方ありません。 MacTeX のインストール ここから DL してインストールしてください。 前述の通り非常に大きい(zip圧縮で1.7GB)ので覚悟してください。 PATH を通す /usr/local/t

    Sphinx で 日本語 pdf を出力する(Mac OS X Lion) - 科学と非科学の迷宮
    hokorobi
    hokorobi 2012/01/07
    WindowsだとW32TeXでできるのかな? 数年ぶりにインストールして試してみよう。
  • GNU screen メモ - 科学と非科学の迷宮

    はじめに id:marqs とかに「screen いいよー使うと便利だよー」と薦められながらも「別にそんなに不自由してないし、設定とか調べるの面倒だからいいや」と放置していた GNU screen ですが、年始に読んだnokunoさんの開発環境の記事に screen が載っているのを見て急に欲しくなり、使ってみることにしました。 今じゃこれ無しに生活できません。今まで使ってなかったのがバカみたいです。 使ってみて一ヶ月ほど経ったので、覚えたことをメモ書きすることにしました。 設定 先述の id:nokuno さんの設定を丸パクリ参考にして設定しました。 autodetach on bell_msg "^G" defkanji utf-8 defencoding utf-8 encoding utf-8 utf-8 defscrollback 100000 startup_message o

    GNU screen メモ - 科学と非科学の迷宮
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • 勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮

    id:kaigai の主催する勉強会で発表してきました。 Hadoop for programmerView more presentations from shiumachi. 答えられなかった質問 Shuffleフェーズって、ソートをどういう仕組みでやってるの? データ全部をなめてるの? Partitionerというクラスでデータを振り分けてる。タスクごとは独立してるのでデータをまたがってアクセスすることはないと思う。でも細かいことはちょっとわからない。 Map中にデータ追加したらどうなるのか? さすがに扱うデータは最初に決めていると思うが、やったことないのでわからない。 Streamingって具体的にどんな処理してるの? jarファイルは投げてるけど、実行時に使うスクリプトはどうやって投げてるのかわからない。 あとで調べときます。 今の世の中に出てるHadoopって構築とか運用の話

    勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮
  • 恐山で一泊してきた - 科学と非科学の迷宮

    注意:この記事には大変想像力を刺激する画像が含まれています。あなたはこの画像を見てあらぬものを想像してもいいし、ただの写真として無感動に見ることもできます。 というわけで、前回書いた通り、恐山を別枠で紹介します。 恐山、イタコの話だの祟られるだのやたらとオカルトネタで持ち上げられるこの山ですが、もともとは「うそり山」から来ているそうで、これはアイヌ語で「入江」「湾」などの意味があるそうです*1。実際、恐山の中にあるカルデラ湖は宇曽利湖と呼ばれています。全く、誰が「恐」なんて物騒な名前にしたんだか……。 宇曽利湖のほとりにある菩提寺というお寺は曹洞宗なのですが、さらに昔から山岳信仰の対象だったようで、「山」は霊魂の帰る場所だと考えられていた(いる)ようです。かつて私は木曽御岳山の山頂で1ヶ月ほど働いていたことがあるのですが、あの山も山岳信仰の対象とされていて、毎日のように参拝客で賑わっていま

    恐山で一泊してきた - 科学と非科学の迷宮
    hokorobi
    hokorobi 2010/08/26
    良さそうだけど、遠い、遠いよ。
  • TDDとかテストファーストを学んで得られたこと - 科学と非科学の迷宮

    テスト駆動開発などの、「まずテストから考える」という概念は単純なコーディング部分以外でも思わぬ効用があったので最近お気に入りです。 設計スキルが上がった 最初からテストありきで考えていると、全体の設計もテストしやすい設計を考えるようになります。テストしやすいということは必然的に結合度の低い設計となるわけです。だから結果として設計がうまくなった気がします。 要件定義のスキルが上がった 今までは要件定義の際にまず「これどうやって実装すればいいかな」と考えていましたが、ここも「これどうやってテストすればいいかな」と考えるようになりました。以前よりも何を明確にしなければいけないかがはっきりと分かるようになった気がします。一見可能なように見える要件でも、テストを行うという観点から考えると到底不可能な要件なども見分けられるようになりました。 まとめ:テストと定義は表裏一体 結局テストとは、ある人が決め

    TDDとかテストファーストを学んで得られたこと - 科学と非科学の迷宮
    hokorobi
    hokorobi 2010/03/17
  • twitter API 自分用まとめ - 科学と非科学の迷宮

    こちらを読んで、自分に必要な部分だけを抜き出してまとめてみました。 気が向いたら適当に追加します。 全般 HTTPステータスコード 200 成功 304 新しい情報なし 400 API実行制限にひっかかった等の理由でリクエスト却下 401 認証失敗 403 権限のないAPIの実行を試みた(followingでないprotectedなユーザの情報を取得しようとした、など) 404 存在しないAPIの実行や、存在しないユーザに対するAPIの実行など 500 twitter側の問題 502 twitterサーバが落ちているかメンテ中 503 twitterの負荷が大きすぎてさばききれない APIの実行制限 150回/1h. 認証の必要なものはユーザID単位、認証不要なものはIP単位。 twitterの開発者にコンタクトをとって許可がおりれば、20000回/1hまで制限を緩和できる。 rate_l

    twitter API 自分用まとめ - 科学と非科学の迷宮
  • The Datacenter as a Computer 読書会 - 科学と非科学の迷宮

    概要 Google が 2009年3月に公開した、クラウド・コンピューティングにおけるデータセンタのデザインに関する入門書「The Datacenter as a Computer」の読書会を実施しました。参加者は一ヶ月に渡り、各章を分担してプレゼンを行いました。ここでは各参加者の資料へのリンクをまとめるとともに、参加者の一人である私の感想を書かせていただきました。 教材 テキストは書籍として購入することも可能ですが、pdf としてフリーで公開されています。 (2011/03/07 修正)いつの間にかフリーではなくなっていたようです。読みたい方は日語訳である「Googleクラウドの核心」をお買い求めください。 http://www.morganclaypool.com/doi/pdf/10.2200/S00193ED1V01Y200905CAC006 参加者 id:marqs, id:d

    The Datacenter as a Computer 読書会 - 科学と非科学の迷宮
  • チケット管理システム活用メモ(2) - 科学と非科学の迷宮

    前回の話の続編ではなく、tracに特化した話。 カスタマイズに関する自分用メモ。 新しいワークフロー:waiting 「リリース待ち」。 システムがリリースされている状態でチケットをざくざくクローズしていたときに、クローズしたはずのチケットと同様の不具合報告がされました。調べてみると、クローズしたチケットの修正を適用していなかったという単純な問題でした。その経験から生み出されたワークフロー。 リリースノートを書くときや、次のリリーススケジュール決めるときに非常に便利です。 trac.iniを直接いじらなきゃいけないのが面倒ですが。 Google のデータセンター運用から学んだ、新しい不具合の重要度分類 The Datacenter As a Computerに、Google のデータセンター運用における不具合の重要度分類が書かれていました。(p.80) Corrupted データが破壊され

    チケット管理システム活用メモ(2) - 科学と非科学の迷宮
    hokorobi
    hokorobi 2009/12/28
    重要度の意味づけ重要