タグ

ブックマーク / tagomoris.hatenablog.com (11)

  • 4年前、おれがSIerの片隅で、何者でもなかった頃 - たごもりすメモ

    今からちょうど4年前の2010年2月、某巨大SIerの片隅でExcelPowerPointばかりを眺めて過ごしていた頃、おれは仕事でも仕事以外でもコードなんかまったく書いていなかったし、GitHubのアカウントも持ってなかった。毎日見積書とWBSと納品書と請求書と、Excel方眼紙の詳細設計書と格闘してた。 当時おれは30歳だった。一度はプログラマとして生きるのは自分には無理だと思って入社したSIerで数年やってて、そこそこ成功した数年を送っているとは思っていたけど、でもやっぱり、そんな毎日に飽きていた。 技術力を重視とか言いながらプロパー社員にコードを書かせようとしない会社の方針にも、svnもgitも閉じられててガチガチに監視されたネットワークに繋がせておいてオープンソースがどうのと言う文化にも、手順や履歴を重視とか言いながらロクにバージョン管理システムを使おうとしない一部の同僚にも、

    4年前、おれがSIerの片隅で、何者でもなかった頃 - たごもりすメモ
    oza_x86
    oza_x86 2014/02/25
    . @tagomoris さん,ご受賞おめでとうございます!
  • RPCメソッド一覧から見るhiveserverとhiveserver2の違い (と、ついでにPresto) - たごもりすメモ

    手元でいいかげんhiveserver2に移行しようと思いまして、移行するためには shib をhiveserver2に対応させなきゃならん、ということになるわけです。 で、実装する前にどうせ調べるから、ということでhiveserverとhivesever2は何が違うのかをRPC APIメソッドの一覧から見てみようと思いました。カジュアル! hiveserver 古きよきhiveserverはThriftで接続してAPIを叩きます。*.thrift ファイルがやたら多いのが気になりますが、えいやとコード生成してしまえば結構わかりやすいコードが(どの言語でも)生成されますね。 メソッドの一覧を出してみるとこんな感じ。 execute(query) fetchOne() fetchN(numRows) fetchAll() getSchema() getThriftSchema() getClu

    RPCメソッド一覧から見るhiveserverとhiveserver2の違い (と、ついでにPresto) - たごもりすメモ
  • Cloudera World Tokyo 2013 行ってきた&しゃべってきた - たごもりすメモ

    Cloudera World Tokyo 2013で登壇する機会をいただいたので行ってきた。 Cloudera World Tokyo 2013 | Cloudera Japan しゃべってきた しゃべる方は最近作ってるNorikra……の話だけだとなんでCloudera World Tokyoだということになるので、集計処理をSQLに一化してラクしよう、という文脈でHiveとNorikraで全部片付けるようにするといろいろ便利だしお仕事も回るよ! という話。 で、ついでにv0.1.0をリリースしたばかりのNorikraというやつがどういうソフトウェアなのか、について簡単に紹介した。どういうソフトウェアなのかがいまいちわからん、という話が同僚からも聞かれていたので、分かりやすい話を一度しておこうかなと。*1 Batch and Stream processing with SQL fro

    Cloudera World Tokyo 2013 行ってきた&しゃべってきた - たごもりすメモ
  • Review: Instant Apache Hive Essentials How-to - たごもりすメモ

    突然英語でメールがやってきてレビューしてくれないかと頼まれ、面白そうだから引き受けて読んでみた。日語でしかレビュー記事書かないけど大丈夫? と確認したら大丈夫だといって電子書籍データをもらいました。すごいことやってる会社があるなあ。イギリスの(電子書籍専門の?)出版社みたいだけど。 なおフォーマットは pdf, epub, mobi のどれでもダウンロードできる。すごい。日はなぜこうじゃないの。 で、読んだ。76ページの短い。 ざっくり言うと 英語だけどすごく簡単な英語で書かれてて、きわめて簡単に読める。manとか普通に英語で読んでる人なら楽勝だと思う。読めば普通に導入からいろんなクエリを発行するところまで行ける。リファレンスには使えない*1けど、それはまあ、wikiを見ればいいんじゃないですかね。 各トピックについてはかなり短いが、必ず前提になるテーブルの準備をするためのクエリ*2

    Review: Instant Apache Hive Essentials How-to - たごもりすメモ
  • Hadoop徹底入門 第2版 - たごもりすメモ

    著者の方からいただきました! ありがとうございます! Hadoop徹底入門 第2版 オープンソース分散処理環境の構築 作者: 太田一樹,岩崎正剛,猿田浩輔,下垣徹,藤井達朗,山下真一,濱野賢一朗出版社/メーカー: 翔泳社発売日: 2013/07/09メディア: 大型この商品を含むブログ (5件) を見る 第1版も持ってたんだけど、較べてみると第2版のほうがはるかに出来がよくなってると思います。1版だと hadoop v0.20 と v0.21 の両論併記みたいになっていたところが CDH4 + MRv1 を一貫して対象とすることでずっとすっきりした内容になってますね。 というか当に全体的にCDH4にしっかり対応した内容になっていて、まあ今から入門する人に古い環境について教えることもあるまい、と思うと、これは今から始める人には当に良い内容になっているんじゃないでしょうか。 Nameno

    Hadoop徹底入門 第2版 - たごもりすメモ
    oza_x86
    oza_x86 2013/07/22
    tagomoris 先生に書評頂きました!ありがとうございます! > "YARNの章は、そもそも何故YARNなんてものがあるのかという話から始まるわかりやすい内容になってました。両方ともすばらしいと思います。"
  • OSS CEP Server 'Norikra' v0.0.1 released! - たごもりすメモ

    みんな大好きFluentdはプラグインも自由に書けて好き放題にリアルタイム集計を行うことが可能なわけですが、やりたい処理にあわせて無限にプラグインを書き続けてるとプラグインの数が爆発し何がどんな処理をしているのかもよくわからず混乱の海に呑まれて消えるという未来がみなさんの脳裏にもおそらく想像されていることと思います。 で、世の中にはCEPエンジンというものがあってストリーム状に流れてくるイベントデータに対して処理を行う仕組みがあるわけですね。これ使いたい! しかもあれだ、簡単に処理が書けるものがいい! 何が言いたいかと言うとWE NEEEED xQL!!!!!!!!!!!!!!! そんなようなことをこちらのエントリを書いたときに思ったわけです。 http://tagomoris.hatenablog.com/entry/2013/02/19/142017 で、RubyKaigiにも通っちゃ

    OSS CEP Server 'Norikra' v0.0.1 released! - たごもりすメモ
  • くもりのち晴れ、ときどき、コストセンター - たごもりすメモ

    直接成果が外に出ない僕らの仕事は大抵、最初は空模様が怪しい。いまいち見通しが悪くテンションも上がらない曇り空が続いたあと、努力が報われれば、ありがたくもそのうちに晴れ間が見えるようになる。たまにとんでもない快晴にめぐりあえることもある。 でも途中で目的地を見失ったり、脚が萎えてその場にくずれおちたりすると、天候はあっという間に変わる。動けないうちに嵐がやってくる。 その嵐には僕の中では、コストセンターというラベルが貼ってある。 http://www.picgifs.com/wallpapers/storm/wallpaper_storm_animaatjes-9-970507/ あまり好きな表現ではないが、コストセンターという言葉がある。この言葉の定義自体いろいろあるらしいというか、明確には定義があるようだというのはこのあたりを読むとふむふむという感じ。 だが、おそらく多くの人の頭には「コ

    くもりのち晴れ、ときどき、コストセンター - たごもりすメモ
    oza_x86
    oza_x86 2013/04/23
    研究開発だとプランが1-2年規模になってしまうこともザラで,その間,直接利益になるものが出なかったりする.それゆえに,どこを目指しているのか,何ができそうなのかを明確化するのは重要.
  • HiveでLOAD粒度を自由に変更可能にするパーティション構成 - たごもりすメモ

    ひとことで言うと「通常必要なパーティション階層の更に下にもうひとつパーティションを掘っておけ」だけ。 普通のパーティション設計 仮にWebサーバのアクセスログを投入するためのテーブル accesslog があるとする。このテーブルを、まずサービス名 service カラムでパーティショニングし、さらに日毎にパーティショニングするとしよう。データは外部でタブ区切りにparseしておき、それを毎日LOADする。 このようなテーブルになる。 CREATE TABLE accesslog ( rhost STRING, time STRING, method STRING, path STRING, status SMALLINT, bytes BIGINT, referer STRING, useragent STRING ) PARTITIONED BY (service STRING, yy

    HiveでLOAD粒度を自由に変更可能にするパーティション構成 - たごもりすメモ
  • CDH4+YARN+Hiveでハマってる - たごもりすメモ

    検証用として新規にセットアップしたCDH4クラスタ、YARN使用で設定してみたんだけど以下のような状態。完全分散モード。 CDH4はtarballを展開する形でインストール HADOOP_MAPRED_HOMEは hadoop/share/hadoop/mapreduce を指定 YARNで hadoop-mapreduce-example.jar は走る ResourceManagerと同ホストから以下のコマンドを実行したら成功する hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-0.23.1-cdh4.0.0b2.jar pi 4 1000 HiveでMapReduceを介さない処理は成功する 具体的にはSHOW TABLESやCREATE TABLEおよびLOADなど Hive

    CDH4+YARN+Hiveでハマってる - たごもりすメモ
  • #fluentd meetup in Japan に行ってきた&しゃべってきた - たごもりすメモ

    Fluentd meetup in Japanなるイベントをやるけどしゃべらない? というお誘いがあったのでありがたくお受けして参加し、1セッションしゃべってきた。 まだ世に出て半年足らずのミドルウェアのイベントなのに集いも集ったり120人*1、まるまる半日間ひたすら高濃度な時間だった。話してみると、みんなfluentdがフォーカスしてるあたりにやっぱり問題意識をもっていて、ああやっぱりこれは出るべくして出たのだな、という印象だった。 あとからtogetterのまとめページも見たけど異様に長い。どんだけ盛況だったかがわかる。開催時間中、Twitterの日のトレンドに #fluentd が出てたしな。 会場がほんとにすばらしく、運営もUstreamや無線LAN解放、電源の確保から飲み物提供まで極めて良い状態だった。主催や運営協力の方々およびフューチャーアーキテクト様、ほんとうにありがとうご

    #fluentd meetup in Japan に行ってきた&しゃべってきた - たごもりすメモ
  • Hoop(httpfs)とwebhdfsの違い - たごもりすメモ

    Hadoop 1.0.0がリリースされた。まあ中身のほとんどはただの 0.20.x 安定板リリースなので特別に言うことはないんだけど。詳しくは以下のblogを読むのがよろしい。 hadoopのバージョン表記について - 科学と非科学の迷宮 ただしひとつだけびっくりしたのは、webhdfsなる機能が入ってきたこと。(このblogでよく話題にしている)Hoopと並んでそんなようなものがあること自体は知ってたけどあんまり興味なかったのだが、Apache Hadoopのパッケージに(Hoopより先に)入ったとなるとちょっと注目せざるをえない。 が、httpfs(Hoop)とwebhdfsじゃ名前も似てて超まぎらわしい。いったい何がなんなの。 なお自分はWebHDFSはAPIリファレンスを読んだだけで、実際にはカケラも触っていない。その状況での理解による内容なので、注意して読んでください。 先に結論

    Hoop(httpfs)とwebhdfsの違い - たごもりすメモ
  • 1