タグ

ブックマーク / shiumachi.hatenablog.com (23)

  • 今日からすぐに使えるデプロイ・システム管理ツール Fabric 入門 - 科学と非科学の迷宮

    Fabric は、Python 製のデプロイ・システム管理ツールです。 最近、構築や運用を自動化するための様々なツールが出てきています。 構成管理ツールの Puppet や Chef が有名ですが、使うまでに覚えることが多いのが欠点です。 しかし、Fabric は非常にシンプルなツールで、今からすぐに使うことができます。 Fabric はデプロイ・システム管理ツールで、類似のツールとして Ruby 製の Capistrano があります。 Fabric の最大の特長は、シェルスクリプトを書き慣れた人がいきなり利用できるところです。 シェルスクリプトとしてまとめていたコマンドをそのまま run() メソッドや sudo() メソッドで囲むだけで、使うことができます。 シェルスクリプトを使っていていると、いくつもの問題に遭遇します。 名前空間の管理 変数の扱い 複雑なデータ構造がない(せいぜい

    今日からすぐに使えるデプロイ・システム管理ツール Fabric 入門 - 科学と非科学の迷宮
  • Hadoopに関する雑感 (Hadoop アドベントカレンダー2012 XX日目) - 科学と非科学の迷宮

    最近はなるべく技術的な話しか書かないようにしていたのですが、たまには個人的な思考を書いてみることにします。 クリスマスだし、ブログ初めてから8周年でもあるわけですし。 Hadoop は、大量のデータをリーズナブルに計算処理できるようにしたいという課題から生まれました。 つまりキーとなる課題として、 データが大量である リーズナブルである 計算処理ができる というものがあります。 後ろ2つは話が早い。低コストで計算処理を行いたいというのはほとんどのIT関係者が抱くニーズでしょう。 しかし、「データが大量である」という課題が厄介です。 まず第一に、「そんな大量のデータがどこにあるのか?」という問題があります。 たとえば1日1TBのデータを生成したとしても年間365TBです。ようするに 0.3PB。ビッグデータの代名詞として言われる「ペタバイトオーダー」には程遠いです。 1日1TBって、要するに

    Hadoopに関する雑感 (Hadoop アドベントカレンダー2012 XX日目) - 科学と非科学の迷宮
  • 大企業のマネージャもスタートアップに飛び込もうぜ - 科学と非科学の迷宮

    (注: ここでの話は主にB2BのIT業界の話をしています。他の業界は知りません) IT系のそこそこ有名なスタートアップの会社に勤めている人と何度か話す機会がありましたが、口を揃えて「いいマネージャがほしい」と言います。 エンジニアの場合、2つの点で優秀な人を(相対的に)集めやすいです。 エンジニア同士の横の連携が強く、一人優秀な人を雇えばその人のネットワークを使って別の優秀な人を雇いやすい(くどいようですが「相対的に」) github やオープンソースプロジェクト、勉強会などのアクティビティを見ることができるので比較的容易にスキルを判別できる ところが優秀なマネージャとなるとそうもいきません。そのマネージャが優秀かどうかは一緒に仕事した人じゃないとわからないので、単に面接しただけでは判別しにくいです。 さらに、エンジニアはともかく優秀なマネージャは大企業にとどまって外に出てこないので、おそ

    大企業のマネージャもスタートアップに飛び込もうぜ - 科学と非科学の迷宮
  • 技術系メーリングリスト上で使える英語の習得法 - 科学と非科学の迷宮

    前回バグレポートの提出方法というテーマで記事を書きましたが、今回は英語にフォーカスして少し書いてみることにします。 英語の学習法は数多くありますが、もし英語を学ぶ目的が「IT技術系メーリングリストに投稿し、議論する」ことが目的でしたら少しだけ楽な方法があります。 それは、技術系メーリングリストを片っ端から登録し、辞書を引くたびに検索をかけ、自分独自の例文集を作成することです。 ある特定のクラスタ内で他人とのコミュニケーションをとるとき、そのクラスタ固有の用法が生まれることがあります。例えば日語においても、IT技術系クラスタで使う英語と他のクラスタ、例えば家族、大学の友人などの集団に属しているときに使う言葉は異なります。「割り当てる」という単語は、IT 系のクラスタでは頻繁に見かけますが、この単語を家族間で使うことはあまりないでしょう。方言なども、あるクラスタでは多用するが他のクラス

    技術系メーリングリスト上で使える英語の習得法 - 科学と非科学の迷宮
  • ロードマップよりポートフォリオ - 科学と非科学の迷宮

    最近、こんなことを聞かれました。 「shiumachi 君、人生のロードマップとかそういうの持ってないの?」 「ありません」 と即答すると、「夢がないねぇ」と不思議そうな顔をされましたが、ないものはしょうがありません。 小学生だか中学生の頃に、「人生の計画を書いてみよう」という授業がありました。22才で就職して、27才で結婚して、……みたいなことを書いてみるという授業です。残念ながら、今の時代には全く役に立たないです。 ロードマップを書くような人生設計って自分の生活基盤が安定していることを大前提にしているのですが、残念ながら今の時代はそんなものは幻想なので、ロードマップを持つ意味は全くありませんし、それに依存するのは非常に高いリスクです。例えば、私は年金をもらえるなんて全く思ってないので、働けなくなってお金が尽きたら死ぬしかないわけです。会社どころか国だってこの先も存続するのかどうかわから

    ロードマップよりポートフォリオ - 科学と非科学の迷宮
  • Hadoop Conference Japan 2011 参加メモ - 科学と非科学の迷宮

    私の記事は個人的なメモで、間違った部分も多いため関連リンクを併読することをおすすめします。 特に今回は twitter と並行して読み書きしてたので、結構書き漏れてる箇所多いです。 網羅性とか正確性は期待しないように。 概要 イベント名 Hadoop Conference Japan 2011 URL http://hadoop-conference-japan-2011.eventbrite.com/ 日時 2011/02/22 11:15 - 18:00 場所 NTTデータ社ビル内 カンファレンスルーム 関連リンク twitterハッシュタグ #hcj2011 Ust http://www.ustream.tv/channel/hugjp http://www.ustream.tv/channel/sonwupao-live Togetter http://togetter.com/

    Hadoop Conference Japan 2011 参加メモ - 科学と非科学の迷宮
  • 2010年まとめ:データと向き合った一年 - 科学と非科学の迷宮

    はじめに:2010年弾丸ツアー 今年一年を一言でまとめると、「データと向き合った」一年でした。 2009年の終わり、私は The Datacenter as a Computer の読書会を通して、分散システムによる大量なデータの処理がこれからの時代にもっと重要になるということを学びました。 The Datacenter as a Computer 読書会 その流れを受け、1月には id:marqs や id:daisukebe とともに「集合知プログラミング」の読書会を開き、データマイニングの基礎を勉強しました。 大量のデータを扱う前に、小さなデータを扱う術を身につける必要があると思ったからです。 Programming Collective Intelligence 100111View more presentations from Sho Shimauchi. 第1回集合知プログラ

    2010年まとめ:データと向き合った一年 - 科学と非科学の迷宮
  • Hadoopモデリング座談会#3 - 科学と非科学の迷宮

    第2回のレポートはこちら 概要 イベント名 Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第3回) URL http://atnd.org/events/9098 日時 2010/11/19 18:30 - 21:00 場所 スター研修センター神田3F 関連リンク twitterハッシュタグ #hadoopmodeling Ust part1 part2 part3 Togetter http://togetter.com/li/70621 (私の記事は個人的なメモで、間違った部分も多いため併読することをおすすめします) 佐藤一郎先生(NII) @ichiro_satoh 分散環境の過去・現在・未来 モバイルエージェント、まずはデモから デモ テキストエディタ 2つのPCを用意、片方でエディタ起動 文字を適当に書きこんでから「Go」ボタンを押すと、

    Hadoopモデリング座談会#3 - 科学と非科学の迷宮
  • Hiveクエリチューニングメモ - 科学と非科学の迷宮

    Hadoop2版を買ったその一週間後にDeals of the day で半額セールやられて死にたくなったので腹いせに書く はじめに ここに書いてあるのは全部参考リンク・文献からひっぱってきただけで、ほとんど全部検証してない。間違いがあればなるべく早めに更新するよう努力はするが、鵜呑みにして何が起きても自己責任で。 Hive のクエリチューニングに関するメモ書きである。以下のことは「書いていない」 Hadoop自体のチューニング Hive のクエリチューニング以外の話 例えば、圧縮ファイルを Hive 上で扱うにはどうするかとか JOIN 一番左のテーブルに最も大きなテーブルを持ってくる 一番左のテーブルがMRでいう入力データとして流れる。インナーテーブルのデータはメモリに保持される。 同一 JOIN キー 通常は 1 JOIN = 1 MR ジョブだが、同一の JOIN キーを使ってい

    Hiveクエリチューニングメモ - 科学と非科学の迷宮
  • Yahoo!のリアルタイムMapReduce「S4」メモ(1) - 科学と非科学の迷宮

    (2010/11/06) 続き書きました 自分用メモ。 注意:「リアルタイム」について Yahoo! からの最初のリリースで「リアルタイム」MapReduce と書かれていたので仕方なくそう書いているが、人によっては聞いただけでキレるので注意すること。(特にOS屋さん相手のとき) 参考:リアルタイムシステム - Wikipedia ちなみに下記公式サイトには "Realtime" という文字は一切出てこない。 リンクまとめ(紹介用) 公式 S4.IO 日語のニュース リアルタイムなHadoop? 「Real-Time MapReduce」を実現するS4、オープンソースとしてYahoo!が公開 - Publickey Yahoo!からの第一報 Page not found | Yahoo Labs リンクまとめ(技術者用) wiki Tutorials "getting started"

    Yahoo!のリアルタイムMapReduce「S4」メモ(1) - 科学と非科学の迷宮
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • Hadoopリンクまとめ(1) - 科学と非科学の迷宮

    Part1 / Part2 更新履歴 2010/06/20 リンク追加 入門、事例紹介、ニュース Part2へ移動 EC2、Pig、MapReduce、HDFS 新規追加 性能測定 公式 Welcome to Apache Hadoop! 日語訳 Hadoopユーザー会 Welcome to Hadoop MapReduce! "大規模な計算ノード・クラスタ上において膨大なデータを高速で並列処理するアプリケーションを作成するためのプログラミングモデルおよびソフトウェアフレームワーク" Welcome to Pig! "大規模なデータセットを分析するためのプラットフォーム""Pig の言語レイヤを構成しているのは、Pig Latin と呼ばれるテキストベースの言語" wikipedia Apache Hadoop - Wikipedia, the free encyclopedia Apa

    Hadoopリンクまとめ(1) - 科学と非科学の迷宮
  • 勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮

    id:kaigai の主催する勉強会で発表してきました。 Hadoop for programmerView more presentations from shiumachi. 答えられなかった質問 Shuffleフェーズって、ソートをどういう仕組みでやってるの? データ全部をなめてるの? Partitionerというクラスでデータを振り分けてる。タスクごとは独立してるのでデータをまたがってアクセスすることはないと思う。でも細かいことはちょっとわからない。 Map中にデータ追加したらどうなるのか? さすがに扱うデータは最初に決めていると思うが、やったことないのでわからない。 Streamingって具体的にどんな処理してるの? jarファイルは投げてるけど、実行時に使うスクリプトはどうやって投げてるのかわからない。 あとで調べときます。 今の世の中に出てるHadoopって構築とか運用の話

    勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮
  • エコ隊に1年参加したらTOEICの点数が100点近く上がった - 科学と非科学の迷宮

    年 月 Listening Reading Total 2006 08 365 285 650 2007 07 425 335 760 2010 08 445 395 850 (表のフォーマットはphoのものを勝手に借りました。thx!) 今回は特に素の自分の実力を試したかったので、事前勉強もせずに受けてみました。3年前は1ヶ月ぐらい勉強していた*1ので、実力差は数字以上にあると思います。 また、試験テクニックなども一切使わないで挑んでみました。長文はひたすら左から右にシーケンシャルに読んでました。文法問題も「この流れだったらこれじゃない?」ぐらいに適当に選びました。 つまり、この積みあがった点数はほとんどがThe Economist読む隊、通称エコ隊の活動によるものだということです。 毎週数人でカフェに集まってThe Economistの記事を1パラグラフづつ交代で読んで解説するという非

    エコ隊に1年参加したらTOEICの点数が100点近く上がった - 科学と非科学の迷宮
  • はてなブックマークはブックマークではない - 科学と非科学の迷宮

    友人PCを買い換えるということなので、相談に乗っていました。その中で出てきたのが、ブックマークの引越しをどうすればいいかという話。私は、これを機会にはてなブックマークを使ってみてはどうかと提案しました。友人も「せっかくだから使ってみるか」と、始めてみることに。 数日後、一通のメールが友人から届きました。はてなブックマークがやたらと使いにくいという苦情でした。重いし、何より一覧表示できないというのが問題だというのです。そこで私はようやく自分が大きな間違いを犯していることに気づきました。友人と私のイメージする「ブックマーク」が全く異なるものだということに。 そこで今回は、友人がイメージしていたと思われる「ブラウザ上のブックマーク」と、「はてなブックマーク」に代表されるソーシャルブックマークとの違いについて書いてみようと思います。 使い方の流れを比較する(登録) はてなブックマーク、というより

    はてなブックマークはブックマークではない - 科学と非科学の迷宮
  • TDDとかテストファーストを学んで得られたこと - 科学と非科学の迷宮

    テスト駆動開発などの、「まずテストから考える」という概念は単純なコーディング部分以外でも思わぬ効用があったので最近お気に入りです。 設計スキルが上がった 最初からテストありきで考えていると、全体の設計もテストしやすい設計を考えるようになります。テストしやすいということは必然的に結合度の低い設計となるわけです。だから結果として設計がうまくなった気がします。 要件定義のスキルが上がった 今までは要件定義の際にまず「これどうやって実装すればいいかな」と考えていましたが、ここも「これどうやってテストすればいいかな」と考えるようになりました。以前よりも何を明確にしなければいけないかがはっきりと分かるようになった気がします。一見可能なように見える要件でも、テストを行うという観点から考えると到底不可能な要件なども見分けられるようになりました。 まとめ:テストと定義は表裏一体 結局テストとは、ある人が決め

    TDDとかテストファーストを学んで得られたこと - 科学と非科学の迷宮
  • レガシーコード改善ガイド - 科学と非科学の迷宮

    真面目にテスト駆動開発を学びはじめて一ヶ月が経ちました。 今まではネットで調べて得た程度の知識しかありませんでしたが、この一ヶ月の間に二冊のを読むことで、自分のソフトウェア開発に対する考え方が大きく変わりました。 一冊目は「テスト駆動開発入門」です。詳細は以前の記事を見ていただくとしますが、このを読んでようやくTDDというものがどんなものであるか体感することができました。 テスト駆動開発入門 作者: ケントベック,Kent Beck,長瀬嘉秀,テクノロジックアート出版社/メーカー: ピアソンエデュケーション発売日: 2003/09メディア: 単行購入: 45人 クリック: 1,058回この商品を含むブログ (161件) を見る とはいえ、それはあくまで理想の世界であり現実はそんなに上手くいかないもの。だから「TDDとかやった方がいいかもしれないけど、とりあえず今のシステムは動いてるし

    レガシーコード改善ガイド - 科学と非科学の迷宮
  • The Economistでの情報マネジメント特集 - 科学と非科学の迷宮

    今週のThe Economistは情報マネジメント特集です。 世の中にあふれる膨大なデータや情報を扱うためのトピックが、かなりの分量で書かれています。 特に前提知識なくても読めますが、コンピュータに関する基礎知識があればより楽しめます。 ちなみに私の参加しているThe Economist読む隊(通称エコ隊)では、今週木曜日に New rules for big data と Show me を読む予定です。 Data, data everywhere Information has gone from scarce to superabundant. That brings huge new benefits, says Kenneth Cukier (interviewed here)―but also big headaches http://www.economist.com/spe

    The Economistでの情報マネジメント特集 - 科学と非科学の迷宮
  • テスト駆動開発入門 - 科学と非科学の迷宮

    テスト駆動開発入門 作者: ケントベック,Kent Beck,長瀬嘉秀,テクノロジックアート出版社/メーカー: ピアソンエデュケーション発売日: 2003/09メディア: 単行購入: 45人 クリック: 1,058回この商品を含むブログ (161件) を見る TDDって真面目に勉強したことなかったので読んでみました。 Amazon書評では翻訳がひどいということがしきりに叫ばれていますが、別に我慢できないほどじゃないと感じました。慣れれば読めます。K&Rより100倍マシです……。 さて、テスト駆動開発ですが、私がこのを読む前に持っていた知識は以下のような感じです。 テスト・ファースト テスト手法じゃないよ開発手法だよ グリーン→レッド→リファクタリング→グリーン…… で、実際にを読んでみると、上記の理解はあまりに浅すぎることを知りました。 以下、特に参考になった点を挙げていきます。

    テスト駆動開発入門 - 科学と非科学の迷宮
  • チケット管理システム活用メモ - 科学と非科学の迷宮

    trac を使い始めて大体7ヶ月ぐらい。 気をつけなきゃいけない点をメモ。 1.死んでもチケットは切れ とにかくチケットを切ること。 チケット管理システムになれてくると、タスク等の情報をチケットに依存するようになる。 逆に言えば、チケットに書かれていない情報はチーム全員の頭の中から容易に忘れ去られるということだ。 半年前のミーティングで言った言わないというお決まりの口論をしたくなければ、チケットは切っておくこと。 ぐちゃぐちゃなチケットは悪いチケットだが、チケットを切らないのはもっと悪い。 2.チケットは独立した内容にしろ。チケット内の情報が分割できそうだったらすぐに分割しろ 一つのチケットで長々とコメント書いても、後から読み直す人はほぼいないと言っていい。 数画面以上にも及ぶ長い議論の最中に仕様変更の話が書いてあったら最悪だ。 それは地雷となり、数ヶ月先に訪れるであろう、踏まれる瞬間を静

    チケット管理システム活用メモ - 科学と非科学の迷宮