タグ

2011年1月3日のブックマーク (5件)

  • Hadoopリンクまとめ(1) - 科学と非科学の迷宮

    Part1 / Part2 更新履歴 2010/06/20 リンク追加 入門、事例紹介、ニュース Part2へ移動 EC2、Pig、MapReduce、HDFS 新規追加 性能測定 公式 Welcome to Apache Hadoop! 日語訳 Hadoopユーザー会 Welcome to Hadoop MapReduce! "大規模な計算ノード・クラスタ上において膨大なデータを高速で並列処理するアプリケーションを作成するためのプログラミングモデルおよびソフトウェアフレームワーク" Welcome to Pig! "大規模なデータセットを分析するためのプラットフォーム""Pig の言語レイヤを構成しているのは、Pig Latin と呼ばれるテキストベースの言語" wikipedia Apache Hadoop - Wikipedia, the free encyclopedia Apa

    Hadoopリンクまとめ(1) - 科学と非科学の迷宮
  • Google Code Jam2010事前準備メモ - 科学と非科学の迷宮

    (2010/05/10 追記 2010年分を反映) この記事を読む前に、こちらに目を通しておくこと。去年の内容だが基的に変わらない。 Google Code Jamって何? Google が主催してるプログラミングコンテスト。 多分採用活動の一環でもある(後述)。 予選、1〜3回戦、決勝まである。 決勝以外はオンラインで実施。決勝は年によって場所が異なる(今年はダブリン) 今年は5/7から予選開始。 公式 特徴 全言語使用可能 多分この手のプログラミングコンテストでは珍しい。(あまり詳しくないから知らないけど) そもそも自動判定に使うデータは出力ファイルのみなので、標準入出力と文字列処理程度できれば多分自作言語とかでもいけるんじゃなかろうか。 ソースコードの提出は必要。場合によっては後で文句つけられることもある。ていうか実際去年日人で誰かそんな人いたような(問題なかったみたいだったけど

    Google Code Jam2010事前準備メモ - 科学と非科学の迷宮
  • 勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮

    id:kaigai の主催する勉強会で発表してきました。 Hadoop for programmerView more presentations from shiumachi. 答えられなかった質問 Shuffleフェーズって、ソートをどういう仕組みでやってるの? データ全部をなめてるの? Partitionerというクラスでデータを振り分けてる。タスクごとは独立してるのでデータをまたがってアクセスすることはないと思う。でも細かいことはちょっとわからない。 Map中にデータ追加したらどうなるのか? さすがに扱うデータは最初に決めていると思うが、やったことないのでわからない。 Streamingって具体的にどんな処理してるの? jarファイルは投げてるけど、実行時に使うスクリプトはどうやって投げてるのかわからない。 あとで調べときます。 今の世の中に出てるHadoopって構築とか運用の話

    勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮
  • Google の面接を受けてみた - 科学と非科学の迷宮

    Google の面接について書かれたブログ記事が面白かったので翻訳してみました。 原著者の許可取得済み。(Thank you, Petris!) 文 二週間ちょっと前、ぼくはカリフォルニアのマウンテンビューで Google の面接を受けてきたんだ! Google の面接が面白い体験だったから、ぼくはそのことを話したいんだ。(Google からはこの記事を出すゴーサインをもらった) ぼくが面接を受けた職種は Google SRE だった。SRE というのはサイト信頼性エンジニアリング(Site Reliability Engineering)という意味だ。サイト信頼性エンジニア(SRE)はソフトウェアエンジニアでもあり、システム管理者でもあって、Google の製品サービスを端から端まで責任を持つんだ。 合計8回の面接があった。最初の3つは電話越しで(電話面接)、残りの5つは現地での面接だ

    Google の面接を受けてみた - 科学と非科学の迷宮
  • 2010年まとめ:データと向き合った一年 - 科学と非科学の迷宮

    はじめに:2010年弾丸ツアー 今年一年を一言でまとめると、「データと向き合った」一年でした。 2009年の終わり、私は The Datacenter as a Computer の読書会を通して、分散システムによる大量なデータの処理がこれからの時代にもっと重要になるということを学びました。 The Datacenter as a Computer 読書会 その流れを受け、1月には id:marqs や id:daisukebe とともに「集合知プログラミング」の読書会を開き、データマイニングの基礎を勉強しました。 大量のデータを扱う前に、小さなデータを扱う術を身につける必要があると思ったからです。 Programming Collective Intelligence 100111View more presentations from Sho Shimauchi. 第1回集合知プログラ

    2010年まとめ:データと向き合った一年 - 科学と非科学の迷宮