ブックマーク / shiumachi.hatenablog.com (12)

  • Hadoop Conference Japan 2011 参加メモ - 科学と非科学の迷宮

    私の記事は個人的なメモで、間違った部分も多いため関連リンクを併読することをおすすめします。 特に今回は twitter と並行して読み書きしてたので、結構書き漏れてる箇所多いです。 網羅性とか正確性は期待しないように。 概要 イベント名 Hadoop Conference Japan 2011 URL http://hadoop-conference-japan-2011.eventbrite.com/ 日時 2011/02/22 11:15 - 18:00 場所 NTTデータ社ビル内 カンファレンスルーム 関連リンク twitterハッシュタグ #hcj2011 Ust http://www.ustream.tv/channel/hugjp http://www.ustream.tv/channel/sonwupao-live Togetter http://togetter.com/

    Hadoop Conference Japan 2011 参加メモ - 科学と非科学の迷宮
  • CentOS6開発プロジェクトの現状 - 科学と非科学の迷宮

    先週、CentOS 6 はいつ頃出るのかどうか、ふと気になりました。 リリース予定もニュースにならないし、どうしたのだろうと調べていたら、CentOSの開発MLが荒れていることを知りました。 不安を感じた私は調査を続けました。 すると、LWN.net の一つの記事に、CentOS の開発の現状について書かれたものがあることを発見しました。 それを読んでまず知ったのが、CentOS は単純に RHEL のソースをリビルドするだけではなく、かなりの労力を費やして作られるディストリビューションであるということです。 そして、開発コミュニティの運営に苦戦している CentOS 開発チームの姿がそこにはありました。 この記事は是非多くの人に読んでもらいたいと思い、何人かの人にレビューをお願いした上で翻訳してみました。 それでは編をどうぞ。 CentOS 6 の困難、立ち向かう人々 Original

    CentOS6開発プロジェクトの現状 - 科学と非科学の迷宮
    pekepekesamurai
    pekepekesamurai 2011/02/01
    [[あとで読む]]
  • Yahoo!のリアルタイムMapReduce「S4」メモ(1) - 科学と非科学の迷宮

    (2010/11/06) 続き書きました 自分用メモ。 注意:「リアルタイム」について Yahoo! からの最初のリリースで「リアルタイム」MapReduce と書かれていたので仕方なくそう書いているが、人によっては聞いただけでキレるので注意すること。(特にOS屋さん相手のとき) 参考:リアルタイムシステム - Wikipedia ちなみに下記公式サイトには "Realtime" という文字は一切出てこない。 リンクまとめ(紹介用) 公式 S4.IO 日語のニュース リアルタイムなHadoop? 「Real-Time MapReduce」を実現するS4、オープンソースとしてYahoo!が公開 - Publickey Yahoo!からの第一報 Page not found | Yahoo Labs リンクまとめ(技術者用) wiki Tutorials "getting started"

    Yahoo!のリアルタイムMapReduce「S4」メモ(1) - 科学と非科学の迷宮
  • 第1回MapReduce本読書会 - 科学と非科学の迷宮

    日時 2010/09/23 19:00 - 21:00? 場所 都内某所 挑戦者 id:marqs id:shiumachi 標的 Data-Intensive Text Processing with MapReduce 範囲 1-2章(shiumachi),3章途中まで(marqs) Data-Intensive Text Processing with MapReduce(Ch1,Ch2)View more presentations from shiumachi.

    第1回MapReduce本読書会 - 科学と非科学の迷宮
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • 勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮

    id:kaigai の主催する勉強会で発表してきました。 Hadoop for programmerView more presentations from shiumachi. 答えられなかった質問 Shuffleフェーズって、ソートをどういう仕組みでやってるの? データ全部をなめてるの? Partitionerというクラスでデータを振り分けてる。タスクごとは独立してるのでデータをまたがってアクセスすることはないと思う。でも細かいことはちょっとわからない。 Map中にデータ追加したらどうなるのか? さすがに扱うデータは最初に決めていると思うが、やったことないのでわからない。 Streamingって具体的にどんな処理してるの? jarファイルは投げてるけど、実行時に使うスクリプトはどうやって投げてるのかわからない。 あとで調べときます。 今の世の中に出てるHadoopって構築とか運用の話

    勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮
  • Hadoopモデリング座談会#2 - 科学と非科学の迷宮

    概要 イベント名 Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第二回) URL http://atnd.org/events/5987 日時 2010/07/26 18:00 - 20:00 場所 スター研修センター 御茶ノ水 Sun(サン)1F twitterハッシュタグ #hadoopModeling スーツ若干多め 年齢やや高め 女性ほぼ皆無 #1 @shot6 大谷晋平 現状と特徴 Hadoop の現状 上位レイヤの開発がホット 日語も充実 Nosql の現状 加熱し過ぎ Twitter のニュースはいい冷却剤 RDBMS の現状 成熟 Mysql の開発者はMariadb & Drizzle へ プレイヤーも新規参入者も減少 Hadoop の特徴 big data Yahoo 3PB/day Facebook 90TB/day Nos

    Hadoopモデリング座談会#2 - 科学と非科学の迷宮
    pekepekesamurai
    pekepekesamurai 2010/07/28
    [[あとで読む]]
  • Google Code Jam で得た Python の tips(1) - 科学と非科学の迷宮

    2ヶ月前は全く Python を使えなかった私ですが、Google Code Jam の勉強を通して随分色々な技術を学ぶことができました。 ここにまとめておきます。 あまりに長くなりすぎたので3分割しました。 目次 Part1(この記事) ファイル 文字列 正規表現 辞書 タプル Part2 リスト Part3 数学 ビット演算 条件式 ループ 例外処理 その他 おまけ:今回のテンプレート ファイル 標準入力から読み込む 一度に最後まで読み込みたい場合は以下のようにする。 import sys for line in sys.stdin: 1行の場合は raw_input() が簡単。 こちらは末尾に改行が入らない。 A = raw_input() 標準出力、標準エラー出力に書き出す print は改行が入る。 print "some text" カンマをつければ改行は入らないが空白が入る

    Google Code Jam で得た Python の tips(1) - 科学と非科学の迷宮
  • TestLinkメモ(2) - 科学と非科学の迷宮

    あきぴーさんより「公開してよ」と言われたので公開してみます。 自分専用に作っただけなので使いにくいとは思いますが。 garyoさんのスクリプトにパッチを当ててください。 diff --git a/allpairs2testcase.rb b/allpairs2testcase.rb index 6150db5..de40c2b 100644 --- a/allpairs2testcase.rb +++ b/allpairs2testcase.rb @@ -11,25 +11,23 @@ require 'kconv' require 'csv2testcace' class ApTestcase - attr_accessor :items,:testcase + attr_accessor :items,:testcase,:expectedResult @items @testcase

    TestLinkメモ(2) - 科学と非科学の迷宮
  • チケット管理システム活用メモ(2) - 科学と非科学の迷宮

    前回の話の続編ではなく、tracに特化した話。 カスタマイズに関する自分用メモ。 新しいワークフロー:waiting 「リリース待ち」。 システムがリリースされている状態でチケットをざくざくクローズしていたときに、クローズしたはずのチケットと同様の不具合報告がされました。調べてみると、クローズしたチケットの修正を適用していなかったという単純な問題でした。その経験から生み出されたワークフロー。 リリースノートを書くときや、次のリリーススケジュール決めるときに非常に便利です。 trac.iniを直接いじらなきゃいけないのが面倒ですが。 Google のデータセンター運用から学んだ、新しい不具合の重要度分類 The Datacenter As a Computerに、Google のデータセンター運用における不具合の重要度分類が書かれていました。(p.80) Corrupted データが破壊され

    チケット管理システム活用メモ(2) - 科学と非科学の迷宮
  • TDDとかテストファーストを学んで得られたこと - 科学と非科学の迷宮

    テスト駆動開発などの、「まずテストから考える」という概念は単純なコーディング部分以外でも思わぬ効用があったので最近お気に入りです。 設計スキルが上がった 最初からテストありきで考えていると、全体の設計もテストしやすい設計を考えるようになります。テストしやすいということは必然的に結合度の低い設計となるわけです。だから結果として設計がうまくなった気がします。 要件定義のスキルが上がった 今までは要件定義の際にまず「これどうやって実装すればいいかな」と考えていましたが、ここも「これどうやってテストすればいいかな」と考えるようになりました。以前よりも何を明確にしなければいけないかがはっきりと分かるようになった気がします。一見可能なように見える要件でも、テストを行うという観点から考えると到底不可能な要件なども見分けられるようになりました。 まとめ:テストと定義は表裏一体 結局テストとは、ある人が決め

    TDDとかテストファーストを学んで得られたこと - 科学と非科学の迷宮
  • Hadoopリンクまとめ(1) - 科学と非科学の迷宮

    Part1 / Part2 更新履歴 2010/06/20 リンク追加 入門、事例紹介、ニュース Part2へ移動 EC2、Pig、MapReduce、HDFS 新規追加 性能測定 公式 Welcome to Apache Hadoop! 日語訳 Hadoopユーザー会 Welcome to Hadoop MapReduce! "大規模な計算ノード・クラスタ上において膨大なデータを高速で並列処理するアプリケーションを作成するためのプログラミングモデルおよびソフトウェアフレームワーク" Welcome to Pig! "大規模なデータセットを分析するためのプラットフォーム""Pig の言語レイヤを構成しているのは、Pig Latin と呼ばれるテキストベースの言語" wikipedia Apache Hadoop - Wikipedia, the free encyclopedia Apa

    Hadoopリンクまとめ(1) - 科学と非科学の迷宮
  • 1