タグ

ブックマーク / shiumachi.hatenablog.com (6)

  • Clouderaで作るデータ分析環境 - 科学と非科学の迷宮

    wyukawaさんがデータ分析環境について書いていましたが、全部 CDH を使えば実現可能なので便乗して書いておこうと思います。 1. ETL 処理 CDH なら以下のツールがあります。 Sqoop RDBMS / DWH などに対するインポート・エクスポートツール。最近日語のも出版されたので皆さん買ってください。 Hue を使えば Web ブラウザ上から設定できます。デモビデオはこちら。 Pig Hive の影に隠れがちなクエリ言語ですが、特に ETL として使う場合は書きやすいです。中身は MapReduce。Java はもちろん、PythonJavascriptRuby、そしてGroovyでUDFが書けるのが特徴。HCatalog というツールのおかげで Hive 同様スキーマを扱えるようになりました。 Hue を使えば Web ブラウザ上から実行できます。デモビデオはこちら

    Clouderaで作るデータ分析環境 - 科学と非科学の迷宮
  • 技術系メーリングリスト上で使える英語の習得法 - 科学と非科学の迷宮

    前回バグレポートの提出方法というテーマで記事を書きましたが、今回は英語にフォーカスして少し書いてみることにします。 英語の学習法は数多くありますが、もし英語を学ぶ目的が「IT技術系メーリングリストに投稿し、議論する」ことが目的でしたら少しだけ楽な方法があります。 それは、技術系メーリングリストを片っ端から登録し、辞書を引くたびに検索をかけ、自分独自の例文集を作成することです。 ある特定のクラスタ内で他人とのコミュニケーションをとるとき、そのクラスタ固有の用法が生まれることがあります。例えば日語においても、IT技術系クラスタで使う英語と他のクラスタ、例えば家族、大学の友人などの集団に属しているときに使う言葉は異なります。「割り当てる」という単語は、IT 系のクラスタでは頻繁に見かけますが、この単語を家族間で使うことはあまりないでしょう。方言なども、あるクラスタでは多用するが他のクラス

    技術系メーリングリスト上で使える英語の習得法 - 科学と非科学の迷宮
  • Hadoopリンクまとめ(1) - 科学と非科学の迷宮

    Part1 / Part2 更新履歴 2010/06/20 リンク追加 入門、事例紹介、ニュース Part2へ移動 EC2、Pig、MapReduce、HDFS 新規追加 性能測定 公式 Welcome to Apache Hadoop! 日語訳 Hadoopユーザー会 Welcome to Hadoop MapReduce! "大規模な計算ノード・クラスタ上において膨大なデータを高速で並列処理するアプリケーションを作成するためのプログラミングモデルおよびソフトウェアフレームワーク" Welcome to Pig! "大規模なデータセットを分析するためのプラットフォーム""Pig の言語レイヤを構成しているのは、Pig Latin と呼ばれるテキストベースの言語" wikipedia Apache Hadoop - Wikipedia, the free encyclopedia Apa

    Hadoopリンクまとめ(1) - 科学と非科学の迷宮
    sbg3
    sbg3 2012/04/04
  • 英語によるhadoop系メーリングリストへのバグレポート提出ガイド - 科学と非科学の迷宮

    hadoop アドベントカレンダー 2011、1日目及びその他空いているところ全部を担当する @shiumachi です。 27日は誰もいないようなのでこれを27日とします。 id:showyou さんの担当でした。28日目とします。showyou さんすいません 基 テンプレ的に書くとこんな感じ。 「来は……であるべきだが、実際にはこうなっている」 前半は should を使い、but/in fact/however/while などを使って逆接でつないで次の文を書く。 以下の項目があるとレスポンスしやすい。 項目名 内容 概要 数行程度で何が起きたか書く 症状 特に、ログに例外が吐かれてたら必ず貼り付けること 直前にどんな作業をしていたか 何か特殊な作業を行っていたら、その手順を書く 再現性の有無 そのまんま 再現方法(わかっていれば) そのまんま 可能なら、該当 conf ファイ

    英語によるhadoop系メーリングリストへのバグレポート提出ガイド - 科学と非科学の迷宮
  • CentOS6開発プロジェクトの現状 - 科学と非科学の迷宮

    先週、CentOS 6 はいつ頃出るのかどうか、ふと気になりました。 リリース予定もニュースにならないし、どうしたのだろうと調べていたら、CentOSの開発MLが荒れていることを知りました。 不安を感じた私は調査を続けました。 すると、LWN.net の一つの記事に、CentOS の開発の現状について書かれたものがあることを発見しました。 それを読んでまず知ったのが、CentOS は単純に RHEL のソースをリビルドするだけではなく、かなりの労力を費やして作られるディストリビューションであるということです。 そして、開発コミュニティの運営に苦戦している CentOS 開発チームの姿がそこにはありました。 この記事は是非多くの人に読んでもらいたいと思い、何人かの人にレビューをお願いした上で翻訳してみました。 それでは編をどうぞ。 CentOS 6 の困難、立ち向かう人々 Original

    CentOS6開発プロジェクトの現状 - 科学と非科学の迷宮
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • 1