タグ

hadoopに関するkatsyoshiのブックマーク (11)

  • Jubatus: real-time and highly-scalable machine learning platform – Hadoop Summit 2013 North America: Community Choice Now Open!

    Jubatus: real-time and highly-scalable machine learning platform Real-time analytics relates to many critical applications with Big data. Machine learning is a set of computational algorithms for understanding data and predicting the future for accurate decision making. Thus both will be the key factors in Big Data analytics. Though Hadoop-based frameworks such as Mahout are available, there was n

    katsyoshi
    katsyoshi 2013/04/14
    オオオッ
  • Impala Q&A - still deeper

    2012/11/7に開催されたCloudera World Tokyoに参加してきました。 編については他の人がまとめてくれるはずですので省略。 懇親会では米国Cloudera社のCTO、Dr. Amr Awadallah氏に直接Impalaの疑問に答えていただきました。非常に貴重な話を聞けたのでまとめておきます。(公開許可済み) その場でメモを取っていたわけではなく思い出しながらのまとめなので、一緒に聞いていた方、clouderaの方は補足をお願いします。 Q&A Q. なぜJavaでなくてC++で実装したか? A. ImpalaのメインデザイナーがGoogleC++を使って分散処理(Dremelのこと?)を実装した人物であるのと、JVMの起動コストがレイテンシーの増加につながるため 補足: この人でしょうか Q. 1ノードに偏ったデータを読む必要があるクエリがくると低レイテンシーを

  • Cloudera Impala がリリースされました - 科学と非科学の迷宮

    (2012/10/25 15:48 追記) Cloudera 公式ブログで Impala についての紹介記事を掲載しました。このブログ記事の完全上位互換なのでそちらの記事をご参照ください。 Cloudera Impala:Apache Hadoopで実現する、真のリアルタイムクエリ | Hadoopとビッグデータソリューションのリーディングカンパニー | Cloudera Japan Cloudera から、データサイエンティストのためのリアルタイムクエリエンジン「Impala」がリリースされました。Hive と完全互換のクエリ言語で、Hive より10倍以上速くクエリを処理できます。 概要及びダウンロードはこちらから! http://www.cloudera.com/content/cloudera/en/products/cloudera-enterprise-core/clouder

    Cloudera Impala がリリースされました - 科学と非科学の迷宮
    katsyoshi
    katsyoshi 2012/10/25
    fmfm Impalaか
  • 20分でわかるHBase

    PyFes 2012.07 で発表したときのスライドです。 HBaseのアーキテクチャ周りを中心に話しました

    20分でわかるHBase
    katsyoshi
    katsyoshi 2012/07/29
    これでわかるHBase!
  • 試すのが難しい―機械学習の常識はMahoutで変わる

    ビッグデータ時代―なぜ、いま機械学習なのか Apache Hadoop(以下、Hadoop)の登場で、今まで捨てていたデータ、貯めるだけで処理しきれなかったデータを活用できるようになりました。 活用手段として最近とみに注目されている技術が「機械学習」であり、Hadoopの強みを生かし簡単に機械学習を行うためのライブラリが、「Apache Mahout」(以下、Mahout)です。 稿ではMahoutを動かしてみることで、機械学習の常識を身に付けます。 そもそも、機械学習とは? 機械学習とは、一定のデータをコンピュータ・プログラムに「学習」させ(すなわち、そのデータに潜むパターンや規則性を表す「モデル」を自動的に構築させ)、他のデータにそのモデルを適用すれば、あたかも人間のように複雑で柔軟な判断が行えるようにするという試みです。 機械学習をビジネスに活用した例は、レコメンド(ユーザーや商品

    試すのが難しい―機械学習の常識はMahoutで変わる
    katsyoshi
    katsyoshi 2012/03/08
    機械学習かーJavaかー
  • Jinrikisha - Asakusa Framework Starter Package - — Jinrikisha 0.10.4 documentation

    使い方¶ ダウンロードしたインストールアーカイブを任意のディレクトリで展開します。 展開したファイルに含まれる setup.sh を実行するとインストールが開始されます。 Jinrikishaのインストールディレクトリなどいくつかのインストールパラメータの入力が促されるので、インストーラの指示に従ってインストールを実行してください。 インストール手順の詳細やインストール時の注意事項は、 Jinrikisha インストール手順 を参照して下さい。 インストールした開発環境を利用する¶ Jinrikishaのインストールが完了したら、サンプルコードを確認したり、実際にアプリケーションを開発してみましょう。 インストールディレクトリ配下の README には、インストールした後にAsakusa Frameworkの開発環境で使用するコマンドやEclipseの使い方などを簡単にまとめた Getti

    katsyoshi
    katsyoshi 2012/02/06
    浅草に人力車か
  • NTT情報ネットワーク総合研究所|NTT R&D Website

    NTT情報ネットワーク総合研究所は、あらゆるモノを「つなぐ」情報ネットワークを構成する基盤技術とともに、地球上のみならず宇宙も含めて持続可能で豊かな社会を創るための、革新的な通信技術や環境エネルギー技術の研究開発を推進しています。 総合研究所について NTT情報ネットワーク総合研究所は、あらゆるモノに「寄り添い」「しなやか」な情報ネットワークの実現に貢献します。 そのために“品質・信頼性の向上”、“柔軟性・サービス性の向上”、および“持続可能性の向上”の観点から、将来の社会基盤を支えるオペレーティングカンパニーとしての運用を考慮したテーマの研究開発を進めています。

    NTT情報ネットワーク総合研究所|NTT R&D Website
    katsyoshi
    katsyoshi 2012/01/29
    なんぞこれーwww
  • MapR(GreenPlumHD)の中身説明会参加

    MapR(GreenPlumHD)の中身説明会に参加しました。「HadoopのC++実装らしい。」程度の予備知識しかない状態で参加したので、知らないことが多くて面白かったです。 思ったことなど MapRはEMCと提携していたのか。知らなかった。 MapR-FSは普通のファイルシステムは経由せずに、ブロックデバイスをそのまま使っている。 へー。 ビルトイン圧縮は拡張子で判断して圧縮の有効/無効を切り替えているのが面白い。jarやpptxをはじめ、最近はほとんど実態はzipな気がするので、ちゃんとフォーマットを見ないとダメでしょう。全然詳しくないけど、普通最初の4バイトくらいで判別できるんじゃないの? 実機デモのサクサク感がすごかった!WebUI※1とNFSマウントしたときの操作※2。 「すげー速いよ。品質いいよ。」とは言っているけど、デモがサクサクなの以外は言っているだけだった。NTTデータ

    MapR(GreenPlumHD)の中身説明会参加
    katsyoshi
    katsyoshi 2012/01/20
    φ(゚Д゚ )フムフム…
  • fluentd のベンチマークとってみたよ! - たごもりすメモ

    入出力プラグインをrubyで書けるのがじつにいい感じの fluentd がいい感じに見える。 fluent/fluentd · GitHub ので使えるかどうか、使えるとしたらどれくらいのノードを用意すればいいのかについて考えるため、とりあえずベンチマークをとってみた。 結論 以下非常に長くなるので結論だけ書くと、大変使える感じ。現状だとほとんど何も考えずにデータ中継させても秒間1万メッセージ、100Mbpsくらいまでは処理できる。効率よくなるよう流す側も考えてやれば 300Mbps を超えるデータの転送に成功した。だいぶいい感じ。 なおこれは in_scribe および out_scribe を使用した場合で、開発者 @frsyuki によるとMessagePackでのデータ転送の場合はこの倍くらい出るらしい。 もちろんこれは右から左に流しただけなので現実にタグによるルーティングだとかロ

    fluentd のベンチマークとってみたよ! - たごもりすメモ
  • スケーラビリティ自体に魅せられちゃいけない

    自戒を込めた日記. IT システムというのは何らかの問題を解決するために存在している.しかし,技術的な面白さから,システム自体にとりつかれていしまう人々が存在する.多くの場合,それは "hacker" と呼ばれている人々に多いように思う.それ自体はすばらしいことだ…仕事にさえしなければ. 仕事の場合,ユーザはITシステムを問題を解決するために導入している.中身がどうなっているかは知ったこっちゃない.言い換えると,ユーザがシステムにお金を払ってくれるのは「実際にある問題を解決しているから」である.「決して技術的に楽しそうだから」ではない. さて,ここ1-2年で NoSQL という技術が流行している.RDBMSの提供しているセマンティクスのうち一部を弱めて,RDBMS では得ることが難しかった利点を得られる技術と心得ている.例えば,Cassandra は一貫性を犠牲として可用性を高め,さらに数

    katsyoshi
    katsyoshi 2011/11/06
    ふむふむ
  • #xdev Hadoopによる基幹バッチの導入 Enterprise Hadoop の実際のSI

    XDev2011 B-5 ノーチラス・テクノロジーズの神林さんによる『Hadoopによる基幹バッチの導入 Enterprise Hadoop の実際のSI』 (http://ac.nikkeibp.co.jp/cn/xdev11・http://itpro.nikkeibp.co.jp/article/MAG/20110824/366921/?ST=xdev)のツイートのまとめです。

    #xdev Hadoopによる基幹バッチの導入 Enterprise Hadoop の実際のSI
  • 1