タグ

ブックマーク / www.intellilink.co.jp (4)

  • 第11回「 strace ノススメ」 | NTTデータ先端技術株式会社

    Tweet 今回は、プログラムが期待通りに動作しない場合に、特定のプロセスの挙動を追いかけるための手順について紹介します。 プロセスの挙動を追いかける方法にはいろいろあります。例えば、スクリプト言語で記述されたプログラムの挙動を追いかける場合、デバッグのための print 命令を挿入することもあるでしょう。でも、プログラムの種類によらずに挙動を追いかける場合、原則としてカーネルが提供する機能を使います。例えば strace コマンドを用いてシステムコールの呼び出し履歴を取得したり、 ltrace コマンドを用いてライブラリ関数の呼び出し履歴を取得したりします。また、対象となるプロセスが不明な場合には全プロセスを対象にするために System Call Auditing を使って履歴を取得したり、 SystemTap を使って任意の箇所で履歴を取得したりすることもあります。 今回は stra

    第11回「 strace ノススメ」 | NTTデータ先端技術株式会社
  • ビッグデータ分析の意義と、分析のためのシステム基盤 | NTTデータ先端技術株式会社

    ソリューション事業部 副事業部長 田中 一男 ビッグデータによってビジネスも市場も社会も、そのあり方が一変すると言われております。そのような変革の中、企業にとっては新しい価値を創出するためのデータ分析力こそが競争優位の源泉となります。ビッグデータ分析の意義と、分析力を実現するためのシステム基盤について解説します。 Tweet ビッグデータとマネーボール たった今、われわれ人類はビッグデータという大きなトレンドの渦の中にいます。ビッグデータという情報革命が我々の生き方、働き方、そして、考え方を変革していくと言われています。このようにビッグデータというトレンドは、ITの単なる一分野というような技術的な観点では正しくとらえることができません。むしろ、ビジネスに直結しています。 最近では、「その数字が戦略を決める」や「統計学が最高の学問である」などのデータ分析に関するビジネス書が注目を浴び、「マネ

    ビッグデータ分析の意義と、分析のためのシステム基盤 | NTTデータ先端技術株式会社
    tvsk
    tvsk 2016/05/20
    データウェアハウス中心と、Hadoop 中心の違い
  • 楽しい可視化 : elasticsearchとSpark Streamingの出会い | NTTデータ先端技術株式会社

    0. ログやデータを取得した後は? ログやデータの分析には、様々なアプローチが考えられるが、Apache Solrやelasticsearchといった全文検索エンジン製品にデータを蓄積し、その機能を用いて検索・集計・分析を行う方法がある。その際、データをそのまま蓄積するのではなく、各ツイート・各行に属性を付与(エンリッチメント)することにより、分析の幅は大きく広がる。 全文検索エンジンへのデータの投入では、Flume-ngやfluentdといったデータ収集製品を利用する実例が多い。しかし、リアルタイムにデータに対してエンリッチメントの前処理を行おうとした場合、処理が複雑になるにつれ、単体サーバーで動作するFlume-ngやfluentdでは処理能力が頭打ちになってくる。そこで、登場するのが、リアルタイムに大量のデータを処理することができるストリーミング処理系のビッグデータ関連技術である。

    楽しい可視化 : elasticsearchとSpark Streamingの出会い | NTTデータ先端技術株式会社
    tvsk
    tvsk 2016/05/12
    SparkやHAdoopといった計算基盤に加えてelasticsearch をかぶせることで JSON/REST API経由でデータ操作ができるようになる。「検索サイト等を実現するための全文検索エンジン」
  • Apache Sparkで始めるお手軽リアルタイムウインドウ集計 | NTTデータ先端技術株式会社

    バッチを高速にした後はリアルタイムの世界へ! 現在、さまざまな業種の企業でビッグデータ分析の取り組みが行われている。ビッグデータへの最初の取っ掛かりは、既存のバッチ処理の高速化や、大量の業務データを用いた分析レポートの作成という企業が多いことだろう。そして、バッチ処理の高速化が一段落した次のステップとして、「リアルタイム処理」をテーマに掲げる企業も多いかと思われる。具体的には、 直近10秒間のトラフィックを集計したい。 直近10分間で自社商品がTwitterで話題になった回数を知りたい。 直近10時間での全店舗での来客数を集計したい。 といったリアルタイムなモニタリングを実現したくなるのではないだろうか?こういったモニタリング用の集計は、技術的には「ウインドウ集計(Time-Window Operation)」と呼ばれる。そこでコラムでは、近頃、「ポストHadoop」として話題のApac

    Apache Sparkで始めるお手軽リアルタイムウインドウ集計 | NTTデータ先端技術株式会社
    tvsk
    tvsk 2016/05/12
    ウインドウ集計とは、前述した通り、「直近の一定時間の集計」を実現すること
  • 1