タグ

ブックマーク / wyukawa.hatenablog.com (10)

  • HDP2.1からHDP2.4にupgradeした話 - wyukawa's diary

    2種類のログ解析基盤 - wyukawa’s blogで書いた1つ目のエンジニアよりの解析基盤をHDP2.1からHDP2.4にupgradeしました。upgradeがちゃんと終わったのは昨日なのでまだ何かあるかもしれませんが、メモがてら書いておきます。 upgradeのやり方はblue green deploymentです。 fluentdでログ収集しているので新旧両方のHadoopクラスタに書き込んで、過去データはdistcpで移行します。 distcpの使い方は最近のHadoop distcpについて - たごもりすメモ参照 最初はHDP2.3.4でupgrade作業を進めていたのですが、HDP2.4に途中で上書きupgradeしました。 HDP2.3からはhiveのdefault engineがtezなのでtezを使っていましたが、いくつか問題に遭遇しました。 最初に遭遇して報告した

    HDP2.1からHDP2.4にupgradeした話 - wyukawa's diary
    showyou
    showyou 2016/06/03
  • プランナーよりのログ解析基盤のその後 - wyukawa's diary

    以前2種類のログ解析基盤 - wyukawa’s blogで書いたログ解析基盤のうち2つ目のプランナーよりのシステムが現在どうなっているかを書いてみたいと思います。 ちなみに1つ目のエンジニアよりのシステムの方も更新はあって、Fluentd+Norikra+Elasticsearch+Kibanaによるリアルタイムモニタリングを始めたり、メルカリでのNorikraの活用、 Mackerelを添えてを真似て、Norikraにクエリを登録したらGrowthForecastに自動でグラフが出来るようにしたり、Norikraでアプリログを集計してリアルタイムエラー通知 # Norikra meetupと少し似ている、Norikraにクエリを登録してログに特定のキーワードがあったらHipChatに通知するようにしたり、といったことをしています。 2つ目のプランナーよりのシステムの全体像はこんな感じで

    プランナーよりのログ解析基盤のその後 - wyukawa's diary
    showyou
    showyou 2015/07/25
    Great
  • HDPとAmbariを試している - wyukawa's diary

    今度新規にHadoopクラスタを構築する予定なのですが、HortonworksのHDPおよびAmbariをちょっと試しています。 僕は今までApacheのコミュニティ版Hadoop 1系を1年ほど運用していたので、今どきのHadoop事情にうとかったんですがいろいろ変わってるんですね。 NameNode HAとか名前だけは知っていたのですが、実態がどんなもんだかよくわかってなかったし。 今の時点でHadoopのディストリビューションを選択するとしたら、Apacheのコミュニティ版, CDH, HDPのいづれか3択で、どれを選ぶにしてもYARNに突入せざるをえないでしょう。 例えばHiveしか使わないにしても。 で、まあ、とりあえずHDPは新しいし触ったことある人も少なそうなのでちょっと試しています。 yumでひとつづつインストールしていってもいいのですが、AmbariというCloudera

    HDPとAmbariを試している - wyukawa's diary
  • Ambari経由でNagiosを使う場合の注意点 - wyukawa's diary

    Ambari経由でHDPをインストールしてその際にNagiosも入れた場合は注意点があります。 ここで入れたNagiosはNameNodeやResourceManagerやJobHistoryのようなマスター系のコンポーネントのCPUのチェックにSNMPを使います。 そのため/etc/snmp/snmpd.confをいじっていて下記のようになっていると思います。SNMPのコミュニティ名としてhadoopを使っています。 #/* # * Licensed to the Apache Software Foundation (ASF) under one # * or more contributor license agreements. See the NOTICE file # * distributed with this work for additional information

    Ambari経由でNagiosを使う場合の注意点 - wyukawa's diary
  • スタースキーマと列指向データベース - wyukawa's diary

    Webエンジニアのための データベース技術[実践]入門 (Software Design plus) 作者: 松信嘉範出版社/メーカー: 技術評論社発売日: 2012/03/09メディア: 単行(ソフトカバー)購入: 20人 クリック: 486回この商品を含むブログを見る 僕はWebエンジニアではないけれども上記のを読み、とりわけ11-3 分析系処理と列指向データベースを興味深く読みました。 そこで分析用途のデータを作る場合にどうやるのがいいのか調べてみたのでメモっておきます。 「おむつを買った人はビールを買う傾向がある」みたいな分析を行うためには時系列に大量の業務データを蓄積してDWHを作ります。 その際にスタースキーマと呼ばれる形式でテーブル設計をします。 中心のファクトテーブルは分析のキー(例:商品ID、顧客ID)と分析対象の数値データ(例:販売数量、販売金額)を持ちます。 この

    スタースキーマと列指向データベース - wyukawa's diary
    showyou
    showyou 2013/01/29
  • Hiveのソースを見てみた。 - wyukawa's diary

    対象はCloudera版の0.7 どこがエントリポイントかっていう話がまずあるわけだが、hiveコマンドをたたくとこうなりますよね。 $ hive Hive history file=/tmp/wyukawa/hive_job_log_wyukawa_201107032314_538554893.txt >hiveコマンドの実態である$HIVE_HOME/bin/hiveをみると、hiveコマンドをたたくとcliって最後に実行してますね。 cliっていうのはシェルの関数で実態は$HIVE_HOME/bin/ext/cli.shに書かれてます。 で、最終的にはorg.apache.hadoop.hive.cli.CliDriverを実行します。ここにmainメソッドがあります。 >!pwd;みたいな!ではじまるものが指定された場合はそのコマンドがそのまま実行されます。 HiveQLが指定され

    Hiveのソースを見てみた。 - wyukawa's diary
    showyou
    showyou 2012/11/14
  • HiveのSequenceFileとかパーティションとか - wyukawa's diary

    Hiveに関するまとまった情報源として書籍なら徹底入門があります。 とはいえそんなに突っ込んだことは書かれていないので、家のWikiを参照することになると思います。 https://cwiki.apache.org/confluence/display/Hive/Home 最近Confluenceに変わりましたね。 ここではSequenceFileとかパーティションとかその辺について書いてみたいと思います。 が、まずはテキストファイル形式から。なお動作環境はMac上のVirtualBox上のCentOS5.6です。yumでCDH3を疑似分散でいれてます。 下記は家のサンプルにもあるテーブルです。dtとcountryがパーティション用のカラムです。 CREATE TABLE page_view ( viewTime INT, userid BIGINT, page_url STRING,

    HiveのSequenceFileとかパーティションとか - wyukawa's diary
  • Hadoopのトラブルシューティングに関する資料があったのでめもっとく - wyukawa's diary

    Hadoop World 2011でClouderaの人が発表した資料を見つけたのではっておく。 Hadoop Troubleshooting 101 - Kate Ting - Cloudera View more presentations from Cloudera, Inc. Clouderaのサポートチームの極意が詰め込まれているようだ。 内容的にはHadoop徹底入門の10章の「性能向上のためのチューニング」と若干かぶっているが参考になります。 io.sort.mb < mapred.child.java.opts とすることとか(ていうかmapred.child.java.optsを増やすことはあるかもしれないがio.sort.mbっていじるもんなのかな)、プロセス数やファイルディスクリプタいじれとか、map出力のスレッドいじれとか、Jetty 6.1.26は使うなとか、盛り

    Hadoopのトラブルシューティングに関する資料があったのでめもっとく - wyukawa's diary
  • OSSチャリティセミナーで発表してきました - wyukawa's diary

    今日開催された東日大震災支援緊急企画 OSSチャリティーセミナー - がんばろうニッポンでMercurialについて5分ほどしゃべってきました。スタッフ、参加者の皆様ありがとうございました。 資料をアップしておきます。 Osc mercurial-public View more presentations from Wataru Yukawa http://kanon.ultimania.org/?p=231では某アニメねたですべったと書かれていますが、私は資料にある通り真面目に発表しましたのですべってません。キリ! 他の発表では一番関心のあったHadoopのやつがわかりやすかったですね。内容は処理の流れ、WordCountのサンプルなどHadoop解析の王道という感じでした。 懇親会でも@ymstsn1さんにHadoopについていろいろと教えてもらいました。ありがとうございます。m(

    OSSチャリティセミナーで発表してきました - wyukawa's diary
  • Shibuya.trac 第7回勉強会で発表しました - wyukawa's diary

    発表スライドはこちら Hudson tanabata.tracView more presentations from Wataru Yukawa. 私の勤めている会社のようにslideshareとかはてなフォトライフとか見れないんじゃい!っていう方のためにPDFも下記に置きました。ちょっと重いですがw http://dl.dropbox.com/u/8494587/Hudson-Tanabata.pdf まず会場を貸していただいた @tomohn さん、会場面でおもに調整していただいた @kanu_ さん、スイーツとか諸々手配していただいたちょびさん、企画していただいた @LightningX さん、司会していただいた@ikikkoさん、Ustしていただいた@nekotankさん、はじめ全てのスタッフ、発表者、また見に来ていただいた皆様に感謝します。ありがとうございました。m( )m S

    Shibuya.trac 第7回勉強会で発表しました - wyukawa's diary
  • 1