showyouのブックマーク - はてなブックマーク

HDP2.1からHDP2.4にupgradeした話 - wyukawa's diary

2種類のログ解析基盤 - wyukawa’s blogで書いた1つ目のエンジニアよりの解析基盤をHDP2.1からHDP2.4にupgradeしました。upgradeがちゃんと終わったのは昨日なのでまだ何かあるかもしれませんが、メモがてら書いておきます。 upgradeのやり方はblue green deploymentです。 fluentdでログ収集しているので新旧両方のHadoopクラスタに書き込んで、過去データはdistcpで移行します。 distcpの使い方は最近のHadoop distcpについて - たごもりすメモ参照最初はHDP2.3.4でupgrade作業を進めていたのですが、HDP2.4に途中で上書きupgradeしました。 HDP2.3からはhiveのdefault engineがtezなのでtezを使っていましたが、いくつか問題に遭遇しました。最初に遭遇して報告した

showyou 2016/06/03

リンク

プランナーよりのログ解析基盤のその後 - wyukawa's diary

以前2種類のログ解析基盤 - wyukawa’s blogで書いたログ解析基盤のうち2つ目のプランナーよりのシステムが現在どうなっているかを書いてみたいと思います。ちなみに1つ目のエンジニアよりのシステムの方も更新はあって、Fluentd+Norikra+Elasticsearch+Kibanaによるリアルタイムモニタリングを始めたり、メルカリでのNorikraの活用、 Mackerelを添えてを真似て、Norikraにクエリを登録したらGrowthForecastに自動でグラフが出来るようにしたり、Norikraでアプリログを集計してリアルタイムエラー通知 # Norikra meetupと少し似ている、Norikraにクエリを登録してログに特定のキーワードがあったらHipChatに通知するようにしたり、といったことをしています。 2つ目のプランナーよりのシステムの全体像はこんな感じで

showyou 2015/07/25

Great

リンク

HDPとAmbariを試している - wyukawa's diary

今度新規にHadoopクラスタを構築する予定なのですが、HortonworksのHDPおよびAmbariをちょっと試しています。僕は今までApacheのコミュニティ版Hadoop 1系を1年ほど運用していたので、今どきのHadoop事情にうとかったんですがいろいろ変わってるんですね。 NameNode HAとか名前だけは知っていたのですが、実態がどんなもんだかよくわかってなかったし。今の時点でHadoopのディストリビューションを選択するとしたら、Apacheのコミュニティ版, CDH, HDPのいづれか３択で、どれを選ぶにしてもYARNに突入せざるをえないでしょう。例えばHiveしか使わないにしても。で、まあ、とりあえずHDPは新しいし触ったことある人も少なそうなのでちょっと試しています。 yumでひとつづつインストールしていってもいいのですが、AmbariというCloudera

showyou 2014/12/21

hadoop

リンク

Ambari経由でNagiosを使う場合の注意点 - wyukawa's diary

Ambari経由でHDPをインストールしてその際にNagiosも入れた場合は注意点があります。ここで入れたNagiosはNameNodeやResourceManagerやJobHistoryのようなマスター系のコンポーネントのCPUのチェックにSNMPを使います。そのため/etc/snmp/snmpd.confをいじっていて下記のようになっていると思います。SNMPのコミュニティ名としてhadoopを使っています。 #/* # * Licensed to the Apache Software Foundation (ASF) under one # * or more contributor license agreements. See the NOTICE file # * distributed with this work for additional information

showyou 2014/07/05

hadoop

リンク

スタースキーマと列指向データベース - wyukawa's diary

Webエンジニアのためのデータベース技術[実践]入門 (Software Design plus) 作者: 松信嘉範出版社/メーカー: 技術評論社発売日: 2012/03/09メディア: 単行本（ソフトカバー）購入: 20人クリック: 486回この商品を含むブログを見る僕はWebエンジニアではないけれども上記の本を読み、とりわけ11-3　分析系処理と列指向データベースを興味深く読みました。そこで分析用途のデータを作る場合にどうやるのがいいのか調べてみたのでメモっておきます。「おむつを買った人はビールを買う傾向がある」みたいな分析を行うためには時系列に大量の業務データを蓄積してDWHを作ります。その際にスタースキーマと呼ばれる形式でテーブル設計をします。中心のファクトテーブルは分析のキー（例：商品ID、顧客ID）と分析対象の数値データ（例：販売数量、販売金額）を持ちます。この

showyou 2013/01/29

hive

リンク

Hiveのソースを見てみた。 - wyukawa's diary

対象はCloudera版の0.7 どこがエントリポイントかっていう話がまずあるわけだが、hiveコマンドをたたくとこうなりますよね。 $ hive Hive history file=/tmp/wyukawa/hive_job_log_wyukawa_201107032314_538554893.txt >hiveコマンドの実態である$HIVE_HOME/bin/hiveをみると、hiveコマンドをたたくとcliって最後に実行してますね。 cliっていうのはシェルの関数で実態は$HIVE_HOME/bin/ext/cli.shに書かれてます。で、最終的にはorg.apache.hadoop.hive.cli.CliDriverを実行します。ここにmainメソッドがあります。 >!pwd;みたいな!ではじまるものが指定された場合はそのコマンドがそのまま実行されます。 HiveQLが指定され

showyou 2012/11/14

リンク

HiveのSequenceFileとかパーティションとか - wyukawa's diary

Hiveに関するまとまった情報源として書籍なら徹底入門があります。とはいえそんなに突っ込んだことは書かれていないので、本家のWikiを参照することになると思います。 https://cwiki.apache.org/confluence/display/Hive/Home 最近Confluenceに変わりましたね。ここではSequenceFileとかパーティションとかその辺について書いてみたいと思います。が、まずはテキストファイル形式から。なお動作環境はMac上のVirtualBox上のCentOS5.6です。yumでCDH3を疑似分散でいれてます。下記は本家のサンプルにもあるテーブルです。dtとcountryがパーティション用のカラムです。 CREATE TABLE page_view ( viewTime INT, userid BIGINT, page_url STRING,

showyou 2012/08/02

hadoop
hive

リンク

Hadoopのトラブルシューティングに関する資料があったのでめもっとく - wyukawa's diary

Hadoop World 2011でClouderaの人が発表した資料を見つけたのではっておく。 Hadoop Troubleshooting 101 - Kate Ting - Cloudera View more presentations from Cloudera, Inc. Clouderaのサポートチームの極意が詰め込まれているようだ。内容的にはHadoop徹底入門の10章の「性能向上のためのチューニング」と若干かぶっているが参考になります。 io.sort.mb < mapred.child.java.opts　とすることとか（ていうかmapred.child.java.optsを増やすことはあるかもしれないがio.sort.mbっていじるもんなのかな）、プロセス数やファイルディスクリプタいじれとか、map出力のスレッドいじれとか、Jetty 6.1.26は使うなとか、盛り

showyou 2011/11/12

hadoop

リンク

OSSチャリティセミナーで発表してきました - wyukawa's diary

今日開催された東日本大震災支援緊急企画 OSSチャリティーセミナー - がんばろうニッポンでMercurialについて5分ほどしゃべってきました。スタッフ、参加者の皆様ありがとうございました。資料をアップしておきます。 Osc mercurial-public View more presentations from Wataru Yukawa http://kanon.ultimania.org/?p=231では某アニメねたですべったと書かれていますが、私は資料にある通り真面目に発表しましたのですべってません。キリ！他の発表では一番関心のあったHadoopのやつがわかりやすかったですね。内容は処理の流れ、WordCountのサンプルなどHadoop解析の王道という感じでした。懇親会でも@ymstsn1さんにHadoopについていろいろと教えてもらいました。ありがとうございます。m(

showyou 2011/05/08

リンク

Shibuya.trac 第7回勉強会で発表しました - wyukawa's diary

発表スライドはこちら Hudson tanabata.tracView more presentations from Wataru Yukawa. 私の勤めている会社のようにslideshareとかはてなフォトライフとか見れないんじゃい！っていう方のためにPDFも下記に置きました。ちょっと重いですがw http://dl.dropbox.com/u/8494587/Hudson-Tanabata.pdf まず会場を貸していただいた @tomohn さん、会場面でおもに調整していただいた @kanu_ さん、スイーツとか諸々手配していただいたちょびさん、企画していただいた @LightningX さん、司会していただいた@ikikkoさん、Ustしていただいた@nekotankさん、はじめ全てのスタッフ、発表者、また見に来ていただいた皆様に感謝します。ありがとうございました。m( )m S

showyou 2010/07/08

リンク

はてなブックマーク

タグ

ブックマーク / wyukawa.hatenablog.com (10)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス