Seminar report (Building a Linux server and AWS SDK for Ruby)Tamotsu Furuya
![アクセス解析システムの裏側 (公開用)](https://cdn-ak-scissors.b.st-hatena.com/image/square/08126a2d16de2dcab60034737792d8d3e972169b/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2Fweb-120923002957-phpapp02-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)
今年はさだまさしさんのデビュー40周年ということで、記念コンサート「さだまつり」も絶賛開催中の折も折、残暑も厳しい中皆様いかがお過ごしでしょうか。大平です。 さだまさし氏は経験の豊富な方ですので彼の歌や発言から学ぶことは大変多いのですが、個人的に非常に感銘を受けているのは「歌はコンサートで成長する」という言葉です。歌い手として、「歌」という作品を作って公開・販売するだけが仕事ではなく、実際にコンサートなどでお客さんに届け、お客さんの反応を参考にしたり日々の演奏活動の中で試行錯誤を繰り返して、内容をブラッシュアップし洗練させていく過程を指して先の言葉があるのだと思います。実際にさだまさし氏の曲はCDに収録されているものと実際にライブで演奏されるものとでアレンジが大きく異なり、かつ作品としても質が向上しているものが少なからず存在します。 …あまりさだまさしの話を続けると本当に上長に叱られますの
弊社製品 Marketing Platform には、Webページのアクセス履歴を取得したり、メール文面にあるURLをクリックした履歴を取得したり、メールを開封した履歴を取得したりする機能がある。そしてこれらの履歴データを統計情報として活用するため、どのWebページが何回アクセスされたか、どのURLが何回クリックされたかといった集計を行っている。 少し前のリリースで、これらの履歴データを集計していたバッチ処理を廃止して、アクセスを受け付けるたびにリアルタイムで集計するように変更した。これはリアルタイムにすることが目的だったのではないので副産物ではあるが、なかなか意味のある変更ではないかと思っている。 何かのミーティングの折にボスが「うちの製品はリアルタイム性が重要」というコメントをしていたからだ。 これは検索機能についての言葉ではあったが(検索結果を早く出すためにあらかじめ検索結果を持って
Hadoopとはどういうソフトウェアであり、いまどのような状況になっているのか。NTTデータの濱野賢一朗氏が、先日行われた第2回 NHNテクノロジーカンファレンスで行われたセッション「日々進化するHadoopの『いま』」で分かりやすく解説しています。 (本記事は「日々進化するHadoop。これまでのおさらいと最近の動向(前編)」の続きです) Hadoopの1.0系と2.0系 Hadoopの開発はかなり活発に進んでいます。 Hadoopでいちばん分からないといわれるのがバージョンで、これは以前からHadoopに接している私たちでもよく分からないくらいです。 Hadoopのバージョンには大きく二系統あって、少し前まで0.20系と呼ばれていたもので、これが現行は1.0系と呼ばれています。もうひとつが0.21、0.22、0.23系と呼ばれていたもの、これがいま2.0系と呼ばれています。 対外的には
概要 複数台のWebサーバのログを fluent と hoop を使ってリアルタイムにHDFSに追記していくテスト。 より頻度の高い行動解析を行うことができるようになる? 参考にしたブログ: tagomorisのメモ置き場 テスト構成 # 初めてテキストで図書いた。 # 線を交差させる所で面倒くさくなって適当に... web01 server fluent master +---------+ +---------+ | Fluentd |--+--->| Fluentd |--+ +---------+ |+-->+---------+ | Proxy || +-->+--------+ +--------+ || | hoop |-->| HDFS | web02 server || fluent slave +-->+--------+ +--------+ +---------+
Kubernetesでの性能解析 ~なんとなく遅いからの脱却~ (Kubernetes Meetup Tokyo #33 発表資料) 2020/08/26 NTT DATA Yasuhiro Horiuchi
副題: ビッグデータ時代の非ビッグデータ集計戦略 PHP と MySQL を使ってカジュアルに MapReduce する MyMR というものを作ってみました. とても安直な名前ですね. yuya-takeyama/mymr - GitHub とりあえず試してみる MyMR には, MapReduce のマナー (?) に従って, WordCount するためのサンプルコードとサンプルデータを同梱してみました. map/reduce 関数は PHP で書かれています. WordCount.php MySQL のユーザ名・パスワード等は適宜置き換えて下さい. 見事, 入力テーブル内の単語の出現回数を集計することができました. MyMR の特徴 データの入出力はいずれも MySQL のテーブル 入力と出力のデータベースは同じでもいいし別でもいい (入力はプロダクションサービスの Slave サ
ログ解析についてつらつらと考えていることを書いてみたいと思います。 Hadoopを用いたログ解析によってマーケティングを変革し売り上げを向上させようという話はよくあります。 この手の話はたいていBtoCで例としてはメールでレコメンドして商品を買ってもらうとかですね。 ログ解析がどういうフローかというと、ログを埋め込んでログを収集して蓄積して解析してそのレポートを見て何らかの施策を打つ、という感じになります。 図にするとこんな感じ 今話題沸騰中の「Fluentd」はログ収集を担当します。といいつつ僕自身はFluentd使ったことないです。記事を読んだくらいです。 ちなみにどれぐらい話題沸騰中かというとこれぐらい定員オーバーしてます。すごすぎ。 クレジットカード現金化詐欺【業界人が教える口コミ情報】 ログ埋め込みはJavaならLog4j使って埋め込んだりするでしょう。 Apacheのアクセスロ
hadoop アドベントカレンダー 2011、1日目及びその他空いているところ全部を担当する @shiumachi です。 27日は誰もいないようなのでこれを27日とします。 id:showyou さんの担当でした。28日目とします。showyou さんすいません 基本 テンプレ的に書くとこんな感じ。 「本来は……であるべきだが、実際にはこうなっている」 前半は should を使い、but/in fact/however/while などを使って逆接でつないで次の文を書く。 以下の項目があるとレスポンスしやすい。 項目名 内容 概要 数行程度で何が起きたか書く 症状 特に、ログに例外が吐かれてたら必ず貼り付けること 直前にどんな作業をしていたか 何か特殊な作業を行っていたら、その手順を書く 再現性の有無 そのまんま 再現方法(わかっていれば) そのまんま 可能なら、該当 conf ファイ
今回はレコメンドシステムの実装の問題と、その解決策として利用するHadoopについて説明します。 今回のポイントは以下の通りです。 スケールアップの限界 分散処理フレームワークの民主化 Hadoop Map Reduceの概要 増え続けるデータをどう扱うか レコメンドシステムを協調フィルタリングのうち、ユーザベース方式により実装することを考えます。このシステムでは次のような映画の評価履歴を使い、「この映画を評価した人はこの映画も評価しています」という映画の推薦を行います。 駄右衛門、ザスーラ、5、2009/12/21、・・・・ 駄右衛門、ジュマンジ、5、2009/12/28、・・・・ 菊之助、ブルースブラザーズ、5、2009/12/29、・・・・ 利平、ザスーラ、4、2010/01/01、・・・・ 十三、ハングオーバー、4、2010/01/01、・・・・ 利平、ジュマンジ、4、2010/
Hadoop World 2011でClouderaの人が発表した資料を見つけたのではっておく。 Hadoop Troubleshooting 101 - Kate Ting - Cloudera View more presentations from Cloudera, Inc. Clouderaのサポートチームの極意が詰め込まれているようだ。 内容的にはHadoop徹底入門の10章の「性能向上のためのチューニング」と若干かぶっているが参考になります。 io.sort.mb < mapred.child.java.opts とすることとか(ていうかmapred.child.java.optsを増やすことはあるかもしれないがio.sort.mbっていじるもんなのかな)、プロセス数やファイルディスクリプタいじれとか、map出力のスレッドいじれとか、Jetty 6.1.26は使うなとか、盛り
1年経ってiPhone4の電池がヘタってきた、太田です。 指数関数的にエントリ数が少なくなってきた本ブログですがw、景気付けのためにエントリを投稿したいと思います!本日はHBaseについてです。 Linux と Hadoop と HBase と ZooKeeper に詳しいあなた!あなたがターゲットです。 HBaseとは? HBaseとは、HDFS (Hadoop Distributed File System)上に構築された分散データベースです。大量の非常に細かいデータをリアルタイムに読み書き出来るのが特徴です。最近ではFacebook Messageの基盤技術として使用された事で注目を集めています。 HBase公式サイト Apache HBase ブック 保存されたデータはHDFS上に保存され、HDFSの仕組みによってレプリケーションされるため安全にデータを保持することが出来ます。 ま
overlasting.net 2019 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く