[B! hadoop] indicationのブックマーク

indication id:indication

hadoopに関するindicationのブックマーク (21)

メキメキ開発の進む Apache Sparkのいまとこれから（Spark Casual Talk #1 発表資料）
Spark Casual Talk #1 （2015/06/23）発表資料『メキメキ開発の進む Apache Sparkのいまとこれから』 NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス猿田浩輔（Apache Sparkコミッタ）、土橋昌 ※イベントページ http://connpass.com/event/15575/
indication 2015/06/24
hadoop

apache
リンク
Cloudera Standard のご案内 ~ 無償版大幅機能強化のお知らせ | Cloudera Japan
データを信頼し、AI を信頼する信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。
indication 2015/03/03
hadoop

design

HDFS
リンク
Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita
「BigQueryは120億行を5秒でフルスキャン可能」は本当か？先日、kaheiさんがGoogle BigQuery（Googleクラウドの大規模クエリサービス）について、こんなエントリを書いていた。とにかくパフォーマンスがすごい。（Fluentd Meetupでの）プレゼン中のデモで、ディスクに収められた5億件のデータをSQLでフルスキャンするのに3秒しかかからない。9億件のデータを正規表現を含んだSQLでスキャンしても、7秒で終わる（これ、記憶がちょっとあいまい。もう少しかかったかも）。これには驚いた。佐藤さんがGoogleに入社して一番驚いた技術が、一般公開される前のBigQueryだったと言っていたが、その気持ちはわかる。 From Fluentd Meetupに行ってきましたこれを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluent
indication 2014/05/19
桁間違いに注意する案件

データ

google

hadoop
リンク
【仮想化道場】並列分散処理のフレームワークとなるHadoop 2.0
indication 2013/12/25
hadoop

フレームワーク
リンク
Cloudera World Tokyo 2013に参加してきました #cwt2013 | DevelopersIO
Cloudera World Tokyo 2013に参加してきました。 http://www.cloudera.co.jp/jpevents/cwt2013/index.html 午前中は用事があったので午後からの参加となりました。参加したのは以下のセッションです。 13時30分〜14時10分 CDH最新情報 14時25分〜15時05分 Hadoopデータプラットフォーム 15時30分〜16時10分 SQLで実現するバッチ処理とストリーム処理 16時25分〜17時05分 Hadoopの運用 17時20分〜18時00分 Hadoop コミュニティと YARN の現状ということで参加レポートですが、現時点でスライドが公開されていないものが大半だったので、各セッションに関して概要といいつつ詳細まで書いています。ここについてはスライドが公開されたタイミングで差し替えていく予定です。 CDH最新情
indication 2013/11/30
hadoop

サポート

歴史
リンク
Hadoopはビッグデータの汎用プラットフォームであり、行く先はグーグルが示している
Hadoopはビッグデータ処理の汎用プラットフォームであり、SQLやジョインやトランザクションなどが使えるようになる。Hadoopの生みの親であるダグ・カッティング氏は、都内で開催された日本Hadoopユーザー会主催のイベント「Hadoop Conference Japan 2013 Winter」にビデオメッセージで参加。Hadoopの現在、そして将来像について語りました。カッティング氏が語ったHadoopの将来とはどんなものなのか。ポイントを紹介しましょう。バッチ処理を超え続くApache Hadoopの進化 Apache Software FoundationのChairmanでありClouderaのChief Architect、Doug Cutting氏。今日はみなさんと一緒に参加したかったのですが残念ながらかなわず、このビデオをお送りすることになりました。 MapRedu
indication 2013/01/22
論文発表後の発展

hadoop
リンク
Storage infrastructure using HBase behind LINE messages
Storage infrastructure using HBase behind LINE messages1 of 46
indication 2013/01/22
lineのバックエンド。どれぐらいの人が関わったのだろうか。

hbase

hadoop

storage
リンク
アクセス解析システムの裏側（公開用）
Seminar report (Building a Linux server and AWS SDK for Ruby)Tamotsu Furuya
indication 2012/09/24
hadoop

解析
リンク
日々進化するHadoop。これまでのおさらいと最近の動向（前編）
大規模な分散処理フレームワークとしてHadoopが登場したことにより、ビッグデータのブームや、大規模なソーシャルゲームでのログ解析による改善、コマースサイトでの機械学習によるレコメンデーションなど、多くの変化が引き起こされてきました。そしてそのHadoop自体も、日々進化し続けています。 Hadoopとはどういうソフトウェアであり、いまどのような状況になっているのか。NTTデータの濱野賢一朗氏が、先日行われた第2回 NHNテクノロジーカンファレンスで行ったセッション「日々進化するHadoopの『いま』」で分かりやすく解説しています。この記事ではそのセッションの内容をダイジェストで紹介しましょう。日々進化するHadoopの「いま」 NTTデータ基盤システム事業部濱野賢一朗氏。 NTTデータというところで仕事をしています。NTTデータ自体はもう5年くらいHadoopをやってまして、そ
indication 2012/08/27
hadoop
リンク
Hadoopソースコードリーディング第11回のメモを共有しよう #hadoopreading - #garagekidztweetz
ツイート今日は第11回目となる Hadoop Source Code Reading に参加してきたので、わたしのメモを共有したいと思います。日　時： 2012年7月30日（月） 19:00〜21:00 （受付開始 18:40）場　所：豊洲センタービルアネックス（NTTデータ、豊洲駅直通）地　図： http://www.nttdata.com/jp/ja/corporate/profile/guide/map.html 定　員： 80名参加費： 1000円（懇親会費用として）今日の発表は以下の 3 つでした。（どれも聞き甲斐がある内容でした） Contents. BigTopに関するお話（Cloudera, Inc Andrew Bayer氏） CDH4に入った新機能 NameNode HA の実力を試してみました（NTTデータ山下真一氏）複数DCで運用するHa
indication 2012/07/31
hadoop

メモ
リンク
PHP と MySQL でカジュアルに MapReduce する
PHP と MySQL で 1 カチャカチャカチャ...ッターン！ MapReduce (@ニコニコ超会議)Yuya Takeyama
indication 2012/03/27
！！

PHP

hadoop

mysql

フレームワーク
リンク
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
ゼロから始める深層強化学習（NLP2018講演資料）/ Introduction of Deep Reinforcement LearningPreferred Networks
indication 2012/02/25
すごすぎてわからない

hadoop

Jubatus

分析

資料
リンク
"BigData"では何が問題なのか？ - 急がば回れ、選ぶなら近道
”ビッグデータで奇跡が起こる” はいどうも。まず、個人的には楽天的な進歩史観には、まったく組しない。従って、突然に新技術ができて、なんか凄い事になる、というのはさらにまったく同意しない。すべからくブレイクスルーは課題解決により起こると思っているので、問題意識のないところに、こんなものできました的な発想は、基本的にプラスにならないことが多いと思っている。現状のビッグデータブームは2011年の秋口現在は完全にハイプになっており、バブルと言ってもいいと思う。印象として、十数年前のナノテク・ブームに似ている。とはいえ、過度の期待という側面を除けば、それなり効果もある部分もあり、”そこだけ”を見ていけばそれなりに効果はある（と思う）。大体において、今後は以下の二つのユースケース・カテゴリーに集約されると思う。すなわち、ビッグデータの拠り所はまずもって以下の２点だ。 1 Webのログ解析というか
indication 2011/12/12
目的不明が問題

Hadoop

考え方

ネタ
リンク
Hadoopのトラブルシューティングに関する資料があったのでめもっとく - wyukawa's diary
Hadoop World 2011でClouderaの人が発表した資料を見つけたのではっておく。 Hadoop Troubleshooting 101 - Kate Ting - Cloudera View more presentations from Cloudera, Inc. Clouderaのサポートチームの極意が詰め込まれているようだ。内容的にはHadoop徹底入門の10章の「性能向上のためのチューニング」と若干かぶっているが参考になります。 io.sort.mb < mapred.child.java.opts　とすることとか（ていうかmapred.child.java.optsを増やすことはあるかもしれないがio.sort.mbっていじるもんなのかな）、プロセス数やファイルディスクリプタいじれとか、map出力のスレッドいじれとか、Jetty 6.1.26は使うなとか、盛り
indication 2011/11/13
hadoop

performance

チューニング

DB

資料
リンク
第14回データマイニング+WEB 勉強会＠東京( #TokyoWebmining 14th)－大規模分散データマイニング祭り－を開催しました - hamadakoichi blog
2011/10/16 "第14回データマイニング+WEB 勉強会＠東京"を開催しました。第14回データマイニング+WEB 勉強会＠東京 ( #TokyoWebmining 14th)−大規模分散データマイニング祭り−: Eventbrite Google グループ会場提供し運営を手伝って下さったニフティ株式会社のみなさん、どうもありがとうございました。素敵なトークを提供してくれた講師メンバーに感謝します。会場参加、USTREAM参加ともに多くの方々の参加を嬉しく思っています。参加者ID・バックグラウンド一覧：以下、全講師資料、関連資料、ツイートまとめです。 AGENDA： ■Opening Talk： O1.「データマイニング+WEB勉強会＠東京について」(10分) 講師： id:hamadakoichi [Twitter:@hamadakoichi] オープニングト
indication 2011/10/17
勉強会

hadoop

資料

統計
リンク
FacebookがHBaseを大規模リアルタイム処理に利用している理由（前編）
Facebookは大規模なデータ処理の基盤としてHBaseを利用しています。なぜFacebookはHBaseを用いているのか、どのように利用しているのでしょうか？ 7月1日に都内で行われた勉強会で、Facebookのソフトウェアエンジニアであるジョナサン・グレイ（Jonathan Gray）氏による解説が行われました。解説はほぼスライドの内容そのままでした。当日使われた日本語訳されたスライドが公開されているので、ポイントとなるページを紹介しましょう。 Realtime Apache Hadoop at Facebook なぜリアルタイムデータの分析に、Hadoop/HBaseを使うのか？ MySQLは安定しているが、分散システムとして設計されておらず、サイズにも上限がある。一方、Hadoopはスケーラブルだがプログラミングが難しく、ランダムな書き込みや読み込みに向いていない。 Faceb
indication 2011/09/04
メリットなどについて

hadoop

hbase

分散処理
リンク
Hadoop で syslog 経由でログを出力する方法 | Carpe Diem
Hadoop を使いはじめたのですが、Hadoop で出力されるログを syslog 経由で出力するように設定してみました。最初は、log4j.properties だけ書き換えればよいかと思ったのですが、これだけでは syslog 経由でログを出力できませんでした。 Hadoop は、CDH のバージョン 0.18.3 を使っています。まず、/usr/lib/hadoop/bin/hadoop-daemon.sh で、log4j の logger 環境変数を使えるように次のように変更します。次のパッチでは、念のためローカルのログファイル名も変更できるようにしてあります。 /usr/lib/hadoop/bin/hadoop-daemon.sh 28a29,30> # HADOOP_LOGFILE The log file name. Default is hadoop-$HADO
indication 2011/09/03
hadoop
リンク
Hadoop Streaming - naoyaのはてなダイアリー
id:naoya:20080511:1210506301 のエントリのコメント欄で kzk さんに教えていただいた Hadoop Streaming を試しています。 Hadoop はオープンソースの MapReduce + 分散ファイルシステムです。Java で作られています。Yahoo! Inc のバックエンドや、Facebook、Amazon.com などでも利用されているとのことです。詳しくは http://codezine.jp/a/article/aid/2448.aspx (kzk さんによる連載記事)を参照してください。 Hadoop Streaming 記事にもあります通り、Hadoop 拡張の Hadoop Streaming を使うと標準入出力を介するプログラムを記述するだけで、Hadoop による MapReduce を利用することができます。つまり、Java 以外
indication 2011/09/03
hadoop

あとで読む

apache

perl
リンク
Cloudera Blog
It’s hard to believe it’s been 15 years since the global financial crisis of 2007/2008. While this might be a blast from the past we’d rather leave in the proverbial rear-view mirror, in March of 2023 we were back to the future with the collapse of Silicon Valley Bank (SVB), the largest US bank to […] Read blog post
indication 2011/09/03
apache

hadoop

pig
リンク
Facebookが新サービスの基盤にしたのは、MySQLでもCassandraでもなく、HBaseだった
Facebookが15日に発表した新しいサービス「Facebook Messages」は、チャットやつぶやき、そして電子メールなど、自分宛のテキストやメッセージをすべて1つのインボックスで管理できると発表されました。同社が15カ月かけて開発してきたこの新サービスのバックエンドデータベースは、これまで同社が大規模運用してきたMySQLでも、同社が開発したNoSQLデータベースのCassandraでもなく、グーグルのBigTableをモデルとしてオープンソースで開発された分散データベース「HBase」でした。 Facebookのソフトウェアエンジニア、Kannan Muthukkaruppan氏がFacebookにポストした記事「The Underlying Techno logy of Messages」で、その技術的背景が紹介されています。 MySQLとCassandraが落選した理由 H
indication 2010/11/18
適材適所の正しい考え方

hadoop

考え方

facebook

mysql
リンク
1 2 次のページ