[B! Hadoop] uokadaのブックマーク

uokada id:uokada

Hadoopに関するuokadaのブックマーク (37)

Spark Internals - Hadoop Source Code Reading #16 in Japan
Apache Spark Introduction and Resilient Distributed Dataset basics and deep diveSachin Aggarwal
uokada 2019/06/15
spark

hadoop
リンク
「Hadoopの時代は終わった」の意味を正しく理解する - 科学と非科学の迷宮
Hadoopの時代は終わった、という言説をたまに見かけるようになりました。もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。以上をご了承の上、読み進めてください。要約データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが
uokada 2019/01/27
hadoop

spark
リンク
The Hadoop Ecosystem Table
The Hadoop Distributed File System (HDFS) offers a way to store large files across multiple machines. Hadoop and HDFS was derived from Google File System (GFS) paper. Prior to Hadoop 2.0.0, the NameNode was a single point of failure (SPOF) in an HDFS cluster. With Zookeeper the HDFS High Availability feature addresses this probl em by providing the option of running two redundant NameNodes in the s
uokada 2018/12/23
hadoop

HDFS
リンク
Hadoop and Kerberos
Security Recap and Updates for Hadoop. it's all based on Kerberos.Read less
uokada 2018/10/25
hadoop

HDFS

kerberos
リンク
Hadoopとクラウドストレージ
ざっと要約するとオンデマンド、アドホックなワークロードはクラウドで動作させると経済合理性が高い。必要なリソースを必要な分だけ利用し、終わったら破棄できるから。（当たり前の話。）そこでポイントになってくるのがAmazon S3やWindows Azure Storage Blobのようなクラウドストレージ。これらのストレージは高い可用性と地理的分散などによるデータ耐久性、マルチテナンシーを持ちながらも経済的な価格で利用できる。クラウド上のデータレイクは間違いなくこれらのクラウドストレージとなる。ということで、クラウドストレージを中心に、その周りにデータ処理のためのクラスタを配置していこうというアーキテクチャが語られている。しかし、ここにはいくつか解決すべき課題がある。クラウドストレージはFile System APIではなく REST APIで利用する必要がある。当然ローカルにあるHDF
uokada 2017/03/09
hadoop

hdfs
リンク
http://s3.amazonaws.com/public-repo-1.hortonworks.com/index.html
uokada 2016/11/16
hadoop

HDP
リンク
HiveServerを使用してPythonやPerlからHiveQLを実行する - たごもりすメモ
HiveServerはThriftプロトコルをしゃべる*1ので、おなじくThriftで接続すると任意のクエリを発行できたりして大変便利。ということで、やったので、そのメモ。準備まずHiveServerだけど、hiveコマンドを叩いてクエリが実行できる状態なら以下のコマンドで起動する。*2 $ hive --service hiveserver ただしあらゆるデータ投入などをThrift経由でやるのは正直めんどくさい。hiveと叩けば起動するHive CLIでもデータ操作はしたい。なので conf/hive-default.xml にMetastoreの設定をする。今回は手元のMySQLに hive データベースを作り、それを使うようにした。このあたりが大変参考になった。 HiveのmetastoreをMySQLを使ってLocal Metastore形式で利用する - blog.kats
uokada 2016/11/07
hive

hadoop

python
リンク
Apache Spark の紹介（前半：Sparkのキホン）
第16回 Hadoopソースコードリーディング(2014/05/29) 発表資料『Apache Sparkのご紹介』（前半：Sparkのキホン） NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス土橋昌 (Masaru Dobashi) http://oss.nttdata.co.jp/ 後半はこちら → http://www.slideshare.net/hadoopxnttdata/apache-sparkRead less
uokada 2016/06/20
spark

apache

hadoop
リンク
Cloudera | ハイブリッドデータカンパニー
データを信頼し、AI を信頼する信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。
uokada 2016/06/20
hadoop

impala

hive
リンク
Scaling the Facebook data warehouse to 300 PB
At Facebook, we have unique storage scalability challenges when it comes to our data warehouse. Our warehouse stores upwards of 300 PB of Hive data, with an incoming daily rate of about 600 TB. In the last year, the warehouse has seen a 3x growth in the amount of data stored. Given this growth trajectory, storage efficiency is and will continue to be a focus for our warehouse infrastructure. There
uokada 2015/05/02
hive

development

facebook

hadoop
リンク
Pig, Hiveなど8種類のMapReduce言語についての比較 - nokunoの日記
以下の記事ではPig, Hiveなど8種類の言語でMapReduceの一番単純な例、WordCountを記述した場合のスクリプトの比較を行っています。とても興味深かったので紹介したいと思います。Pigs, Bees, and Elephants: A Comparison of Eight MapReduce Languages « Dataspora なお、今回はRSS購読しているDataSporaのブログから発見しましたが、エントリを寄稿したエンジニアの個人ブログも大変興味深いのでオススメです。はじめにMapReduceを美しく効率的に書くために、私は様々な言語を比較しました。果たしてその勝者は！？私の個人ブログでは統計やグラフのアルゴリズムをMapReduceで記述する方法を紹介し、擬似コードによる実装を示しました。擬似コードには2つの問題点があります：誰もがその命令を理解できると
uokada 2015/04/25
mapreduce

hadoop

hive
リンク
Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita
「BigQueryは120億行を5秒でフルスキャン可能」は本当か？先日、kaheiさんがGoogle BigQuery（Googleクラウドの大規模クエリサービス）について、こんなエントリを書いていた。とにかくパフォーマンスがすごい。（Fluentd Meetupでの）プレゼン中のデモで、ディスクに収められた5億件のデータをSQLでフルスキャンするのに3秒しかかからない。9億件のデータを正規表現を含んだSQLでスキャンしても、7秒で終わる（これ、記憶がちょっとあいまい。もう少しかかったかも）。これには驚いた。佐藤さんがGoogleに入社して一番驚いた技術が、一般公開される前のBigQueryだったと言っていたが、その気持ちはわかる。 From Fluentd Meetupに行ってきましたこれを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluent
uokada 2014/05/19
fluentd

BigQuery

hadoop

bigdata
リンク
【14-B-2】グリーを支えるデータ分析基盤の過去と現在（橋本泰一〔グリー〕）
グリーではユーザに喜んでもらえるサービスを提供するための継続的な改善を重視しており、創業期よりログデータの分析基盤の開発・運用に注力してまいりました。昨年より、従来の自社開発の解析基盤に加え、Hadoopやfluentdなどを本格的に運用開始し、解析基盤のさらなる強化を実施しております。サービスの成長を支えるデータ分析基盤の構築・運用・活用方法について自社の事例をベースにお話します。Read less
uokada 2014/02/19
GREE

hadoop

fluentd
リンク
大規模サイトを支えるビッグデータプラットフォーム技術
2. 自己紹介 Privileged and Confidential 2 遠峯康夫(とおみねやすお) 事業戦略統括本部データソリューション本部データインフラ開発部 2010年新卒入社 Hadoopクラスタ立ち上げの部署に配属 2012年データソリューション配属 Hadoop、リアルタイム処理基盤などを担当
uokada 2013/09/14
Yahoo!

bigdeta

hadoop

presentation
リンク
niw.at — たのしい Scalding 入門
TL; DR: git clone https://github.com/niw/scalding_examples.git ざっとググった感じ、Scalding についてはまだあまり日本語情報なさそうなので、こう広めたりする目的も込めてちょっとまとめておこうと思います。 Scalding とは Scalding とは、Scala に相当入れ込んでる Twitter で使われているライブラリで、Hadoop の MapReduce を Scala で簡単に書けるものです。中身は Cascading をラップしたものになっています。 Scala に相当入れ込んでる Twitter ではしかしながら Pig が頻繁に使われているのですがある方面では Scalding が使われておりまして、Pig と肩を並べられるくらいに使えて、さらに Scala の秘めた力も使えるんだぜ…! と、少なくとも
uokada 2013/09/01
scala

hadoop

mapreduce
リンク
Starting Small: Set Up a Hadoop Compute Cluster Using Raspberry Pis
What is Hadoop? Hadoop is a big data computing framework that generally refers to the main components: the core, HDFS, and MapReduce. There are several other projects under the umbrella as well. For more information, see this interview with Cloudera CSO Mike Olson. What is a Raspberry Pi? The Pi is a small, inexpensive ($39) ARM based computer. It is meant primarily as an educational tool. Is Hado
uokada 2013/08/12
hadoop

cluster
リンク
挑戦するエンジニアたちヒストリー[3-1]｜ITエンジニア専門の転職情報はフォスターキャリア
1979年生れ。2005年よりISP、SIer（NTTデータ先端技術株式会社）2社での勤務を経験後、2010年8月株式会社ライブドア入社(2012年1月NHN Japan株式会社に経営統合後、2013年4月にLINE株式会社へ社名変更)。現在に至るまでライブドアの各サービスにおける稼動状況の把握と可視化などを中心に、サービスをまたいだ観点でのツール整備などを行う。今回、株式会社ノーチラス・テクノロジーズの神林氏よりご紹介を頂きましたが、どの様な繋がりでしょうか？もともと、現在のLINE株式会社に入社する前からGoogle App Engineを趣味でいじっていた時期があり、その関係のコミュニティなどで、「クラウド」「分散処理」の話があり、Hadoop系の方と勉強会（飲み会含め）で知り合いました。更に現在の業務になってHadoopを集計などで利用することになり、神林さんもノーチラス・テク
uokada 2013/04/09
LINE

hadoop

engineer

interview

work
リンク
TechCrunch | Startup and Technology News
You probably rem ember that back in November, OpenAI’s board fired the company’s co-founder and CEO Sam Altman. What followed was this incredibly complicated power struggle…
uokada 2013/04/03
hadoop

BigData

Treasure Data
リンク
Googleの並列ログ解析向け言語「Sawzall」が公開されたので使ってみた | Preferred Research Blog
最近光麺にハマっている太田です。グーグル、分散処理のためにデザインされた言語「Sawzall」をオープンソースで公開 ? Publickeyで紹介されている、並列ログ解析向け言語「Sawzall」を試してみました。動かし方のドキュメントが少なかったので、紹介エントリを書いてみます。プロジェクトページドキュメント Sawzallについては、5年前に論文が発表されており一部概要を知ることは出来ましたが、先日実装がオープンソースで公開されました。論文の第一著者はUNIXやPlan9の開発者で知られるRob Pike氏です。 Interpreting the Data: Parallel Analysis with Sawzall MapReduceのOSS実装として「Hadoop」が良く知られていますが、Hadoop向けの言語としてはHiveやPig等が有名です。 Hive: MapRed
uokada 2013/02/18
mapreduce

hadoop
リンク
次世代アーキテクチャについての考えをまとめておく。まずは、Hbaseの勉強会のお話。某界隈では割と話題になったので、細かいブログやサイトは結構、紹介されている。ので特に詳細は省く。一応tatsuyaさんのSlideshareはTokyo HBase Meetup - Realtime Big Data at Facebook with Hadoop and ...slideを見ているだけでは、よくわからないと思うがJonathanとの会話では、FBはバックエンドの部分を含めてバッチ処理は別のHadoopク
uokada 2012/11/27
hbase

facebook

hadoop

tumblr
リンク
1 2 次のページ