[B! study][MapReduce] raimon49のブックマーク

raimon49 id:raimon49

studyとMapReduceに関するraimon49のブックマーク (6)

The History of Distributed Databases - Google, Amazon, Facebook など巨大企業による分散データベース技術の発展 | Wantedly Engineer Blog
こんにちは、Wantedly の Infrastructure Team で Engineer をしている南（@south37）です。今日は、WANTEDLY TECH BOOK 5 から「巨大企業による分散データベース技術の発展」という章を抜粋して Blog にします。「WANTEDLY TECH BOOK 1-7を一挙大公開」でも書いた通り、Wantedly では WANTEDLY TECH BOOK のうち最新版を除いた電子版を無料で配布する事にしました。Wantedly Engineer Blogでも過去記事の内容を順次公開予定であり、この Blog もその一環となっています。 Wantedly における Go 導入にまつわる技術背景 | Wantedly Engineer Blog （本記事は Go Conference 2019 Autumn にて無料配布した冊子『WANT
raimon49 2020/07/25
AWS

Facebook

Google

MapReduce

design

study

あとで読む
リンク
分散システム処理モデルに関する動向について（MapReduceからBorgまで）
詳細については後述しますが、MapReduceの処理モデルは、上記の通り各区分ごとにそれぞれ単純化（限定）されたモデルであったと言えます。また、MapReduceの関数プログラミングおよびグラフ的な特徴も合わせて以下に整理してみます。関数プログラミング的な特徴 MapおよびReduceフェーズは、それぞれ関数型プログラミングのMapおよびReduce処理をモデル化したものです。MapReduceは、参照透過性がある純粋な関数処理と言えます。参照透過性とは入力により出力が一意に決まる性質のことです。言い換えればMapReduceの処理は、大域などの処理に影響する外部の環境は持たず、内部的にも静的な一時変数などの状態も持たないことを意味します。純粋な関数処理は複数の処理が同時に実行されても他の並列に動作している処理の状態には左右されないため、この参照透過性は並列化に向いている性質がありま
raimon49 2015/06/10
MapReduce

SQL

design

study

歴史

あとで読む
リンク
今時のWebエンジニアの入り口としてのGAE - ku-sukeのブログ
本日、GoogleがCloud SQL（MySQLのレンタルみたいなの）の無料版を発表しました。500MB/6ヶ月でGoogle App Engineなどから無料で使えるようです。さて、それはいいとして最近弊社なども含め、今時の環境って本気だすと複雑化してますよね。OSCで発表された前佛さんのMunin資料を31pと２つ戻って29pを見比べてみてくださいｗ Muninではじめる実践★リソース監視　-俺のサーバがこんなに重いはずがない、を乗り切るために- from Masahito Zembutsu こんなの絶対おかしいよ！！ NoSQLや非同期処理など、様々な新しい技術にチャレンジしたいと思っていても、どこから手を付けよう、、みたいなことってありますよね。Cassandraがいいのかな、Redisがいいのかな？みたいにはてブの着いた記事があれば読んでみるんだけど、インストールとか面倒そう
raimon49 2012/11/13
再入門したいのでタグ整理。

GAE

MapReduce

NoSQL

Python

deployment

memcached

pattern

performance

study

あとで読む
リンク
実践！「MapReduceでテキストマイニング」徹底解説
「青空文庫」をテキストマイニング！前回の「いまさら聞けないHadoopとテキストマイニング入門」では、Hadoopとテキストマイニングの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築しました。今回から、Hadoopを使い、テキストマイニングのMapReduceプログラムを作成していきます。「青空文庫」というサイトをご存じでしょうか。青空文庫は、著作権が切れた日本の文学作品を掲載しているWebサイトで、青空文庫の全データをDVDや、BitTorrentによる配信で入手できます。今回は、このデータを使ってテキストマイニングを行いましょう。前回、テキスト分類で、著者の性別、年齢、地域、職業などの属性も推定できると書きましたが、青空文庫は、他のデータにはない、著者属性があります。青空文庫の作品は、著作権が切れて、作者がなくなっている場
raimon49 2011/08/04
Hadoop

Java

MapReduce

NLP

algorithm

programming

study
リンク
いまさら聞けないHadoopとテキストマイニング入門
ビッグデータ時代の救世主「Hadoop」とは「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。本連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。重い処理を複数のマシンに分散させる複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。例えば、Hadoopを使うと、1
raimon49 2011/06/22
入門編。分かり易い。

Hadoop

MapReduce

NLP

VMware

Yahoo

howto

study

あとで読んだ
リンク
勉強会発表「プログラマのためのHadoop入門」 - 科学と非科学の迷宮
id:kaigai の主催する勉強会で発表してきました。 Hadoop for programmerView more presentations from shiumachi. 答えられなかった質問 Shuffleフェーズって、ソートをどういう仕組みでやってるの？　データ全部をなめてるの？ Partitionerというクラスでデータを振り分けてる。タスクごとは独立してるのでデータをまたがってアクセスすることはないと思う。でも細かいことはちょっとわからない。 Map中にデータ追加したらどうなるのか？さすがに扱うデータは最初に決めていると思うが、やったことないのでわからない。 Streamingって具体的にどんな処理してるの？ jarファイルは投げてるけど、実行時に使うスクリプトはどうやって投げてるのかわからない。あとで調べときます。今の世の中に出てるHadoop本って構築とか運用の話
raimon49 2010/09/16
Hadoopの使いどころはメモリに載らないサイズの大規模データを扱う場面。関数型プログラミングのmap()とreduce()に当てはめるとバッチ処理のイメージがし易い。とても分かり易い資料。

Hadoop

MapReduce

Python

algorithm

study
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx