seikun1234のブックマーク / 2014年9月30日 - はてなブックマーク

seikun1234 id:seikun1234

2014年9月30日のブックマーク (8件)

ログミーBiz
英語習得の近道は、ChatGPTで“自分で教材を作る”こと　『英語は10000時間でモノになる』著者がすすめる学習法
seikun1234 2014/09/30
"協力している社員"を定量的に評価する方法が思い付かない。

management
リンク
Resilient Distributed Datasetsに関する論文まとめ（１章〜５章 - 夢とガラクタの集積場
こんにちは。 Resilient Distributed Datasetsに関する論文「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」（http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf）について、概念と動作概要が書かれた１章〜５章を読んだので、１投稿にまとめます。基本的には以前見たスライドの詳細化版なんですが、一部スライド見ているだけだとわからない情報もあり、参考になりました。 Sparkが対象とするような「基本的には全データに対して同じ演算を行う」アプリケーションにおいては読み取り専用というRDDの性質がマイナスにならないこと、読み取り専用であることで一貫性考慮が簡略
seikun1234 2014/09/30
development

spark

RDD

あとで読む

まとめ
リンク
Resilient Distributed Datasetsに関する論文を読んでみます（５章 - 夢とガラクタの集積場
以下論文を読んでみようの続きで、今回は第５章です。「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」（http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf）内容としては、「Implementation」ということで、実際の実装方式や動作についての章になります。この章で動きや性質は大体わかるのと、これ以降の章は検証結果と考察という形で新規情報や機構・・という形ではなくなりますので、この論文としては今回が最後になります。では、実際に入っていきます。私たちはSparkを14000ステップ程のScalaで記述している。 SparkはApache Mesosというクラスタマネージャの
seikun1234 2014/09/30
development

spark

RDD

あとで読む
リンク
Resilient Distributed Datasetsに関する論文を読んでみます（４章 - 夢とガラクタの集積場
こんにちは。以下論文を読んでみようの続きで、今回は第４章です。「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」（http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf）内容としては、「Representing RDDs」ということで、RDDsの表現方法についての章になります。この章くらいまでが実装手前の設計部分で、それ以後が実装内容と検証結果／考察、といった感じですかね。では、入ります。抽象化してRDDsを提供する上での課題は様々なtransf ormationに対して追跡可能な系統グラフをどう表現するか、になる。理想的にはRDDsを実現するシステムは出来る限り充実したtr
seikun1234 2014/09/30
development

spark

RDD

あとで読む
リンク
Resilient Distributed Datasetsに関する論文を読んでみます（３章 - 夢とガラクタの集積場
こんにちは。以下論文を読んでみようの続きで、今回は第章です。「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」（http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf）内容としては、「Spark Programming Interface」ということで、RDDsを扱うSpark自体に対する内容となっています。では、入ります。 SparkはRDDを使うための基盤で、DryadLINQのような言語統合APIを静的型付け関数型プログラミング言語Scalaで実現している。簡潔さ（対話型の使用のために便利）と効率（静的型付け）のため選択した。但し、特に扱うにあたって関数型言語の素養が必
seikun1234 2014/09/30
development

spark

RDD

あとで読む
リンク
SpringXD＝リアルタイム解析やバッチ処理同士をつなぐ汎用、分散、拡張可能なデータ統合基盤？ - 夢とガラクタの集積場
こんにちは。最近色々手を出し過ぎな気もしますが、気になったものがあったのでちとまとめてみます。それは、Spring XDです。 http://www.springsource.org/spring-xd ぱっとトップページを見てみるとやたらと使えそうに見えたので、実際にチュートリアルを動かし、アーキテクチャ資料を確認してみます。 1.Spring XDって？トップページを確認してみると、以下とありました。 Spring XDは汎用、分散で拡張可能なサービスで、データインテグレーション、リアルタイム解析、バッチ処理、データ出力に用いることができる。 Spring XDのゴールはビッグデータの複雑さに対応することである。実世界のビッグデータアプリケーション構築における複雑さは主に複数の異なるシステムを様々なユースケースをまたいで一つのシステムに結合しようとするところから生じている
seikun1234 2014/09/30
development

spark

RDD

あとで読む
リンク
Resilient Distributed Datasetsに関する論文を読んでみます（１章 - 夢とガラクタの集積場
こんにちは。前回、前々回でApache Spark、Spark Streamingの概要がわかりました。ですが、内部で使用している共有分散メモリ機構であるResilient Distributed Datasets(RDDs)が鍵となる割に概要しか資料からはわからなかったため、論文を読むことでもう一段階理解を深めてみます。読んだ論文は以下です。「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」（http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf）あと、内容が理解できればいいので、全文訳というわけではありません。 Abstract 本論文において、プログラマが大規模クラスタ
seikun1234 2014/09/30
development

spark

RDD

あとで読む
リンク
Eclipse のライブラリを流用して diff 系ツールを自作する方法 - toyfish.blog
「また明日から 2 つのデータの差分を目視で見つける仕事が始まるお……」「ほんとは diff を使って速度も精度も上げたいんだお……」「でもこの PC には JDK と Eclipse しか入れちゃいけないお……」「……だから Eclipse を使って diff っぽいツールを自作するお!!」ほんとは WinMerge とか入れられればいいんですけどね。「WinMerge 入れられない! 入れにくい!!」な環境でなんとかしてみようと思ったわけです。使うライブラリ Eclipse には「比較エディタ」という機能があり、2 つのファイルの差分を見ることができます。このとき差分検出に使われているライブラリ (というかプラグイン) は、classpath を通せば、自分のアプリケーションからも使えるっぽいです。 Eclipse 3.2 の場合でいうと、plugins ディレクトリにあるこ
seikun1234 2014/09/30
java

eclipse

diff

development
リンク
- 2014年10月14日
- 2014年9月30日
- 2014年9月26日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx