英語習得の近道は、ChatGPTで“自分で教材を作る”こと 『英語は10000時間でモノになる』著者がすすめる学習法
![ログミーBiz](https://cdn-ak-scissors.b.st-hatena.com/image/square/8b2140f7f6de03c3aae4f0b159a42f755de1bab2/height=288;version=1;width=512/https%3A%2F%2Flogmi.jp%2Fimg%2Ficons%2Flogmi-biz.png)
こんにちは。 Resilient Distributed Datasetsに関する論文 「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」 (http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf) について、概念と動作概要が書かれた1章〜5章を読んだので、1投稿にまとめます。 基本的には以前見たスライドの詳細化版なんですが、一部スライド見ているだけだとわからない情報もあり、参考になりました。 Sparkが対象とするような「基本的には全データに対して同じ演算を行う」アプリケーションにおいては 読み取り専用というRDDの性質がマイナスにならないこと、読み取り専用であることで 一貫性考慮が簡略
以下論文を読んでみようの続きで、今回は第5章です。 「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」 (http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf) 内容としては、「Implementation」ということで、実際の実装方式や動作についての章になります。 この章で動きや性質は大体わかるのと、これ以降の章は検証結果と考察という形で新規情報や機構・・ という形ではなくなりますので、この論文としては今回が最後になります。 では、実際に入っていきます。 私たちはSparkを14000ステップ程のScalaで記述している。 SparkはApache Mesosというクラスタマネージャの
こんにちは。 以下論文を読んでみようの続きで、今回は第4章です。 「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」 (http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf) 内容としては、「Representing RDDs」ということで、RDDsの表現方法についての章になります。 この章くらいまでが実装手前の設計部分で、それ以後が実装内容と検証結果/考察、といった感じですかね。 では、入ります。 抽象化してRDDsを提供する上での課題は様々なtransformationに対して追跡可能な系統グラフをどう表現するか、になる。 理想的にはRDDsを実現するシステムは出来る限り充実したtr
こんにちは。 以下論文を読んでみようの続きで、今回は第章です。 「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」 (http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf) 内容としては、「Spark Programming Interface」ということで、RDDsを扱うSpark自体に対する内容となっています。 では、入ります。 SparkはRDDを使うための基盤で、DryadLINQのような言語統合APIを静的型付け関数型プログラミング言語Scalaで実現している。 簡潔さ(対話型の使用のために便利)と効率(静的型付け)のため選択した。 但し、特に扱うにあたって関数型言語の素養が必
こんにちは。 最近色々手を出し過ぎな気もしますが、気になったものがあったのでちとまとめてみます。 それは、Spring XDです。 http://www.springsource.org/spring-xd ぱっとトップページを見てみるとやたらと使えそうに見えたので、 実際にチュートリアルを動かし、アーキテクチャ資料を確認してみます。 1.Spring XDって? トップページを確認してみると、以下とありました。 Spring XDは汎用、分散で拡張可能なサービスで、 データインテグレーション、リアルタイム解析、バッチ処理、データ出力に用いることができる。 Spring XDのゴールはビッグデータの複雑さに対応することである。 実世界のビッグデータアプリケーション構築における複雑さは 主に複数の異なるシステムを様々なユースケースをまたいで一つのシステムに結合しようとするところから生じている
こんにちは。 前回、前々回でApache Spark、Spark Streamingの概要がわかりました。 ですが、内部で使用している共有分散メモリ機構であるResilient Distributed Datasets(RDDs)が 鍵となる割に概要しか資料からはわからなかったため、論文を読むことでもう一段階理解を深めてみます。 読んだ論文は以下です。 「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」 (http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf) あと、内容が理解できればいいので、全文訳というわけではありません。 Abstract 本論文において、プログラマが大規模クラスタ
「また明日から 2 つのデータの差分を目視で見つける仕事が始まるお……」 「ほんとは diff を使って速度も精度も上げたいんだお……」 「でもこの PC には JDK と Eclipse しか入れちゃいけないお……」 「……だから Eclipse を使って diff っぽいツールを自作するお!!」 ほんとは WinMerge とか入れられればいいんですけどね。「WinMerge 入れられない! 入れにくい!!」な環境でなんとかしてみようと思ったわけです。 使うライブラリ Eclipse には「比較エディタ」という機能があり、2 つのファイルの差分を見ることができます。このとき差分検出に使われているライブラリ (というかプラグイン) は、classpath を通せば、自分のアプリケーションからも使えるっぽいです。 Eclipse 3.2 の場合でいうと、plugins ディレクトリにあるこ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く