知念実希人 物語り @MIKITO_777 やはり、1日100万回の接種を何とか達成しないといけませんね。 現在は30万回強。 まだまだ、大規模接種会場やかかりつけ医での接種が十分に始まっていない状態なので、目標は十分に達成可能だと思います。 頑張りましょう! a.msn.com/01/ja-jp/BB1gM… 2021-05-16 20:22:01
![「まさに逆転の発想だ!」福岡県宇美町が新型コロナウイルスワクチン接種会場で動きの遅い高齢者のために導入した方法が画期的で全国で広まって欲しい!](https://cdn-ak-scissors.b.st-hatena.com/image/square/1f5d945f87a11a7732e8358cecea7e16cd7c1a3d/height=288;version=1;width=512/https%3A%2F%2Fs.togetter.com%2Fogp2%2F7af36386d41741512d7538357985baf3-1200x630.png)
知念実希人 物語り @MIKITO_777 やはり、1日100万回の接種を何とか達成しないといけませんね。 現在は30万回強。 まだまだ、大規模接種会場やかかりつけ医での接種が十分に始まっていない状態なので、目標は十分に達成可能だと思います。 頑張りましょう! a.msn.com/01/ja-jp/BB1gM… 2021-05-16 20:22:01
Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが
当方機械学習素人につき大して興味はなかったものの、実は Jeff Dean 案件だと気付き whitepaper くらいは読むことにした。 ぎもん: Jeff Dean といえば MapReduce や GFS を作った Google の神話級プログラマ。そんな分散インフラの達人がなぜまた深層学習に手を出したのだろう。 わかったこと: TensorFlow は、行列(というかテンソル)に特化したデータフロー・プログラミングの分散実行処理系だった。 データフロー・プログラミングとは、データを受け取り何か計算して結果を誰かに渡す、という単位のオブジェクト(ノード、カーネルなどと呼ぶ)をつなぎ合わせてグラフをつくり、より大きな計算を表現する抽象化のパターン。最近はリアクティブの文脈で目にすることが増えた。 そして MapReduce/Hadoop も今はデータフローの枠組みでコードを書くことが多
Elixirには複数プロセスを使ってアプリケーションを簡単に実装するためのフレームワークであるOTPが用意されています。 OTPを使うとプロセス間のメッセージ通信やエラー時の再起動処理、プロセスの状態管理が非常に簡単に実装できます。 今回はOTPを使ってMapReduceのプログラムを実装してみます。 MapReduce Apache Lucene MapReduceの仕組みが利用されているソフトウェアをご紹介します。 LuceneはJavaで実装されている全文検索エンジンで、Elasticsearchの内部でも使われています。 このLuceneですが、MapReduceの仕組みを使って単語の出現場所のインデックスを生成しています(Luceneの作者は最初、Lispで実装を試したそうです)。 今回はこのMapReduceで文書のインデックスを生成する処理をElixirで実装してみます。 (
こんにちは、オンラインゲームのバックエンド、KPIシステムを担当していますマサヨシです。 先日に引き続き【DMMオンラインゲームで実際に実装しているログとKPI】に関してご紹介する第2回です。 DMMゲームのログ解析~ログ収集と解析の概要~ 第2回はログを実装する際に利用している"Parquet"についてご紹介します。 Parquetとは? こちらは"Parquet"と書くのですが、「パーケイ」と読みます。 Parquetは何かというと、CSVやJSONのようにDBのレコードを格納できるデータフォーマットです。 Parquetはデータフォーマットの中でもカラムナーストレージフォーマットと呼ばれるもので、列方向にデータを格納しています。 そのためカラムへのアクセスが速く、特にSELECT,WHERE,GROUP BYの使用時に効果的です。 また、同じカラムには似たようなデータが格納されている
2015/5/21 Hadoopソースコードリーディング 第19回におけるリクルートテクノロジーズ堀越による発表資料になりますRead less
詳細については後述しますが、MapReduceの処理モデルは、上記の通り各区分ごとにそれぞれ単純化(限定)されたモデルであったと言えます。 また、MapReduceの関数プログラミングおよびグラフ的な特徴も合わせて以下に整理してみます。 関数プログラミング的な特徴 MapおよびReduceフェーズは、それぞれ関数型プログラミングのMapおよびReduce処理をモデル化したものです。MapReduceは、参照透過性がある純粋な関数処理と言えます。参照透過性とは入力により出力が一意に決まる性質のことです。言い換えればMapReduceの処理は、大域などの処理に影響する外部の環境は持たず、内部的にも静的な一時変数などの状態も持たないことを意味します。 純粋な関数処理は複数の処理が同時に実行されても他の並列に動作している処理の状態には左右されないため、この参照透過性は並列化に向いている性質がありま
この記事はBloomReachの主席エンジニア、Chou-han Yangによるものです。 MapReduceの最大の利点は、非常に高い演算性能と巨大なストレージを瞬時に手に入れられることです。これは、子供が前から大好きだった遊びに、新しいおもちゃを加えられないか、と考えるようなものだと私は思います。長い間楽しんできた遊びに対して、新しい遊び方を思いついたとしたら、とても興奮しますよね。 このことから私は、シングルプロセスのプログラムを書く時によくやることを改めて思い出します。つまり、MapReduceフレームワークに合わせるにはプロセス全体を徹底的に調査しなければならないということです。特にHadoopは、スムーズに実行するために慎重な調整が必要となるからです。 この記事では、簡単な例を見てみましょう。サイズが不明の非常に大きなデータセットからn個の要素をサンプリングします。非MapRe
The aim of this test is to get a count of each type of variant/genotypes in a VCF file using Apache Hadoop and the java library for NGS htsjdk. My source code is available at: https://github.com/lindenb/hadoop-sandbox/blob/master/src/main/java/com/github/lindenb/hadoop/Test.java. First, and this is my main problem, I needed to create a class 'VcfRow' that would contains the whole data about a vari
ブログの総集編です。下記にあるリンクを参照してください。 Hadoopを使ってみたい! 新しく何かを始めようと思った時、面倒だなぁと思うことは多いものです。書籍やブログをみて「これは役立ちそうだ」と思っても、ちょっと試すことにさえにも辿り着けず、頓挫しているものがTODOリストやPocket(旧Readitlater)に大量にあります。 #書いていて嫌な気持ちになってきた、、、 Hadoopはそんな面倒なものの一つかもしれません。書籍を読んで「よし、やってみるか」という強い決意を持ったすぐ後、 「試すにはマシンを買わないといけないのかなぁ」 「いや、EC2でいけそう。アカウントどうしようか」 「なんか仮想マシンでもできそうって書いてある」 という第一の壁があります。 運良く壁を乗り越えたあと、 「ソフトはどこからダウンロードすればいいだっけ?」 「コマンドラインでやるの?」 「設定面倒そう
import cv2 import numpy as np from matplotlib import pyplot as plt import os # edges.py reads an image and outputs transformed image def make_edges(image): img = cv2.imread(image) tail = os.path.split(image)[1] edges = cv2.Canny(img,100,200) plt.imsave(os.path.join("/pfs/out", os.path.splitext(tail)[0]+'.png?as=webp'), edges, cmap = 'gray') # walk images directory and call make_edges on every file
こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。 ・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、 とりあえず資料や論文を読んでみることにしました。 まず見てみた資料は「Overview of Spark」(http://spark.incubator.apache.org/talks/overview.pdf)です。 というわけで、読んだ結果をまとめてみます。 Sparkとは? 高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは? 以下の2つの解析ユースケースにより適合するようMapReduceを拡張
Riding the wave of the generative AI revolution, third party large language model (LLM) services like ChatGPT and Bard have swiftly emerged as the talk of the town, converting AI skeptics to evangelists and transforming the way we interact with technology. For proof of this megatrend look no further than the instant success of ChatGPT, […] Read blog post
Hadoop Summit 2012でClouderaの人が発表した資料を見つけたのではっておく。 Hadoop Summit 2012 | Optimizing MapReduce Job Performance View more PowerPoint from Cloudera, Inc. HadoopのMapReduceジョブのチューニングに関するもので、内容的にはHadoop徹底入門の10章の「性能向上のためのチューニング」と若干かぶっているが参考になります。 spillとかのシャッフルフェーズをどうチューニングするかについて詳しく書かれていて、record fullってログに出てたらメタデータがspillしてるからよくないよねみたいなことが書かれてます。 徹底入門だと10.2.2の「Map処理でのフレームワークのチューニング」に書かれていますね。ていうかio.sort.reco
The ongoing progress in Artificial Intelligence is constantly expanding the realms of possibility, revolutionizing industries and societies on a global scale. The release of LLMs surged by 136% in 2023 compared to 2022, and this upward trend is projected to continue in 2024. Today, 44% of organizations are experimenting with generative AI, with 10% having […] Read blog post
Ilya Katsov氏による「MapReduce Patterns, Algorithms, and Use Cases」の翻訳 http://highlyscalable.wordpress.com/2012/02/01/mapreduce-patterns/ (下書きに入れて推敲するつもりが、なんか公開されてしまっていたので、あとでいろいろ修正すると思います) February 1, 2012 この記事では、Webや科学論文で見られる異なるテクニックの体系的な視点を与えるために、数々のMapReduceパターンとアルゴリズムをまとめた。 いくつかの実用的なケーススタディも提供している。 すべての説明とコードスニペットでは、Mapper、Reducer、Combiner、Partitionaer、ソーティングにおいてHadoopの標準的なMapReduceモデルを利用します。このフレー
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く