サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
体力トレーニング
www.techcrowd.jp
ElasticCacheではmemcachedとredisの2つのエンジンをサポートしています。 memcachedとredisの特徴を把握して、適切なエンジンを選ぶことが大切です。 memcached ・一時的なキャッシュとして使われる ・ノード間の複製は行わない ・障害が発生するとデータは消える redis ・マスタ・スレーブ型 ・redis自体でデータストアとしても利用可能 ElasticCacheを利用する際のエンジンの選択基準 ElasticCacheではmemcachedとredisの2つのエンジンをサポートしていますが、エンジンの機能に大きな違いがあるので、用途に応じたものを選ぶ必要があります。 memcachedを選択した方が良い場合 ・モデルを簡素にしたい ・複数のコア・スレッドのあるノードを実行する ・スケールアウトまたはスケールインする予定がある ・データベースなどを
KeyとValueだけを組み合わせる単純な構造のKVS(Key-Value Store)はnoSQLの一つのジャンルであり、自由にスケールできるメリットがあります。分散データストアなどに利用されています。 代表的なKVSとしては、memchaed・Redisなどがあり、AWSのサービスではElasticCacheが対応します。 noSQLの一つのジャンルとしてのKVS KVS(Key-Value Store)は、KeyとValueを組み合わせる単純な構造からなるデータストアです。 Keyを指定すると、Keyに関連付けられたValueが呼び出される仕組みとなっています。 KVSの特徴 ・データモデルがシンプルである ・スケールアウトに適した構造をしている ・高速でデータの読み書きが可能 ・分散処理に適している ・トランザクション処理できないものが多い KVSの利用形態 KVSはKeyとVal
データウェアハウスの論理設計を行う時は、スタースキーマ、サロゲートキーというデータウェアハウスの構造を特徴付ける概念を理解しておく必要があります。 BIシステムにおいて大量のデータを扱うデータウェアハウス(DWH)は、整合性を保ちつつ検索処理の速度を向上させる事が重要です。 この要件を満たす論理設計をするためには、DWHの特徴であるスタースキーマとサロゲートキーの仕組みを理解しておかなくてはなりません。 スタースキーマとは、下記のふたつから構成されるスキーマです。 分析対象となる数値データを格納したファクトテーブル 分析の切り口となるデータを格納したディメンジョンテーブル ファクトテーブルを中心として、その周囲にディメンジョンテーブルが星形に関連付けられる事からスタースキーマと呼ばれます。 スタースキーマには、 構造がシンプルである事 データ量を抑える事が出来る などのメリットが存在します
Amazon Kinesis Firehoseを使うと、手軽にストリーミングデータをロードが出来ます AWS Lambdaを使ってシステムを構築すると、Kinesisを効果的に利用出来ます Amazon Kinesis Firehoseを用いたシステム構成 Kinesis使ったシステムのデザインパターンは複数ありますが、最も手軽にストリーミングデータをロード出来るのがAmazon Kinesis Firehoseを利用する方法です。 Amazon Kinesis Firehoseを使えば、AWS マネジメントコンソールを使って簡単に ・Amazon S3 ・Amazon Redshift ・Amazon Elasticsearch Service にストリームを配信する事が出来ます ストリームの送信先に、 ・Amazon S3 バケット ・Amazon Redshift テーブル ・Ama
Amazon EMRを有効に使うには、クラスタやタスクノードの使い方を工夫する必要があります。 クラスタは一時的クラスタと永続的クラスタに分類出来ますが、 ・データのロード時間 ・処理時間 ・ジョブ数 によって、適切なクラスタを使用する事が大切です。 必要な時だけタスクノードを使うようにするとコストを削減し、パフォーマンスの向上が期待出来ます。 Amazon EMRを有効に使う方法 Amazon EMRを有効に使うデザインパターンとして、 ・一時的クラスタと永続的クラスタを使い分ける ・タスクノードの使い方を工夫する などの方法が考えられます。 一時的クラスタと永続的クラスタ ジョブが実行している間だけ動作しているが一時的クラスタで、ジョブに関係なく動作し続けるのが永続的クラスタです。 一時的クラスタは、 ・立ち上がっている期間が短いので、コストを節約出来る ・運用の手間が掛からない など
機械学習では、過学習を防ぐ手段として正則化が行われることが多い 機械学習でよく用いられる正則化には、L1正則化とL2正則化がある 過学習は未知のデータに対応できない原因をつくる 機械学習では大量のデータを扱いますが、偏り過ぎたデータにまで必要以上に対応してしまうという「過学習」の状態に陥る事があります。過学習の状態は、与えた学習データに対しては小さな誤差となるモデルが構築できています。ただし、ごく一部の例外的な学習データに過度に対応したモデルとなっているために、構築した学習モデルを未知データに適用すると必ずしも適切な予測値を返さない状態となります。学習データの中のごく一部の例外的なデータに過度に適用したモデルが構築されている状態ということで「過学習」といいます。 そのため、機械学習では過学習になるのを防ぐために、極端な重みのデータに対してペナルティを与える正則化が用いられます。 過学習を防
データウェアハウス(DWH)は、列指向データベースで大規模なデータ集計や分析に用いられる データウェアハウスとRDBでは、アーキテクチャが異なります。データウェアハウスは列指向DBで大規模なデータの処理を行い、RDBは行単位で入出力を行います そのため、列指向DBを使うデータウェアハウスは、大量のデータの集計処理や分析処理をするのに適しています データウェアハウスとRDBのアーキテクチャ データウェアハウスとRDBでは、アーキテクチャが異なります データウェアハウスは列単位で処理ができる列指向DB RDBは行単位で入出力を行う 集計処理を行う場合は特定の行の値だけ処理をしますが、データウェアハウスとRDBはアーキテクチャの違いから次のように処理速度に差が生じます。 ・データウェアハウスは必要な列のみ読み込むので高速の処理が可能 ・RDBは行全体を読み込んでから必要なデータを取り込むので、処
高性能の機械学習システムを使っていても、データの次元数が大きくなり過ぎると、「次元の呪い」と呼ばれる要因によって効率的に機械学習をさせるのが難しくなります。 「次元の呪い」を回避するためには、データの「次元」(説明変数・パラメータの数)を減らすために、特徴選択・次元削減を行ってデータの次元を減らす必要があります。 次元の呪いとは 大量のデータを分析する時は大きな次元のデータの処理をする事が多くなりますが、次元数が大きくなると次元の呪いと呼ばれる問題が発生する事に注意しなくてはなりません。 次元の呪いとは、データの次元数が大きくなり過ぎると、そのデータで表現できる組み合わせが飛躍的に多くなってしまい、その結果、手元にある有限なサンプルデータでは十分な学習結果が得られなくなることを指しています。 ビッグデータを処理するためのコンピュータシステムを用意している場合でも、機械学習でデータを処理する
デブサミ(Developers Summit)は、多くの講演スライドが公開・共有されますが、すでにアップされているものの中から、ネット上でもコメントされているものなど、ピックアップして紹介します。 Google のインフラ技術から考える理想のDevOps GoogleのCloud Solutions Architectである中井さんの講演です。スライドの最後の「まとめ」にも記載されていますが、「開発」と「運用」の間の「本質的でない依存関係」をなくすことが重要で、そのためには「レイヤーごとの責任分界点を明確」にすることが必要というのが結論ですが、 下記のようなブログに、参加者のコメントが書かれています。 http://ryoichi0102.hatenablog.com/entry/2017/02/16/215936 http://su-kun1899.hatenablog.com/entr
機械学習と統計学の違い 統計学も大量のデータから将来の動向を予測する事もあり近い分野ですが、機械学習と統計学は次のような点で視点が異なる分野です。 ・機械学習は大量のデータを分析して、今後の事を予測するのが主な目的 ・統計学は、データがどのようなものであるのか説明するのが主な目的 教師あり学習と教師なし学習 機械学習に使用されるアルゴリズムは、 ・教師あり学習 ・教師なし学習 に分類する事が出来ます。 Amazon Machine Learningなどで実行できるのは、教師あり学習の「分類」や「回帰分析」などで、一般的に「機械学習」といったときのイメージとしても、教師あり学習をイメージされることが多いかもしれません。 教師あり学習 ・学習用のデータから学習モデルを作り上げる。 ・学習モデルを用いて新たなデータから予測値を出力する。 ・出力するデータ項目があらかじめ決まっている (ex. 予
このページを最初にブックマークしてみませんか?
『AWSの機械学習サービスの使い方』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く