サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
TGS2024
ampcamp-ja.readthedocs.io
4. MLlib(機械学習) この章では「パーソナライズされた映画のリコメンド」という実例を通じて機械学習を学びます。 ここで使用するデータは、MovieLensによって取得された、ユーザが実際に映画を評価したデータ群で、以下のような規模のものです。 リコメンド総数:約1,000万件 ユーザ数:約72,000ユーザ 映画の種類:約10,000本 上記のデータは、training/data/movielens/largeに格納されています。 また高速に処理を行うためにデータ規模を小さくしたものがtraining/data/movielens/mediumに格納されています。 このデータは以下のような規模にそれぞれ縮小したデータセットです。 リコメンド総数:約100万件 ユーザ数:約6,000ユーザ 映画の種類:約4,000本 4-1. データセットの説明 training/data/movi
Docs » 目次 Edit on GitHub はじめに Spark SQL Sparkストリーミング MLlib(機械学習) GraphX SparkR パイプラインを使ってイメージ解析 Read the Docs
5. GraphX GraphXとはウェブグラフやソーシャルネットワークなどのグラフ作りとページランクや協調フィルタリングなどのグラフ並列計算処理を行う新しいAPIです。 GraphXはSparkの基本抽象概念であるRDD(耐久的分散データセット)を拡張した耐久的分散プロパティグラフを扱います。 耐久的分散プロパティグラフは辺と頂点に特性が付いた有向多重グラフです。 GraphXはグラフ並列計算として重要な操作であるサブグラフ作り、頂点併合、近接集約などをサポートします。 その他にも最適化された状態でPregelAPIに相似した物もサポートし、進行形で増加中のグラフアルゴリズムやグラフ分析を簡潔にするビルダーを含んでいます。 この章では、GraphXを使ってウィキぺディアのデータを分析するグラフアルゴリズムをSpark内で実行します。GraphXのAPIは現状ではScalaでしか動きません
このページを最初にブックマークしてみませんか?
『ampcamp-ja.readthedocs.io』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く