Private content!This content has been marked as private by the uploader.
Private content!This content has been marked as private by the uploader.
Machine Learning Library (MLlib) MLlib is Spark’s scalable machine learning library consisting of common learning algorithms and utilities, including classification, regression, clustering, collaborative filtering, dimensionality reduction, as well as underlying optimization primitives, as outlined below: Data types Basic statistics summary statistics correlations stratified sampling hypothesis te
はじめに 当ブログでは Apache Spark プロジェクトの機械学習ライブラリ MLlib について何度か取り上げました。 Spark / MLlib の K-means を Java から利用してみる Scala ではじめる Spark / MLlib の単純ベイズ分類器 今回のエントリでは MLlib の協調フィルタリングについて書きます。 アルゴリズムの簡単な解説と Java からの利用方法、性能評価実験などの話をします。 Spark 1.1.0 が9月にリリースされてからしばらくたってしまいましたが、1.1.0 から実装された機能も紹介します。 少し長くなるので前・後編に分かれます。 以下では Spark 1.1.0 を想定しますが、このあたりは今も発展中であり、以降のバージョンではまた違う話になっている可能性が高いのでご注意ください。 MLlib における協調フィルタリング
In this chapter, we will use MLlib to make personalized movie recommendations tailored for you. We will work with 10 million ratings from 72,000 users on 10,000 movies, collected by MovieLens. This dataset is pre-loaded in your USB drive under data/movielens/large. For quick testing of your code, you may want to use a smaller dataset under data/movielens/medium, which contains 1 million ratings fr
はじめに 以前のエントリにて Spark / MLlib の K-means を取り上げましたが、今回は同じく MLlib にて提供されている機械学習アルゴリズムの一つ、 単純ベイズ分類器 (Naive Bayes, ナイーブベイズ) を使ってみましょう&K-分割交差検証をしてみましょう、 というエントリです。 単純ベイズ分類器そのものについては読者の皆様はご存知、という前提でこの後の話を進めてしまいますので、 「ちょっと良くわからないよ待ってくれ!」という方は 単純ベイズ分類器 – Wikipedia 第3回 ベイジアンフィルタを実装してみよう:機械学習 はじめよう|gihyo.jp … 技術評論社 第8回 自由回答式アンケートで顧客の声を聞くための考え方:Mahoutで体感する機械学習の実践|gihyo.jp … 技術評論社 などのページを一読することをおすすめします。 単純ベイズ分類
Ease of use Usable in Java, Scala, Python, and R. MLlib fits into Spark's APIs and interoperates with NumPy in Python (as of Spark 0.9) and R libraries (as of Spark 1.5). You can use any Hadoop data source (e.g. HDFS, HBase, or local files), making it easy to plug into Hadoop workflows. data = spark.read.format("libsvm")\ .load("hdfs://...") model = KMeans(k=10).fit(data) Performance High-quality
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く