[B! mllib] yukimori_726のブックマーク

Spark MllibでのClick through rate(CRT) 予測 - Qiita

１年以上も前ですが、edXのScala ble Machine learningを受講していた時のコードが出てきたので、見直してみました。この講座のネタが、KaggleのCriteoのコンペのデータを基にしたCTR予測でして、One-hot-encodingやhushingした高次元のデータを Mllibのロジスティック回帰モデルで予測をするといったものです。今回は予測精度そのものよりも、ハッシュ関数で次元圧縮したものが、OHE化したデータと比べてどの程度予測精度に差が出るのかを見ていきます。 Sparkもかなり前のバージョンだったので、今ならまた違う実装の仕方があるような気もしますが、出来合いの機能に頼らずに実装したことで理解が深まった記憶があるので、そのまんま。追加機能の勉強兼ねた比較はまた別のタイミングで行いたいなと思います。 SparkはVirtualbox上にたてたUbuntuに

yukimori_726 2016/05/23

リンク

Spark環境の構築と運用の煩わしさを排除し、分析に専念できるSpark環境の選択肢

IBMシステムズハードウェア事業本部ソリューション事業部先進テクノロジー・センターシニアITスペシャリスト　藤岡英典氏この発表以降、IBMでは自社ソフトウェア製品をSparkに対応させ、さらに自社のクラウドサービスであるBluemix上でSparkを利用できる「Spark as a Service」の提供もいち早く開始した。「IBMでは、すでに世界の3,500名を越えるエンジニアを、Sparkに関わるプロジェクトに投入しています。米国サンフランシスコには『Sparkテクノロジー・センター』も開設し、データサイエンティストや開発者とのコミュニケーションの場となっています。実はIBMがテクノロジー・センターを開設するのは、Java、Linuxに続いてSparkが3つ目です。IBMは、それだけSparkが企業ITインフラにとって価値が高いと期待しているのです」（藤岡氏） Spark

yukimori_726 2016/05/23

spark
mllib

リンク

Sparkで始めるお手軽グラフデータ分析

『詳解 Apache Spark』出版記念イベント LT資料 http://connpass.com/event/30375/Read less

yukimori_726 2016/05/23

spark
mllib

リンク

spark.ml の API で XGBoost を扱いたい！#shokaispark

『詳解 Apache Spark』出版記念イベントでの発表資料です。 http://connpass.com/event/30375/

yukimori_726 2016/05/22

リンク

2016-04-24 - sfchaos blog

技術評論社から近々刊行される「詳解Apache Spark」をご恵贈いただきました．ありがとうございます！詳解 Apache Spark 作者: 下田倫大,師岡一成,今井雄太,石川有,田中裕一,小宮篤史,加嵜長門出版社/メーカー: 技術評論社発売日: 2016/04/29メディア: 大型本この商品を含むブログ (5件) を見る Amazonの発送は4月29日からのようですが，都内のジュンク堂や紀伊國屋，書泉ブックタワーなどの大型書店では既に先行販売されているようです．是非手に取ってみてください．総評本書は，大規模並列分散基盤のApache Sparkについて，豊富な実践例を交えながら基本的なコンセプトや使用方法が解説された書籍です．この分野の第一線で実際に業務で使用している方々が，わかりやすく執筆されています．Sparkを使う必要があったりどんなものか知ってみたいと思ったりしているエ

yukimori_726 2016/04/28

リンク

Sparkでレコメンドエンジンを作ってみた

2016/12/21の「市ヶ谷Geek★Night#11【Spark勉強会】ChristmaSpark」の登壇資料です。

yukimori_726 2016/04/23

リンク

詳解 Apache Spark

2016年4月29日紙版発売 2016年4月29日電子版発売下田倫大，師岡一成，今井雄太，石川有，田中裕一，小宮篤史，加嵜長門　著 B5変形判／352ページ定価3,960円（本体3,600円＋税10%） ISBN 978-4-7741-8124-0 Gihyo Direct Amazon 楽天ブックスヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ楽天kobo honto この本の概要 Apach Sparkはより高速にビッグデータを処理するための分散処理フレームワークです。 SQLインターフェースや機械学習などの機能が標準で組み込まれ，バッチ処理だけでなくストリーミング処理や対話的な処理にも対応できるため，さまざまなシーンのデータ分析を強力にサポートします。本書では，Sparkの分散処理の基礎であるRDDのしく

yukimori_726 2016/04/15

リンク

話題になっているトピックを抽出 - LDA with Spark MLlib - Qiita

LDA (Latent Dirichlet Allocation) は機械学習により大量のテキストデータから何がトピック (話題) となっているかを推測します。より具体的には文書集合内の単語の出現頻度 (Bag of Words) を特徴ベクトルとしてクラスタリングを行い、クラスタごとに中心に近い単語を抽出します。例えば最近トレンドになっているキーワード (Twitter のトレンドのようなもの) や、サポートメールに含まれる単語から最近多い問い合わせのネタを抽出するようなケースで利用できます。機能 Spark MLlib 1.6.0 の LDA では以下の機能が実装されています。文書集合に含まれている単語を k 個のトピック (クラスタ) に分類。あるトピックに含まれている (トピックを特徴付けている) 単語を重み付けし上位を抽出: LDAModel#discribeTopics

yukimori_726 2016/03/11

リンク

【デブサミ2016】18-B-5レポート　Apache Sparkを利用した「つぶやきビッグデータ」クローンとリコメンドシステムの構築

GMOインターネット株式会社次世代システム研究室アーキテクト　野田純一氏（講演資料はSlideShareを参照してください）まず始めに野田氏は、「『つぶやきビッグデータ』ってご存知ですか？」と会場の参加者にアンケートを取りました。これはNHKのテレビ番組内の企画の一つとして放送されているもので、NTTデータ社が作成しています。野田氏はこれをSparkで作ってみよう！　と思い立ち、プロジェクトを進めていきました。 SparkおよびSpark Streamingについて今回のシステムを構築する上で活用する「Spark」ですが、Hadoopエコシステムの一部として扱われるものの、直接Hadoopと関係しているわけではありません。Sparkについては、RDD（Resilient Distributed Dataset）という抽象化データセットを技術基盤とし、HadoopのMapReduc

yukimori_726 2016/03/11

spark
mllib

リンク

Power Iteration Clustering (ICML2010) - Laplace's Demon

2015/07/12 追記 @tmaeharaさんのコメントを追加。論文100本ノック #2 Lin, Frank, and William W. Cohen. “Power Iteration Clustering.” Proceedings of the 27th International Conference on Machine Learning (ICML-10), June 21-24, 2010, Haifa, Israel. 2010. http://www.icml2010.org/papers/387.pdf Abstract ICML2010で発表された論文。Power Iteration Clustering(PIC)はべき乗法を用いて最大固有ベクトルを求める。その際に収束させないことでベクトル$v$に複数本の固有ベクトルが混在させることで、一本のベクトルから有

yukimori_726 2016/03/02

リンク

機械学習ライブラリ「Spark MLlib」で作るアニメレコメンドシステム

PFN執行役員ロボットソリューションズ担当VPの海野裕也が、2021年7月6日の東京大学大学院情報理工学系研究科戦略ソフトウェア特論（稲葉真理先生）にオンライン登壇し、「ロボットで世界を計算可能にするー計算機の中の世界と、現実世界のすりあわせ」と題して、PFNのロボット関連技術や自然言語処理技術についてお話しさせていただきました。講義動画はこちらです　https://youtu.be/73W_rJLlfw8

yukimori_726 2016/02/28

リンク

Latent Dirichlet Allocation ゆるふわ入門 - あらびき日記

この記事は abicky.net の Latent Dirichlet Allocation (LDA) ゆるふわ入門に移行しました

yukimori_726 2016/02/23

リンク

データ分析チームの振り返り

2018/10/5 に開催された Analytics Architecture Night - Tokyo の発表資料です https://analyticsarchitecturenighttoky.splashthat.com/

yukimori_726 2016/02/22

spark
mllib

リンク

【機械学習】iPython NotebookでSparkを起動させてMLlibを試す - Qiita

SparkをiPython Notebook(Jupyter)で動作させ、MLlibを動かしてみるテストです。クラスタリング（KMeans）、分類:Classification（SVM, ロジスティック回帰, Random Forest）をirisデータで試しました。環境 OS: Mac OSX Yosem ite 10.10.3 Spark: spark-1.5.0-bin-hadoop2.6 Python: 2.7.10 |Anaconda 2.2.0 (x86_64)| (default, May 28 2015, 17:04:42) 本稿では上記の環境で行ったものを記載していますので、他の環境では設定が異なる場合もあるかと思いますのでご注意ください。 1. Sparkバイナリのダウンロード&配置 http://spark.apache.org/downloads.html から s

yukimori_726 2016/02/01

リンク

DSP開発におけるSpark MLlibの活用

11/27に行われたRCO study night (https://atnd.org/events/72146)の資料ですRead less

yukimori_726 2016/01/16

spark
mllib

リンク

[今の最新] sbt-assembly 0.14.1 + spark 1.5.2 でとりあえずspark-submitできるjarを作る設定ファイル - Qiita

[今の最新] sbt-assem bly 0.14.1 + spark 1.5.2 でとりあえずspark-submitできるjarを作る設定ファイルScalaSparksbt name := "spark_collaborative_filtering_for_tweet_anime" //自分のアプリ名にする version := "1.0" scalaVersion := "2.11.7" libraryDependencies ++= Seq( ("org.apache.spark" %% "spark-core" % "1.5.2"). exclude("org.mortbay.jetty", "servlet-api"). exclude("com.google.guava","guava"). exclude("org.apache.hadoop","hadoop-yarn-a

yukimori_726 2016/01/15

spark
mllib

リンク

はじめての word2vec with Spark - Qiita

この記事は， Spark, SQL on Hadoop etc. Advent Calendar 2014 - Qiita の 12 月６日のための記事です．今回の記事では，最近話題になっている word2vec の Apache Spark 実装を EC2 上で動かす方法について解説します． word2vec とは？自然言語処理に新風を巻き起こしたWord2Vecとは何か - 日経BigData の説明を拝借すると，word2vec とはつぎのような説明になります Word2Vecは、その名前の表す通り、単語をベクトル化して表現するする定量化手法である。例えば日本人が日常的に使う語彙数は数万から数十万といわれるが、Word2Vecでは各単語を200次元くらいの空間内におけるベクトルとして表現する。それぞれの単語を200個の要素の組み合わせとして表現するため、このような手法は「分散表

yukimori_726 2016/01/15

リンク

spark naive bayes 実験メモ - Qiita

import org.apache.spark.mllib.classification.{NaiveBayes, NaiveBayesModel} import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.LabeledPoint import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.feature.HashingTF val htf = new HashingTF(10000); val pos_data = sc.textFile("test_pos.txt").map { text => new LabeledPoint(0, htf.transf orm(text.split

yukimori_726 2016/01/15

spark
mllib

リンク

【機械学習】Spark MLlibをPythonで動かしてレコメンデーションしてみる - Qiita

Sparkシリーズ第２弾です。今度はMLlibを使って協調フィルタリングを用いたレコメンデーションの実装を行います。第一弾【機械学習】iPython NotebookでSparkを起動させてMLlibを試す http://qiita.com/kenmatsu4/it ems/00ad151e857d546a97c3 環境 OS: Mac OSX Yosem ite 10.10.3 Spark: spark-1.5.0-bin-hadoop2.6 Python: 2.7.10 |Anaconda 2.2.0 (x86_64)| (default, May 28 2015, 17:04:42) 本稿では上記の環境で行ったものを記載していますので、他の環境では設定が異なる場合もあるかと思いますのでご注意ください。また、基本的にiPython NotebookでのSparkの実行を想定しています。

yukimori_726 2016/01/15

リンク

Apache Sparkを勉強して分散処理できますよ！って言えるようになる　その２ - Qiita

前回はこちらはじめに今日はsparkの標準ライブラリであるMLlibを利用してみます。 sparkにはMLlibを含め、４種類の標準ライブラリがあります。他のライブラリに関しては、こちらを参照ください。 MLlibとは spark上に実装されている機械学習のライブラリです。機械学習の実装はすごくムズカシイのですが、MLlibは割と簡単に試すことができ、サポートしているアルゴリズムも豊富なのでとっつきやすい気がします（私見です）。とりあえず、協調フィルタリングを試してみます。協調フィルタリングについてはこのブログが大変参考になりました。実装手順 1. 必要なライブラリをimportする from pyspark.mllib.recommendation import ALS, MatrixFactorizationModel, Rating

yukimori_726 2016/01/15

spark
mllib

リンク

はてなブックマーク

タグ

関連タグで絞り込む (34)

mllibに関するyukimori_726のブックマーク (44)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス