Join AWS Hybrid Cloud & Edge Day to Learn How to Deploy Your Applications in the Everywhere Cloud In his keynote of AWS re:Invent 2021, Dr. Werner Vogels shared the insight of how “the everywhere cloud” is bringing AWS to new locales through AWS hardware and services and spotlighted it as one of his tech predictions for 2022 and beyond in his blog post. “What we will see in 2022, and even more […]
Spark上で実行されるmahout sparkのモジュールに、mllibと呼ばれる機械学習ライブラリが含まれていますが、mahoutもsparkに対応しました。 ただし、mahoutサイトにも記載されていますが、 Please keep in mind that this code is still in a very early experimental stage まだ実験段階のようですので感じだけでもつかめたらと思います。 今回、Playing with Mahout's Spark Shellを参考にspark-shell上でのmahoutの実行環境を構築しました。 Install 予めインストールしておくもの oracle JDK 7以上 maven 3.2.x以上 subversion Apache sparkのインストール 今回はcdh5のApache sparkをインスト
よく訓練されたアップル信者、都元です。Hadoop使ってますか。試しにHadoopを使ってみよう、と思った時に主に障害となるのが以下の3つです。 Hadoopのクラスタを組むために実機を複数用意するのが厄介。それをクラスタとして組み上げるのも厄介。 Hadoopの上で動かすアプリケーションをMapReduceで書くのが厄介。 Hadoopで処理するほどのビッグデータを用意するのが厄介。 1つ目はAmazon Elastic MapReduce (EMR)を使う事でスマートに解決しましょう。 2つ目については、オープンソースのMapReduceアプリケーションを使います。私が強い興味を持っている分野に「機械学習」というものがあります。機械学習とは、コンピュータにデータを分析させ、未知の情報についての予測をさせたり、人間の知能に近い機能を実現しようという試みです。今回は、この機械学習の各種アル
『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day
はじめに 大規模なデータをリアルタイムで分析するのフレームワークの一つに、Apache Sparkがあります。色々な特徴があるかと思いますが、 Apache Sparkについての特徴を公式ページより抜粋すると Apache Spark™ is a fast and general engine for large-scale data processing. Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk. Write applications quickly in Java, Scala or Python. とあります。 今回はこのApache SparkをMac上で動かす方法について書きたいと思います。 実行環境作成 では、手順です。先にも書いた通りMacで実行
前回はHadoopのインストールで、今回がいきなり実用的な内容で、ちょっと基礎を飛ばしてますが、気にしない。 レコメンドというと、パッと思いつくのはAmazonのレコメンドではないでしょうか。 商品を見ていると、「この商品を買った人はこれも一緒に買っています。」といった感じの物ですね。 今回はこのレコメンドを簡単に実装する方法を探ってみます。 まず、解析後に欲しいデータとして あるアイテム(item1)に対して、関連するアイテム(item2,item3,item4)をひもづけるデータです。 データベースに入れて使える状態で言うと (ユーザが今開いたアイテムのID), (ユーザが開いたアイテムに関連するアイテムのID) item1, item2 item1, item3 item2, item4 … というキーバリューのペアです。 この結果を得るために必要な情報ですが ユーザ毎にアクセスした
For Creating Scalable Performant Machine Learning Applications Download Mahout Apache Mahout(TM) is a distributed linear algebra framework and mathematically expressive Scala DSL designed to let mathematicians, statisticians, and data scientists quickly implement their own algorithms. Apache Spark is the recommended out-of-the-box distributed back-end, or can be extended to other distributed backe
# libsvm datasetから適当なデータを取ってくる wget http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary/duke.bz2 # 解凍 bzip2 -dc duke.bz2 > duke # vw用にデータを加工 cat duke | sed -e 's/^1.000000 /1.f |/1' -e 's/^-1.000000 /-1.f |/1' > duke_vw # lassoの実行 your directory/vowpal_wabbit/utl/vw-varinfo --sgd -l 2 --loss_function logistic --l1 0.0000001 --normalized duke_vw FeatureName HashVal MinVal MaxVal Weight Re
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く