ayaniimi213のブックマーク - はてなブックマーク

Spark / MLlib の K-means を Java から利用してみる | ALBERT Engineer Blog

はじめに先日の Mahout Project からのアナウンス “Goodbye MapReduce” にもあるとおり、今後の大規模データ処理の基盤として Apache Spark がここ最近注目されています。そんな今熱いプロダクトである Spark に関して、その上で動く機械学習ライブラリ MLlib の K-means 実装をわけあって Java から利用してみる機会があったので、その使い方や特性を簡単にまとめてみました。 MLlib の K-means 実装について現時点 (バージョン 0.9.1) での K-means 実装について、簡単に説明します。距離計算は「ユークリッド距離」しか提供されていません。 KMeans#findClosest() → MLUtils.fsuaredDistance() のあたりを読むと分かるかと思います。 Spark の JIRA を見て

ayaniimi213 2015/08/26

リンク

Jubatus のバースト検知を使ってみた話 | ALBERT Engineer Blog

はじめまして。システム開発・コンサルティング部の potter と申します。日頃は smarticA!DMP の運用をしております。さて、 soonraah ガエルの記事を読んで「自分も何かやりたい！」と思い Jubatus というオンライン機械学習向け分散処理フレームワークを使ってみました。今回は先月に新機能として追加されたばかりのバースト検知を試してみます。ではでは、少しの間お付き合い頂けますと幸いです！バースト検知とは？バースト検知って何？という方もいらっしゃるかと思いますが、 Jubatus Blog にも記載されているように「特定のキーワードを含むツイートが突然増えたことを検出する」といったことを可能にする技術です。具体的な例として「金曜ロードショーラピュタでバルス！現象」1について考えてみます。 Twitter ストリーム上のツイート系列を考えた時、「バルス」

ayaniimi213 2014/11/14

リンク

カエルでもわかる！Spark / MLlib でやってみる協調フィルタリング（前編） - ALBERT Engineer Blog

はじめに当ブログでは Apache Spark プロジェクトの機械学習ライブラリ MLlib について何度か取り上げました。 Spark / MLlib の K-means を Java から利用してみる Scala ではじめる Spark / MLlib の単純ベイズ分類器今回のエントリでは MLlib の協調フィルタリングについて書きます。アルゴリズムの簡単な解説と Java からの利用方法、性能評価実験などの話をします。 Spark 1.1.0 が9月にリリースされてからしばらくたってしまいましたが、1.1.0 から実装された機能も紹介します。少し長くなるので前・後編に分かれます。以下では Spark 1.1.0 を想定しますが、このあたりは今も発展中であり、以降のバージョンではまた違う話になっている可能性が高いのでご注意ください。 MLlib における協調フィルタリング

ayaniimi213 2014/11/05

リンク

カエルでもわかる！Spark / MLlib でやってみる協調フィルタリング（後編） - ALBERT Engineer Blog

はじめに前編では MLlib で実装されている協調フィルタリングについて、アルゴリズムの面から解説してみました。いわば理論編です。後編は実践編として Java コードや性能評価実験の結果を見ていきます。 MLlib 協調フィルタリングの実行 MLlib の協調フィルタリング org.apache.spark.mllib.recommendation.ALS を利用する Java のコード例を以下に示します。 import org.apache.spark.api.java.JavaRDD; import org.apache.spark.mllib.recommendation.ALS; import org.apache.spark.mllib.recommendation.MatrixFactorizationModel; import org.apache.spark.mll

ayaniimi213 2014/11/05

リンク

Spark / MLlib の K-means を Java から利用してみる | ALBERT Engineer Blog

はじめに先日の Mahout Project からのアナウンス “Goodbye MapReduce” にもあるとおり、今後の大規模データ処理の基盤として Apache Spark がここ最近注目されています。そんな今熱いプロダクトである Spark に関して、その上で動く機械学習ライブラリ MLlib の K-means 実装をわけあって Java から利用してみる機会があったので、その使い方や特性を簡単にまとめてみました。 MLlib の K-means 実装について現時点 (バージョン 0.9.1) での K-means 実装について、簡単に説明します。距離計算は「ユークリッド距離」しか提供されていません。 KMeans#findClosest() → MLUtils.fsuaredDistance() のあたりを読むと分かるかと思います。 Spark の JIRA を見て

ayaniimi213 2014/05/08

リンク

文字コード地獄秘話第1話：Unicodeにおける全角・半角 - ALBERT Engineering Blog

ごあいさつ皆様はじめまして、文字コードおじさんです。細々とカメラ屋を営んでおりましたが、エンジニアとしての技量を評価され、ALBERTのシステム開発・コンサルティング部で働くことを許されました。特技はサーバーの統廃合です。今回は最初ということですが、Unicodeにおける全角・半角の取り扱いについて触れてみようと思います。なお、さも連載するかのように第1話と銘打っていますが、上層部の無慈悲な裁決によっては1話打ち切りもありえますので、その際はご容赦ください。固定観念を捨てよう「全角50文字、半角100文字まで」といったような文言を見かけたことがあると思います。特にUnicode以前のレガシーな処理系では全角文字に2バイト、それ以外は1バイトという割り当てが慣習となっていました。このため、「全角=2バイト文字、半角=1バイト文字」という観念が世間に定着しているのが現状です。しか

ayaniimi213 2014/04/21

リンク

はてなブックマーク

タグ

ブックマーク / tech.albert2005.co.jp (6)

お知らせ

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス