chezouのブックマーク - はてなブックマーク

カエルでもわかる！Spark / MLlib でやってみる協調フィルタリング（前編） - ALBERT Engineer Blog

はじめに当ブログでは Apache Spark プロジェクトの機械学習ライブラリ MLlib について何度か取り上げました。 Spark / MLlib の K-means を Java から利用してみる Scala ではじめる Spark / MLlib の単純ベイズ分類器今回のエントリでは MLlib の協調フィルタリングについて書きます。アルゴリズムの簡単な解説と Java からの利用方法、性能評価実験などの話をします。 Spark 1.1.0 が9月にリリースされてからしばらくたってしまいましたが、1.1.0 から実装された機能も紹介します。少し長くなるので前・後編に分かれます。以下では Spark 1.1.0 を想定しますが、このあたりは今も発展中であり、以降のバージョンではまた違う話になっている可能性が高いのでご注意ください。 MLlib における協調フィルタリング

chezou 2015/07/09

recommendation

リンク

Jubatus のバースト検知を使ってみた話 | ALBERT Engineer Blog

はじめまして。システム開発・コンサルティング部の potter と申します。日頃は smarticA!DMP の運用をしております。さて、 soonraah ガエルの記事を読んで「自分も何かやりたい！」と思い Jubatus というオンライン機械学習向け分散処理フレームワークを使ってみました。今回は先月に新機能として追加されたばかりのバースト検知を試してみます。ではでは、少しの間お付き合い頂けますと幸いです！バースト検知とは？バースト検知って何？という方もいらっしゃるかと思いますが、 Jubatus Blog にも記載されているように「特定のキーワードを含むツイートが突然増えたことを検出する」といったことを可能にする技術です。具体的な例として「金曜ロードショーラピュタでバルス！現象」1について考えてみます。 Twitter ストリーム上のツイート系列を考えた時、「バルス」

chezou 2014/11/14

jubatus

リンク

カエルでもわかる！Spark / MLlib でやってみる協調フィルタリング（後編） - ALBERT Engineer Blog

はじめに前編では MLlib で実装されている協調フィルタリングについて、アルゴリズムの面から解説してみました。いわば理論編です。後編は実践編として Java コードや性能評価実験の結果を見ていきます。 MLlib 協調フィルタリングの実行 MLlib の協調フィルタリング org.apache.spark.mllib.recommendation.ALS を利用する Java のコード例を以下に示します。 import org.apache.spark.api.java.JavaRDD; import org.apache.spark.mllib.recommendation.ALS; import org.apache.spark.mllib.recommendation.MatrixFactorizationModel; import org.apache.spark.mll

chezou 2014/11/05

🐸

リンク

文字コード地獄秘話第2話：聖母マリアよ、二人を何故別々に？ | ALBERT Engineer Blog

はじめに二人を最初から一つにしておけば、何も問題など起こらなかったのだ。一つのものを二つに分けたその時から、長い物語が始まる。おや？また会いましたね。どうも、文字コードおじさんです。もう半年近くも前になりますが、前回の投稿はだいぶ反響があったようで驚いております。ありがとうございます。今回も文字コードネタですが、Unicodeにおける結合文字列を取り上げてみようと思います。高度に発達した文字コードは地獄と見分けがつかない次の画像はTwitterの投稿フォームですが、おかしな点があります。わかりますか？そうです。4文字しか入力していないはずなのに 5文字分とカウントされていますね。おかしいと思いませんか？あなた？改行とかスペース入れてるんじゃねーだろうな？とか言わないで下さいね？さらに次の画像を見てみてください。こちらは4文字とカウントされていますね。先のものとは一体

chezou 2014/10/24

ん、index作成時と検索時にNKFCで正規化しておけば良い話では？

リンク

Spark / MLlib の K-means を Java から利用してみる | ALBERT Engineer Blog

はじめに先日の Mahout Project からのアナウンス “Goodbye MapReduce” にもあるとおり、今後の大規模データ処理の基盤として Apache Spark がここ最近注目されています。そんな今熱いプロダクトである Spark に関して、その上で動く機械学習ライブラリ MLlib の K-means 実装をわけあって Java から利用してみる機会があったので、その使い方や特性を簡単にまとめてみました。 MLlib の K-means 実装について現時点 (バージョン 0.9.1) での K-means 実装について、簡単に説明します。距離計算は「ユークリッド距離」しか提供されていません。 KMeans#findClosest() → MLUtils.fsuaredDistance() のあたりを読むと分かるかと思います。 Spark の JIRA を見て

chezou 2014/05/08

spark
MLib

リンク

#CROSS2014 「機械学習 CROSS」セッションでお話しました | ALBERT Engineer Blog

はじめにさる 1/17（金）に開催された CROSS 2014 の「機械学習 CROSS」にパネラーとして登壇し、マーケティング分野における機械学習の活用状況について語ってきました。このエントリでは、同セッションで語ったことを整理し、また語りきれなかったディスカッショントピックについて、わりと個人的な想いを綴っています。なお、セッション中のツイートは機械学習CROSSまとめこちらにまとめられていますので、あわせてご覧いただけると幸いです。また、セッションオーナーの PFI 比戸さんや、パネラーとして同席された FFRI 村上さん、CROSS のセッションレポーターによるレポート記事が各種ブログ・メディアに掲載されています。機械学習CROSSをオーガナイズしました機械学習時代がやってくる――いいソフトウェアとマルウェアの違いは？「機械学習CROSS」レポート他のパネラーのご

chezou 2014/01/20

“機械学習のアウトプットに対して、ドメイン知識を用いたルールベースのフィルタリングなどを加えた上で、顧客に提供するのが適切な結果になる場合が私の経験上、多いように思われます。”

machine learning

リンク

はてなブックマーク

タグ

ブックマーク / tech.albert2005.co.jp (6)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス