タグ

ブックマーク / tech.albert2005.co.jp (6)

  • カエルでもわかる!Spark / MLlib でやってみる協調フィルタリング(前編) - ALBERT Engineer Blog

    はじめに 当ブログでは Apache Spark プロジェクト機械学習ライブラリ MLlib について何度か取り上げました。 Spark / MLlib の K-means を Java から利用してみる Scala ではじめる Spark / MLlib の単純ベイズ分類器 今回のエントリでは MLlib の協調フィルタリングについて書きます。 アルゴリズムの簡単な解説と Java からの利用方法、性能評価実験などの話をします。 Spark 1.1.0 が9月にリリースされてからしばらくたってしまいましたが、1.1.0 から実装された機能も紹介します。 少し長くなるので前・後編に分かれます。 以下では Spark 1.1.0 を想定しますが、このあたりは今も発展中であり、以降のバージョンではまた違う話になっている可能性が高いのでご注意ください。 MLlib における協調フィルタリング

    カエルでもわかる!Spark / MLlib でやってみる協調フィルタリング(前編) - ALBERT Engineer Blog
  • Jubatus のバースト検知を使ってみた話 | ALBERT Engineer Blog

    はじめまして。 システム開発・コンサルティング部の potter と申します。日頃は smarticA!DMP の運用をしております。 さて、 soonraah ガエルの記事を読んで「自分も何かやりたい!」と思い Jubatus という オンライン機械学習向け分散処理フレームワーク を使ってみました。今回は先月に新機能として追加されたばかりのバースト検知を試してみます。 ではでは、少しの間お付き合い頂けますと幸いです! バースト検知とは? バースト検知って何?という方もいらっしゃるかと思いますが、 Jubatus Blog にも記載されているように「特定のキーワードを含むツイートが突然増えたことを検出する」といったことを可能にする技術です。 具体的な例として「金曜ロードショー ラピュタでバルス!現象」1について考えてみます。 Twitter ストリーム上のツイート系列を考えた時、「バルス」

    Jubatus のバースト検知を使ってみた話 | ALBERT Engineer Blog
  • カエルでもわかる!Spark / MLlib でやってみる協調フィルタリング(後編) - ALBERT Engineer Blog

    はじめに 前編では MLlib で実装されている協調フィルタリングについて、アルゴリズムの面から解説してみました。 いわば理論編です。 後編は実践編として Java コードや性能評価実験の結果を見ていきます。 MLlib 協調フィルタリングの実行 MLlib の協調フィルタリング org.apache.spark.mllib.recommendation.ALS を利用する Java のコード例を以下に示します。 import org.apache.spark.api.java.JavaRDD; import org.apache.spark.mllib.recommendation.ALS; import org.apache.spark.mllib.recommendation.MatrixFactorizationModel; import org.apache.spark.mll

    カエルでもわかる!Spark / MLlib でやってみる協調フィルタリング(後編) - ALBERT Engineer Blog
    chezou
    chezou 2014/11/05
    🐸
  • 文字コード地獄秘話 第2話:聖母マリアよ、二人を何故別々に? | ALBERT Engineer Blog

    はじめに 二人を最初から一つにしておけば、何も問題など起こらなかったのだ。 一つのものを二つに分けたその時から、長い物語が始まる。 おや?また会いましたね。どうも、文字コードおじさんです。 もう半年近くも前になりますが、前回の投稿はだいぶ反響があったようで驚いております。ありがとうございます。 今回も文字コードネタですが、Unicodeにおける結合文字列を取り上げてみようと思います。 高度に発達した文字コードは地獄と見分けがつかない 次の画像はTwitterの投稿フォームですが、おかしな点があります。わかりますか? そうです。4文字しか入力していないはずなのに 5文字分とカウント されていますね。おかしいと思いませんか?あなた? 改行とかスペース入れてるんじゃねーだろうな?とか言わないで下さいね? さらに次の画像を見てみてください。 こちらは4文字とカウントされていますね。先のものとは一体

    文字コード地獄秘話 第2話:聖母マリアよ、二人を何故別々に? | ALBERT Engineer Blog
    chezou
    chezou 2014/10/24
    ん、index作成時と検索時にNKFCで正規化しておけば良い話では?
  • Spark / MLlib の K-means を Java から利用してみる | ALBERT Engineer Blog

    はじめに 先日の Mahout Project からのアナウンス “Goodbye MapReduce” にもあるとおり、今後の大規模データ処理の基盤として Apache Spark がここ最近注目されています。 そんな今熱いプロダクトである Spark に関して、その上で動く機械学習ライブラリ MLlib の K-means 実装を わけあって Java から利用してみる機会があったので、その使い方や特性を簡単にまとめてみました。 MLlib の K-means 実装について 現時点 (バージョン 0.9.1) での K-means 実装について、簡単に説明します。 距離計算は「ユークリッド距離」しか提供されていません。 KMeans#findClosest() → MLUtils.fsuaredDistance() のあたりを読むと分かるかと思います。 Spark の JIRA を見て

  • #CROSS2014 「機械学習 CROSS」セッションでお話しました | ALBERT Engineer Blog

    はじめに さる 1/17(金)に開催された CROSS 2014 の「機械学習 CROSS」にパネラーとして登壇し、マーケティング分野における機械学習の活用状況について語ってきました。このエントリでは、同セッションで語ったことを整理し、また語りきれなかったディスカッショントピックについて、わりと個人的な想いを綴っています。 なお、セッション中のツイートは 機械学習CROSSまとめ こちらにまとめられていますので、あわせてご覧いただけると幸いです。 また、セッションオーナーの PFI 比戸さんや、パネラーとして同席された FFRI 村上さん、CROSS のセッションレポーターによるレポート記事が各種ブログ・メディアに掲載されています。 機械学習CROSSをオーガナイズしました 機械学習時代がやってくる――いいソフトウェアとマルウェアの違いは? 「機械学習CROSS」レポート 他のパネラーのご

    chezou
    chezou 2014/01/20
    “機械学習のアウトプットに対して、ドメイン知識を用いたルールベースのフィルタリングなどを加えた上で、顧客に提供するのが適切な結果になる場合が私の経験上、多いように思われます。”
  • 1