タグ

2016年4月8日のブックマーク (5件)

  • 高卒でもわかる機械学習 (1) 識別関数の前知識

    教師あり学習 大量のメールがあって、それぞれ人間の目でSPAMかどうかが判定済みであるとします。 それらのメールの何となくSPAMっぽい2単語「主人」「オオアリクイ」に注目し、各メールにそれらの単語が何回出てくるかを数えてグラフにプロットしたら下記のようになったとします。 (「主人」出現回数を、「オオアリクイ」出現回数をとおきます。) 何だか、グラフ中に直線を引けばSPAMとそうでないメールを分けられそうだと思いませんか。 そしてその直線を基準にすれば、未判定のメールがSPAMなのかどうかも判断できそうな気がしませんか。 これが識別関数による教師あり学習の基です。 教師あり学習では、教師データと呼ばれるデータをたくさん読み込ませて機械に学習させます。 教師データというのは「パラメータと正解ラベルの組」です。今回の例でいくとパラメータとは「主人」「オオアリクイ」という単語の数、正解ラベルと

    高卒でもわかる機械学習 (1) 識別関数の前知識
    kimutansk
    kimutansk 2016/04/08
    このベースの上で、実際に様々な空間を線形分離可能かどうかは、元パラメータの設計になってくるわけですか。
  • [AdTech Scala Meetup] Apache Sparkについて情報共有 | Scala Tech Blog

    こんにちは、CA ProFit-Xという広告サービスを開発している塚です。 先日、第9回 AdTech Scala Meetupを開催しました。今回はApache Sparkの情報共有を行いましたので、その様子を少しご紹介します。 Spark Streaming Snippets 一人目はSmalgoチームの阿川さんでした。 Spark Streamingのコードスニペットを交えて、SmalgoがどのようにSpark Streamingのコードを書いているかについて発表されていました。 私事ですが、最近Spark Streamingの利用を検討していましたので、非常にタイミングの良い発表でした。参考になります。 Spark SQL Thrift JDBC Server 二人目は私、塚で、Spark SQLのThrift JDBC Server機能について発表しました。 色々とSpark

    kimutansk
    kimutansk 2016/04/08
    外部接続の抽象化はやはりこんな感じになりますか。情報を送ってExecutorで具現化するのは分散システムだとおなじみですが、Sparkはちと書き方に癖は出ますね。
  • Pig on Tez / Hive on Tez メモ - 一歩一歩

    kimutansk
    kimutansk 2016/04/08
    Pigビルド時にTezのバージョンも指定する方式ですか。0.15系だとどうなってるんでしょうか・・・
  • Cloudera Blog

    kimutansk
    kimutansk 2016/04/08
    Pig0.15系、Tez上での性能調整と、Hive UDFの読み込みと。で、Yahooで Pig on Tezがプロダクションに入ってましたか。
  • Pig on Tez: Low Latency Data Processing with Big Data

    kimutansk
    kimutansk 2016/04/08
    Pigは多段MR起動しますから、Tezのコンテナ再利用というアプローチとは相性がいい。実行時間は5~7割になる位ですが、スクリプトそのままで実現は大きいです。で、Zero Pain Deployと。