ブックマーク / rindai87.hatenablog.jp (6)

  • TensorFlow User Group #1を開催しました - 元データ分析の会社で働いていた人の四方山話

    Googleさんのオフィスを借りて10/7に立ち上げたTensorFlow User Group(TFUG)のミートアップを開催させていただきました。 GoogleのGregさん初め、非常に豪華なスピーカーを招いて開催できました。 tfug-tokyo.connpass.com Googleブレインチームのco-founderのGregさんの参戦によりTVの取材が入るなどしました。AIってすごいんすね。(主催者が言うな) また、山口さんの発表中にはみんなでラジオ体操も行い、一体感もかなりある会となったのではと思っています!!! ライブ配信も行いましたので、もし参加できなかった方で興味がある方は御覧ください。なんと濃密な3hだったのか。 TensorFlow User Group #1 Gregさん、山口さん、中原さんの資料は公開されているので合わせてどうぞ。 Gregさんの資料 goo.g

    TensorFlow User Group #1を開催しました - 元データ分析の会社で働いていた人の四方山話
    dayafterneet
    dayafterneet 2016/10/13
    TVで流れたやつだ
  • マハラノビス距離を学んだ - 元データ分析の会社で働いていた人の四方山話

    判別分析に用いられる二つの尺度のうち、線形判別関数でない方がマハラノビス距離である。 ということで、調べてみたけどなんだか難しめな感じ。 マハラノビス距離 - Wikipedia でもそんなに難しくなかった。 マハラノビス距離とは データ分布の広がりを加味した距離のことです。 この辺がユークリッド距離との違いです。 前提条件 マハラノビス距離では、各グループのデータが正規分布に従って存在していると仮定します。 なので、正規分布に従わないデータについてはどうなるんでしょう?って感じですね。 求め方 データの平均との偏差の絶対値を標準偏差で割ります。 標準偏差で割ることで、分布の幅を考慮した距離が求まります。 ただし、これは一変数のときだけです。 マハラノビス距離の意味 マハラノビス距離が大きいということは、正規分布の中心付近から離れているということになります。 なので、マハラノビス距離が大き

    マハラノビス距離を学んだ - 元データ分析の会社で働いていた人の四方山話
  • R meets MongoDB - 元データ分析の会社で働いていた人の四方山話

    最近、割と大きめなデータをRで扱う際に、どのようなソリューションがいいか色々と考えています。 ここでのソリューションは並列計算云々という観点ではなく、大きめのデータから必要なデータをさっくりと用意して、解析フェーズに簡単に入っていくために、という観点です。 1つは有名すぎるbigmemoryというソリューションがあって、これは今後浸透していくんだろうなぁとは思いつつ、bigmemoryではデータ型がbig.matrixという特殊なものになってしまうので、既存のMatrixやdata.frameを使ったパッケージの関数が使えなくなってしまう*1という点が微妙だなぁと思っています。 そんな時に、Twitterのtimellineを眺めていたら、MongoDBのR driverができたとかいうtweetを見かけました。 MongoDBはかなり柔軟に色々できますし、何より今アツいトピックの1つです

    R meets MongoDB - 元データ分析の会社で働いていた人の四方山話
  • 大規模データ解析勉強会に参加してきました - 元データ分析の会社で働いていた人の四方山話

    大規模データ処理勉強会 ~「大きな」データと対峙する(仮称)~ on Zusaar @iNutが発表すると聞いて、今の取り組みに近いこともあり頑張って参加してきました。 Web系の勉強会とはちょっと雰囲気が違いましたね。 「ライフサイエンス分野の大規模データ・現場での課題とこれから」(ライフサイエンス統合データベースセンター/DBCLS 大田さん @iNut) 若干遅れて参加して、Macがジャーンってなるのが怖くてメモってませんが、@iNutはばんばんに笑いをとっていました。 元々DBCLSの知り合いはたくさんいて、時折話は聞いていたのですが、まとめて話を聞くのは初めてで、抱えてる問題と彼らが取組もうとしていることの理解が深まった気がします。 「Jubatusにおける大規模分散オンライン機械学習」(PFI 海野さん、@unnnonouno) データは増えているのみならず多様化している デー

    大規模データ解析勉強会に参加してきました - 元データ分析の会社で働いていた人の四方山話
  • 楽天研究開発シンポジウムに参加してきました。 - 元データ分析の会社で働いていた人の四方山話

    と言っても、Tokyo.Rにも顔を出したかったので、パネルディスカッションの所だけ。 【楽天】第4回楽天研究開発シンポジウム|開催概要 ネットワーク解析関係でタイトルが非常に気になる発表があったので、是非直接話を聞きにいきたいと思い参加しました。 同日の別の場所では楽天テクノロジーカンファレンス2011も開催されていて、自分のTL上ではそちらの方が活発だったような気がします。 ポスターセッション中に、お目当ての発表にけっこう人がたかっていて(皆興味あるのかよ!)と思いながら、楽天に就職した研究室の後輩と出合い適当に話ながら、ちらちらと様子を伺って、無事時間内に話を聞く事ができました。 今見たら概要が【楽天】第4回楽天研究開発シンポジウム|プログラムから取れるようですね。 以下、気になったものの話を実際に聞いたメモ 『複雑ネットワークに対する新たなノード分類法』 ここから概要が取得できる。

    楽天研究開発シンポジウムに参加してきました。 - 元データ分析の会社で働いていた人の四方山話
  • 社内SICP勉強会(第1回) - 元データ分析の会社で働いていた人の四方山話

    社内SICP勉強会が始まる。随時メモを公開していこうと思う。環境はMac + Gauche + Emacs。 範囲 始めから問題1.5(P12)まで 内容 値と記号を対応付ける(名前とオブジェクトの対を記憶しておく)ことを環境(environment、より正確には大域環境(grobal environment))という 組み合わせ評価の基は以下の通り 組み合わせの部分式を評価する 最左部分式の値である手続き(演算子)を、残りの部分式の値である引数(被演算子)に作用させる 一般的評価規則は以下の通り 数字列の値は、その表す数値とする。 基演算子の値は、対応する演算を実行する機会命令の列とする。 それ以外の名前は、その環境で名前と対応付けられたオブジェクトとする。 この評価規則は定義(define hogeg fuga)には当てはまらない 一般評価規則に当てはまらない例外を特殊形式という

    社内SICP勉強会(第1回) - 元データ分析の会社で働いていた人の四方山話
  • 1