サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
大谷翔平
rindai87.hatenablog.jp
プロジェクトの忙しい時期やら体調不良やら子供の保育園入園やらでマジで追いかけられていないけどこのまとめから辿っていけば良さそう。自分の勉強用にあとでまとめてみる / Highlights from TensorFlow Developer Summit, 2018 https://t.co/M6eNfflHZO— norihiro shimoda (@rindai87) 2018年4月3日 ということで、こちらをもとにした完全に自分用のメモ集みたいな感じです。まあ言ってみればただのリンク集なので、元ブログと情報量に大差はありませんのでご注意を。 medium.com 最初にやったほうがいいこと $ pip install --upgrade tensorflow とかやって、TensorFlowのバージョンを1.7まであげておきます。 Installing TensorFlow | T
年末までにこのエントリを投下したい、と思いつつ、あれよあれよと年があけてしまいましたが、去る2017年12月に表題の通り、機械学習のアルゴリズム「以外」を対象としたML Ops Study(仮)#1 という勉強会を開催してみました。 経緯など ここ数年、機械学習やらディープラーニング、と言われる領域に親しいところに身を置いていて、自分の興味が機械学習や高度な分析の社会実装に興味があることが分かってきました。幸いにして、機械学習ブームによって、機械学習のアルゴリズム部分に関する勉強会や書籍はたくさん世の中に出てくるようになり、結果、多くの人が機械学習のアルゴリズムを勉強をするようになったように思います。一方で、問題を解決できそうなアルゴリズムがあったとしても、実際はそれを仕組みに落としていくところ、仕組みにした後に継続的に運用し続ける部分に関しての知見やノウハウはなかなかないのが現状です。こ
なんかめっちゃアクティブにGoogle Cloud Next in Tokyoに関わりました。いろいろありすぎたので備忘録がてら振り返ってみましょう。 6/13(Day0) PartnerSummitまわりや、体験エリアでのデモの設営などでお祭り騒ぎでした。 PartnerSummit Japan'17内でのPartner Contestへの参加 ピッチさせていただいてWow部門でWinnerに選んでいただきました。Wow! #GoogleNext17 前日の 13 日、Google Cloud Partner Summit Japan ‘17 を開催!Partner Contest Winner はこちら:https://t.co/EqDkOgd8Oz pic.twitter.com/m70zbFfWrg— Google Cloud JP (@googlecloud_jp) 2017年6
events.google.com 初Google I/O ! に行くことができました。勝手なイメージでAndroidやWeb/Design系の話ばかりかなーと思っていたら、最近のご時世も反映されてかML関連の話題も非常に多かったです。半分くらいお仕事でスタッフぽい動きしていたので、現地ではしっかりセッションを見れたわけではないですが、Youtubeなどを見つつ簡単に整理してみました。 ML系の話題 大きくわけると3つでしょうか - TensorFlow Lite関連 - TPU関連 - TensorFlow 1.2関連 関連するYoutube動画や記事とセットでお送りします。 TensorFlow Lite関連 www.publickey1.jp 一番混乱した発表がこちら。キーノートで発表があるも名前くらいで何なのか不明という。。。3日目の朝1のセッションまで詳細がよくわからずという状態
CookieSyncとDMP 前回、CookieSyncの技術について簡単に解説しました。CookieSyncを使えば2つの異なるシステム(ドメイン)で発行されるCookie情報を交換することができます。 DMPはこの技術を駆使してCookie情報を収集し、オンラインのデータを次々に紐付けていきます。 今回も前回のブログ記事の続きのこちらとこちらの記事の内容を用いて、DMPがどのようにオンラインのデータを収集しているかを見て行きましょう。 DMPが保有しているデータ 出典:Data Management Part II: Centralize and Synchronize Your User Data こちらの図が非常に分かりやすいので引用します。図からDMPが2種類のデータを所有していることが分かります。 DMPのCookieIDをkeyにして、他のシステムのCookieIDを管理する
Googleさんのオフィスを借りて10/7に立ち上げたTensorFlow User Group(TFUG)のミートアップを開催させていただきました。 GoogleのGregさん初め、非常に豪華なスピーカーを招いて開催できました。 tfug-tokyo.connpass.com Googleブレインチームのco-founderのGregさんの参戦によりTVの取材が入るなどしました。AIってすごいんすね。(主催者が言うな) また、山口さんの発表中にはみんなでラジオ体操も行い、一体感もかなりある会となったのではと思っています!!! ライブ配信も行いましたので、もし参加できなかった方で興味がある方は御覧ください。なんと濃密な3hだったのか。 TensorFlow User Group #1 Gregさん、山口さん、中原さんの資料は公開されているので合わせてどうぞ。 Gregさんの資料 goo.g
仕事柄、色んなパターンのデータ分析してる人の環境を見る機会があるのですが、よくあるのは下記のような7つかな、と思います。段々とやりたいことが複雑/高度化する、もしくはデータの規模が大きくなると下の方に進んでいく気がします。 (私見ですが)よくある7つのパターン 1. WindowsのGUIアプリやWebサービスの管理画面 いわゆるエンジニアじゃない方がデータ分析を行う時はまずここからではないでしょうか。Excelなども何気に高機能ですし、Tableauなどでも色々できます。Web上でもGoogle DocsのSpreadSheetはExcel並に色々できてしまいます。 2. Windows上でのプログラミング 少し高度な事や複雑な事をしたいなぁ、と思ったらこの領域になるのではないでしょうか? Excel上のVBAから始まり、Rを使ったり、それでも足りない部分はPythonを利用したり、とい
最近TL等ではKafkaという単語をよく目にするようになってきましたが、kafkaとググっても日本語の情報がほとんどないのが悲しいですね。というわけで本家ドキュメントのQuick Start的なモノを動かしてみた話です。 本当に動かすだけです。が、以外にこのレベルの情報もない!のがKafkaですね。もっとあっても良さそうなのに。。。 Kafkaってなんなのよ、って話は今は触れずにとりあえずKafkaをローカル環境にて動かしてみます。 Apache Kafka 公式ドキュメントのQuick Startに従います。 とりあえず動かす Kafkaを取ってくる ミラーサイトからKafkaを取ってきます。最新版は8.2.0のようですが、公式ドキュメントは8.1.1なので、8.1.1を取ってきます。 適当に展開しましょう。 $ wget http://ftp.tsukuba.wide.ad.jp/so
Strata + Hadoop World参加記録 その1 Strata + Hadoop World参加記録 その2 Strata + Hadoop World参加記録 その3 Strata + Hadoop World参加記録 その4 という感じで念願のStrataに参加でき、無事日本に帰国して落ち着いたので色々振り返ってみています。 今回の個人的な感想 Starata + Hadoop Conferenceと言いつつ、ほぼ誰もHadoopの事は言わず、ほとんどがSparkネタという。いよいよ、という感じですよね。— norihiro shimoda (@rindai87) 2015, 2月 19 という感じです。これは、Hadoopがオワコンとかそういう訳ではなく、もうすでにHadoopが浸透しきって、MapReduceによるバッチ処理はひと通りやり尽くしたので、次になにを?、という
Strata + Hadoop World参加記録 その1 Strata + Hadoop World参加記録 その2 Strata + Hadoop World参加記録 その3 今日は自分的に楽しそうなセッションが盛りだくさんですね。メモはけっこう適当です。 Big Data at Netflix: Faster and Easier バックエンドにHDFSは使っておらずS3を利用している 400 Billion Events / Day ビデオの再生とかUIに対するアクションとか Data Platform(High level) Cassandraをハードに使っている Python/Pigでデータ処理 クエリはPresto Stingとか色々、BIもかなり使っている Why Presto (vs. Alternatives) バックエンドはS3 オープンソースでJavaだし、あと、ア
AMP Campとは? AMP CampはBerkeleyのAMP Labによるオープンソースのデータ解析用テクノロジースタックであるBDAS (the Berkeley Data Analytics Stack)のBoot Campみたいです。年1回開催されるようで、すでに2014年開催で5回目のようです。ハンズオンなんかが充実しているのでひと通りさらってみました。 IntroductionとGetting Started Camp概要と準備 AMP Campの概要です。ざざっと雰囲気が分かりますが、Sparkのエコシステムがひと通りさらえるようです。で、PrerequisitesのAssumptionに"You have experience using the core Spark APIs"とかあって、BootCampのくせに経験者対象かよ、という感じですが、その下にIntrodu
色々ありまして、出張にてStrataに参加できることになり、前日にあるmeetupに参加してきました。会社に深い感謝の念を抱きつつ、記録的な何かを残していきます。Strata自体はまだ始まっていないけど同会場の一部でのmeetupだったため、前夜祭って感じが出ていました。 事前に発表予定だったClouderaの人等が参加できなくなったり、食べ物提供予定がなくなったりということで、400人程度参加表明をしつつ実際は50人もいないくらい?な感じでした。 内容としては、Spark1.3に入ってくるDataFramesの紹介でしたが、これまじでスゴイですね。 ほぼ同内容がブログでも公開されています。 PandasやRのdataframeにインスパイアされたインターフェースで敷居が低い (DataSourceAPIとの関連だと思うけど)多様なデータソースに対応 pipelineAPIとのコンボ Sp
2015年はSparkだ、と勝手に思っています。で、社内で自分の関わるサービスの裏側で利用する箇所をどんどん増やしていくのももちろんですが、これまでまともにOSSに貢献していなかったので、これを気にOSSへの貢献にもチャレンジしてみようかと思ったりしたので、色々調べてみた備忘録です。 基本情報 JIRA Confluence プロジェクトページ 何かできないかな、ということで Contributing to Spark を読んで適当に要約してみます。 Reporting Issues バグとか質問する時はJIRAでissueをopenするかMLにて。 Contributing Code githubのPull Requestで受け付けている。JIRAでissueをopenにした上でgithubのsparkリポジトリでのPRでレビューを行う。 タスクは小さく分解し、出来るなら目的は1つに パ
DMPがどのようにCookieデータを収集しているかについて、ある程度知識が固まってきたのでまとめようと思います。まずはDMPのデータ収集の肝であるCookieSyncについて数回に分けて書いていこうと思います。 DMPの役割とは こちらにも書いた通り、DMP自体にはデータを解析するだけでなく様々な役割があります。データの分析/解析だけでなく、データを収集するところにも関わっているということを念頭に置くと理解が深まります。 DMPが集めるデータと収集方法 DMPはブラウザのCookie情報を収集し整理し、利用しやすい形で提供しています。収集にはCookieSyncという技術が用いられています。 CookieSync概要 このあとCookieSyncの実例をあげますが、まずは基本的なCookieSyncの流れの説明をします。CookieSyncは外部のサーバーに対して1pixelの画像のロー
Top 10 Coolest Big Data Startups Of 2014という記事がありまして、はじめて名前を聞く企業が多くありましたので簡単に調べてみました。ホントに簡単に調べただけです。正確には記事の説明+HPのトップをざっと見ただけですので、そんなものがあるのかー、くらいのノリです。 1. SumAll SumAll FacebookやTwitter, eBayやInstagramなど、42種類のソーシャルとEコマースサイトのデータからデータを可視化することができるオンラインのプラットフォームを提供してくれる、とのこと。今年に入っていくつかの機能追加を行い、例えば、リツイートやメンションの数によってアラートを発してくれるようなシステムが追加されたとのこと。 2. Luminoso Luminoso テキスト分析に強みがある会社ぽいです。MITメディア・ラボからのスピンアウトみ
ここまで これまで2回に渡って、DMPの情報収集のコアであるCookieSyncの紹介と、CookieSyncを使っていかにオンラインデータを収集するかについて見てきました。 DMPはどのようにCookieデータを収集しているか(CookieSync編) DMPはどのようにCookieデータを収集しているか(オンラインデータ編) さらに突っ込んでオフラインのデータをいかにオンラインに持ち込むか、という点についてみていこうと思います。今回もいつものブログの記事Data Management Part IV: Syncing Offline Data To Your DMPをベースに話を進めていきます。 オンラインデータとオフラインデータの比較 オンラインデータは収集が容易な一方で、データの信頼性が乏しい。必ず正しい情報を登録しているわけではない。 Cookieをキーにするという性質上、正確に
これは? なんとなく最近金融のFraudの話に触れる機会が多く、その中でAdFraudという単語が引っかかったので調べてみた話です。参照記事を適当に繋げて意訳しているので、大意としてそもそも違うことになっていたらご指摘ください。 メルセデスベンツ問題 メルセデスベンツによるオンライン広告キャンペーンにおいて、広告が人間以上に自動化されたプログラムに見られていた、ということが報じられて波紋を呼んでいる。 従来から、オンライン広告のFraud(不正表示,不正クリック, etc..)というのは度々問題になっていたが、ナスダックに上場しているRocket Fuelにより実施されたキャンペーンにおいて大規模なFraudが生じていたため、かなりインパクトの大きな問題となっている。 具体的な数値 イギリスのセキュリティー企業Telemetryサンプリングした約365,000のimpressionのうち、
動機 MapReduceをJava以外の言語で使えると楽なので、調べて試してみました。 色々と調べてみた 良くまとまっていて面白かったです。 Rの並列化の現状について : wrong, rogue and log RHIPE(R and Hadoop Integrated Processing Environment) RHIPE: R and Hadoop Integrated Processing Environment Hadoop streamingを使ってRでMapReduce R言語で MapReduce −Hadoop Streaming− - hamadakoichi blog https://www.rmetrics.org/files/Meielisalp2009/Presentations/Theussl1.pdf というわけで、今回はどんぴしゃのHadoop str
最近、割と大きめなデータをRで扱う際に、どのようなソリューションがいいか色々と考えています。 ここでのソリューションは並列計算云々という観点ではなく、大きめのデータから必要なデータをさっくりと用意して、解析フェーズに簡単に入っていくために、という観点です。 1つは有名すぎるbigmemoryというソリューションがあって、これは今後浸透していくんだろうなぁとは思いつつ、bigmemoryではデータ型がbig.matrixという特殊なものになってしまうので、既存のMatrixやdata.frameを使ったパッケージの関数が使えなくなってしまう*1という点が微妙だなぁと思っています。 そんな時に、Twitterのtimellineを眺めていたら、MongoDBのR driverができたとかいうtweetを見かけました。 MongoDBはかなり柔軟に色々できますし、何より今アツいトピックの1つです
大規模データ処理勉強会 ~「大きな」データと対峙する(仮称)~ on Zusaar @iNutが発表すると聞いて、今の取り組みに近いこともあり頑張って参加してきました。 Web系の勉強会とはちょっと雰囲気が違いましたね。 「ライフサイエンス分野の大規模データ・現場での課題とこれから」(ライフサイエンス統合データベースセンター/DBCLS 大田さん @iNut) 若干遅れて参加して、Macがジャーンってなるのが怖くてメモってませんが、@iNutはばんばんに笑いをとっていました。 元々DBCLSの知り合いはたくさんいて、時折話は聞いていたのですが、まとめて話を聞くのは初めてで、抱えてる問題と彼らが取組もうとしていることの理解が深まった気がします。 「Jubatusにおける大規模分散オンライン機械学習」(PFI 海野さん、@unnnonouno) データは増えているのみならず多様化している デー
先日、WebDBフォーラムなる場所で登壇してきました。会社名を背負っての初発表だとか、AWSのエバンジェリストと一緒だったり等でgkbrでした。発表資料を公開します。所感などはまた後ほどまとめて公開しようかと。URL 2011-11-09 17:02:54 via web Webとデータベースに関するフォーラム (WebDB Forum 2011)の技術報告セッションで発表して来ました。 大勢の前で何かを話すのは大学院以来の経験でかなり緊張しましたが、無事に終わることができました。 WebDBforum2011 View more presentations from Norihiro Shimoda 話したこと ソーシャルグラフ解析のタスクの一つとしてコミュニティ検出について話してきました。 コミュニティ検出はネットワークをグループ分けする手法で、社会学ではかなり昔から取組まれていたよう
RfinanceYJというYahooFinanceから任意の銘柄の時系列データをぶっこ抜けるという素敵なライブラリがRにはあります。 しかし、この素敵なライブラリの難点として、データの取得に若干時間がかかってしまうという点があり、データを取得して色々遊ぶには、どこかにデータを保存しておいた方が良いです。 取得する期間や銘柄数にもよってはcsvファイルかなんかで保存していてもいいと思いますが、自分の場合は再利用性を考えて、ローカルにMySQLをたてて、そこに銘柄毎にぶっこ抜いてきたデータを保存するということをやっています。(その部分はまたいつか書くかも) で、DBに突っ込んだデータをRから使いたいので、そのあたりを試しました。 結論から言うと異常に簡単です。 環境はUbuntu10.10で、既にRとMySQLがインストールされている前提です。 インストール ここを参考にしました。 参考URL
Hadoop環境を整えたら、機械学習好きとしては、Mahoutを試してみたいですよね。 やっちゃいましょう! Hadoopの設定などはこちらでも参考にしてみてください。 本家サイトを見れば簡単、かと思いきや、いくつか落とし穴がありました。 Apache Mahout: Scalable machine learning and data mining mavenのインストール (mavenの説明入れたい。mvn compileとmvn installのところ) いつも通りにmacportsでインストール $port search mavenmaven @1.0.2 (java, devel) A java-based build and project management environment. maven-ant-tasks @2.0.10 (devel, java) Use man
最近、大規模データからのデータマイニングエンジニアを志す私として、大規模なデータは扱ったことないからしりませーん、というのは通用しないと感じています。 実際の運用レベルを再現する事は不可能だとしても、自分のできる範囲で知識を補っていく必要があると考えています。 というわけで、[Web開発者のための]大規模サービス技術入門 ―データ構造、メモリ、OS、DB、サーバ/インフラ (WEB+DB PRESS plusシリーズ)伊藤 直也 田中 慎司 技術評論社 2010-07-07 売り上げランキング : 2308 Amazonで詳しく見る by G-Toolsを読み、DB周りの部分について インデックス重要 データがメモリに載るなら載せる の2点について検証してみました。 インデックスに関しては言わずもがなな所はありますが、データをメモリに載せる効果は、実際に手を動かしてみてすごく実感を持つ事が
mongoDBの勉強会でMapReduceの話が出てましたし、やはりHadoopは非常に気になります。 ということで、 Hadoop on MacOSX - Happy-Camper Street MacでHadoopスタンドアローンモード - kj-kiのはてなダイアリー をMacにHadoop環境を作る参考に、本棚に眠っていたSoftware Design (ソフトウェア デザイン) 2010年 05月号 [雑誌] 技術評論社 2010-04-17 売り上げランキング : Amazonで詳しく見る by G-ToolsをHadoopの実行テストの参考にしました。 やったこと Hadoopの取得 $JAVA_HOMEの設定 hadoopユーザー(Hadoopを実行するユーザー)の作成 hadoopユーザーの公開鍵によるログイン設定 hadoopをスタンドアロンモードで動かす hadoop
地に身を潜め続けていた昨年と違い、今年はガンガン外に出ていきたいと思います。 第一弾として、最近興味のあるMongodb勉強会に参加してきました。 ちょうど運営の手伝いを募集していたので、調子に乗って運営のお手伝いもしてきました。 (追記:Togetterで秀逸なまとめがあります。@ixixiさん、GJです!) Sharding詳解 Mongo sharding View more presentations from Takahiro Inoue mongodbのスケーリングの話でした。 これをもとにした話のようでしたが、会場設営と受付で前半を聞き逃したので、ついていく事ができませんでした>< キーワード ・shard ・sharding key ・chunk ・Auto-Failover ・Auto-Balancing ・Migration ・mongos ・configサーバー ・r
諸般の事情でブートストラップ法を利用する可能性が高いので復習をかねて書きます。 こちらがすごくまとまっていたので、参考にしました。 Web上であまり情報が見つからなかったのは探し方が悪かったのかな?? とりあえず パラメトリック・ブートストラップ法と、ノンパラメトリック・ブートストラップ法がある。 有名、というかよく使われるのはノンパラメトリック・ブートストラップ法の方で、今回書いているのもたぶんノンパラメトリック・ブートストラップの方 ブートストラップ法とは 標本集団からリサンプリングを繰り返し(重複を許す)、得られた新たな標本集団(ブートストラップ標本)の統計量の分布が、母集団の分布に近いものになる、という性質を利用して、母集団に対する事前知識なし(確率密度関数を使わず)に、母集団の統計量を推定する手法です。 確認 Rのリハビリをかねつつ、確認してみます。 適当に与えたデータ(1〜10
node.jsで何か楽しい事ができないかなぁと探していて、チャットとかはありきたりだし、twitterのstreaming apiサンプルはよく見かけるので、何かそれ以外のものはないかと思って見つけました。 aliasaria/scrumblr · GitHub 概要は、こちらに非常によくまとまっています。 要は、ボードの上にポスト・イット風のメモを貼付けて、動かして・・・ということを共有できる、かなり面白いものです。 こういう記事もありますし、Web上で似たことができるんじゃないなぁと思っています。 これ、かなり面白いです。 自分が思うscrumblrのいいところとしては、 導入が割と簡単。自分の場合、CentOSとUbuntuで導入してみましたが、どちらも非常に簡単でした。 Websocketのリアルタイム通信の威力がよく分かる。 の2点ではないでしょうか。単純なチャットだったら、もう
一年以上パターン認識・機械学習の世界から離れていたので、ちょっと色々とひどいことになっています。といっても、一年前も大したことはなかったので、再勉強というところでしょうか。 リハビリをかねてこちらの本を読んで、まとめつつ、基礎から学び直していきます。 できるだけ数式を書かないようにして、自分の曖昧なところを明らかにしていきたいと思います。わかりやすいパターン認識石井 健一郎 前田 英作 上田 修功 村瀬 洋 オーム社 1998-08 売り上げランキング : 35310 Amazonで詳しく見る by G-Tools 今回は、主に4章の識別部の設計についてまとめています。ここは自分でもけっこう大事だと思っていて、各論というよりは、パターン認識全体の概要になっていると思っています。 パラメトリックな学習とノンパラメトリックな学習 学習パターンは、何らかの確率密度関数に従って生起し、それが観測さ
次のページ
このページを最初にブックマークしてみませんか?
『元データ分析の会社で働いていた人の四方山話』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く