タグ

ブックマーク / takuti.me (7)

  • Hivemall, Digdag, 自然言語処理, 機械学習などについて話しました #tdtech

    2月19日に開催された PLAZMA: TD Tech Talk 2018 Internal Day で、Treasure Dataがユーザに提供している機械学習・自然言語処理の機能の実体をお話しました。 録画もあがっているようです: PLAZMA TD Internal Day: TD Tech Talk 2018 - YouTube 「業務またはプライベートで機械学習に触れている方」という問いに対して聴衆の半数以上が手を挙げたのには正直驚きました。エンジニアリングとサイエンスの垣根が低くなっているというのは、大変喜ばしいことだと思います。 そんな聴衆の皆様は、まさか2018年に、機械学習に関するトークでロジスティック回帰とTF-IDFの話だけ聞かされるとは思っていなかったことでしょう。 わかりますよ。僕だってもっとゴツい手法をドーンと実装してバーンッって感じの結果を見せてドヤりたい。

    Hivemall, Digdag, 自然言語処理, 機械学習などについて話しました #tdtech
    peketamin
    peketamin 2018/02/26
  • データサイエンスプロジェクトのディレクトリ構成どうするか問題

    あるいは、論文 "Best Practices for Scientific Computing" および "Good Enough Practices in Scientific Computing" について。 TL;DR 標題の件について、未だに答えは見えていないのだけど、自分の現状と他の人の例を文字で残しておく。 こういう話で「あーその手があったかー!」と知ったときの興奮はすごいので、みなさんもっとオープンにいきましょう。 大切なのは、ソフトウェア開発と同じ要領でデータサイエンスのプロジェクトを捉えて、分析と言う名の“開発”を行うつもりでディレクトリを掘ること。 必要なものリスト ナウいデータサイエンス/機械学習プロジェクトの中には(経験上、ぱっと思い浮かぶだけでも)次のようなファイル群があって、僕たちはそれらを良い感じに管理したい。 ソースコード 役割がいろいろある: 前処理(こ

    データサイエンスプロジェクトのディレクトリ構成どうするか問題
    peketamin
    peketamin 2017/12/18
  • Yahoo!の異常検知フレームワーク"EGADS"

    Yahoo!がOSSとして開発している異常検知フレームワーク "EGADS" (Extensible Generic Anomaly Detection System) について書いた次の論文を読んだ: Generic and Scalable Framework for Automated Time-series Anomaly Detection (KDD 2015) リアルタイムなデータをモデリングする種のアルゴリズムの実装とはどうあるべきなのか、という話は難しい。 僕も異常検知や情報推薦のためのアルゴリズムをパッケージ化してみてはいるものの、 時系列データの入力、モデリング、予測、出力といったコンポーネントをいかに切り分けて実装するか バッチとオンラインアルゴリズムのバランスをいかに取るか どこまで自動化して、どこにヒューリスティクスを取り入れる余地を残すか といった点は当に悩ま

    Yahoo!の異常検知フレームワーク"EGADS"
    peketamin
    peketamin 2017/09/11
  • 異常検知のための未来予測:オウム返し的手法からHolt-Winters Methodまで

    Holt-Winters Method(別名: Triple Exponential Smoothing)というデータの予測手法がある。これについて素晴らしい解説記事があるので読みながら実装していた。 コードは takuti/anompy にある。 この手法、Graphite が実装しているということもあり、近年ではDevOpsコミュニティを中心に一躍有名になったんだとか。 ここでは解説記事の内容に沿って、Holt-Winters Method に至るまでに知っておくべき手法たちの“気持ち”をまとめる。数式は元記事やWikipediaに譲る。 問題 『連続するN点の時系列データを観測していたとき、N+1点目の値を予測する問題』を考える。 もし次の瞬間の値が予測できれば、そこからデータの“異常”を察知することができる。 たとえばDatadogなどで監視しているシステムのメトリクスを対象とすれ

    異常検知のための未来予測:オウム返し的手法からHolt-Winters Methodまで
    peketamin
    peketamin 2017/08/28
  • Amazonの推薦システムの20年

    IEEE Internet Computingの2017年5・6月号に "Two Decades of Recommender Systems at Amazon.com" という記事が掲載された。 2003年に同誌に掲載されたレポート "Amazon.com Recommendations: Item-to-Item Collaborative Filtering" が Test of Time、つまり『時代が証明したで賞』を受賞したことをうけての特別記事らしい 1。 「この商品を買った人はこんな商品も買っています」という推薦で有名なAmazonが1998年にその土台となるアルゴリズムの特許を出願してから20年、彼らが 推薦アルゴリズムをどのような視点で改良してきたのか 今、どのような未来を想像するのか その一端を知ることができる記事だった。 アイテムベース協調フィルタリング 20年前も

    Amazonの推薦システムの20年
    peketamin
    peketamin 2017/06/12
  • 修士課程で機械学習が専門ではない指導教員の下で機械学習を学ぶために

    会津大学から東大情報理工へ進学して早2年、この春無事に修士号をゲットした。めでたい。 この2年間はこれまでの人生で最も濃く、楽しい時間だった。関わったすべてのみなさんに感謝したい。積もる話は山ほどあるけど、ここでは研究活動でこの2年間を振り返ってみる。 修士課程で僕が置かれた状況は標題の通りで、この分野の人気が高まっている昨今、卒業論文や修士論文のテーマ設定に際して同じような境遇のひとは少なくないと思う。この記事がひとつの事例として、そんなみなさんの参考になれば。 ※個人の経験を述べるだけで、『機械学習を学ぶ際のオススメテキスト』とか『数学の知識はこれさえあればOK!』といった内容ではない。 TL;DR 大学院の外に“先生”を求める ガチっぽい機械学習関連のインターンに参加する(3社;e.g., 『Treasure Dataインターンにみる機械学習のリアル』) 機械学習サマースクールに行く

    修士課程で機械学習が専門ではない指導教員の下で機械学習を学ぶために
    peketamin
    peketamin 2017/03/31
  • ストリームデータ解析の世界

    機械学習アドベントカレンダー2015 8日目】 ストリームデータ解析 という分野がある。ある生成元から絶えずデータが到来する環境で、いかにそれらを捌くかという話。「時間計算量はほぼ線形であって欲しいし、空間計算量も小さく抑えつつ精度を担保したいよね」ということを考える世界。個人的に最近はそのあたりの情報を追いかけていたので、整理も兼ねてその世界を俯瞰したい。 すごいリンク集 はじめに、この分野で外せないと思うリンクを3つ挙げておく。 ■ SML: Data Streams YahooGoogleの研究所を経てCMUの教授をしているAlex Smola先生の講義の一部(スライド+動画あり)。理論からシステムアーキテクチャまで包括した実際的な機械学習ならこの人。この人の機械学習サマースクールの講義は最高だった。 古典的なものから最近のものまで、代表的なアルゴリズムについて直感的な説明といい

    ストリームデータ解析の世界
    peketamin
    peketamin 2015/12/08
  • 1