タグ

ブックマーク / chezou.hatenablog.com (5)

  • Cloudera World Tokyo 2016で機械学習プロダクトの作り方を話しました #cwt2016 - once upon a time,

    さる11/8に、自社の主催するCloudera World Tokyo 2016で、機械学習プロダクトの作り方について話をしました。 図: Hadoopの生みの親 Doug(@cutting)と握力王新沼さん(@hiroki_niinuma)の対談イベントの様子 大規模データに対するデータサイエンスの進め方 #CWT2016 from Cloudera Japan www.slideshare.net データの民主化の話、データサイエンティストとデータエンジニアの役割分担とチーム構成、機械学習の業務フロー、Cloud Nativeなデータサイエンスといった盛りだくさんの話をしました*1。 話の中で特に言いたかったことは2つ、P.16のリスクを取ってくれる責任者を捕まえようという話と、P.29の機械学習込みのプロダクトは改善をし続けないと死ぬという話です。 あとは、できるだけ機械学習をしない

    Cloudera World Tokyo 2016で機械学習プロダクトの作り方を話しました #cwt2016 - once upon a time,
    kwms
    kwms 2016/12/25
  • RNNLMベースの形態素解析器 JUMAN++ をhomebrewでインストールできるようにした - once upon a time,

    京大の黒橋・河原研から最近出たJUMAN++をmacOSのhomebrewでinstallできるようにしました。 JUMAN++はRNNLMというディープラーニングベースの言語モデルを使っています。 こちらの記事を読んで知ったという方も多いのではないでしょうか。 qiita.com インストール方法は、現段階では後述する理由のためhomebrew-coreにはまだ入っていないので、tapを使ってください。 [2016/10/23追記] やっと家homebrewに入ったので、tapは要らなくなりました。 [/追記] $ brew install jumanpp github github.com JUMAN++のサイト凄い JUMAN++のサイトには解析を試せるWebアプリケーションがあるのですが、それがなかなか面白いです。 このリンクに対して、 http://tulip.kuee.kyo

    RNNLMベースの形態素解析器 JUMAN++ をhomebrewでインストールできるようにした - once upon a time,
    kwms
    kwms 2016/10/23
  • データを一箇所に集めることでデータ活用の民主化が進んだ話 - once upon a time,

    先日、この記事を読んで分析のハードルを下げること大事だよね、というのを思い出したのでつらつらと書いてみようと思います。 qiita.com 内容としては正直タイトル詐欺で、SlackからRDSにクエリ発行できるようにして、各種権限を持っているエンジニアでなくても分析できるようになったよ、という話です。 ここでいう「データ活用の民主化」というのはかっこ良く言ってみたかっただけで、「データ分析を生業にしている人以外もデータを活用してビジネスを進められるようになる」というくらいのニュアンスだと思って下さい。 「データ分析」というとアナリストの人がやること、みたいな職務が分かれている環境もあるとは思いますが、そうではない会社(前職)の一例です。 データ活用が広まった流れ 数秒〜数十秒で対話的にクエリが返ってくると、トライアンドエラーが100倍くらいできる 今まで実行計画を気にして避けていたことにガ

    データを一箇所に集めることでデータ活用の民主化が進んだ話 - once upon a time,
    kwms
    kwms 2016/05/10
  • 機械学習の分類の話を損失関数と決定境界を中心に整理してみた - once upon a time,

    機械学習の分類の話を、主に決定境界と損失関数の観点から整理してみました。 とはいっても、k-NNとか損失関数関係ないのもいます。 最初ははてなブログに書こうとしたのですが、数式を埋め込むのが辛かったのでjupyter notebookにしました。 github.com [追記] githubだと日語を含む数式のレンダーが壊れるので、nbviewerの方がいいかもしれません。 https://nbviewer.jupyter.org/github/chezou/notebooks/blob/master/classification.ipynb [/追記] パーセプトロンが見直されたのはなんでだっけ、SVMってどういう位置づけだっけ、というのを確認できればなぁと思っています。 多層パーセプトロンまでに至るところの流れがうまく伝わればなぁと思っています。 間違いなどがあれば、是非ご指摘いただ

    機械学習の分類の話を損失関数と決定境界を中心に整理してみた - once upon a time,
    kwms
    kwms 2016/05/09
  • TinySegmenterをJulia移植したらMITの先生に指導してもらえた話 - once upon a time,

    先日、工藤さんがJavaScript向けに作った日語のコンパクトな分かち書きツール、TinySegmenterをJuliaに移植したTinySegmenter.jlを作りました。 もともとは、PyconJPでjanomeの話を聞いたら居ても立っても居られなくなって、簡単なTinySegmenterを移植したんですが、そしたら思いもよらぬ展開が待っていました。 [2015/10/22 23:38 追記] 計測の問題を @repeatedly さんから指摘いただいたので再計測しました。 パッケージ登録時にMITの先生からツッコミが入る JuliaのパッケージはMETADATA.jlというセントラルなレポジトリで管理されています。 ここに登録されたパッケージはPkg.add("TinySegmenter")とREPLで実行するだけでパッケージが導入できます。*1 ここに登録をしようとした時に、

    TinySegmenterをJulia移植したらMITの先生に指導してもらえた話 - once upon a time,
    kwms
    kwms 2015/10/22
  • 1