タグ

ブックマーク / medium.com/@chezou (6)

  • Pythonの環境構築を自分なりに整理してみる

    機械学習ブームなどにより、 Python を触り始める Rubyist が増えてきたと思います。その際に問題になりやすいのが環境構築です。Rubyだと rbenv がデファクトスタンダードになっているのに、なぜか Python に… 私の立ち位置もともとは、数年前まで 年に一回Python3でNLTKやらscikit-learnやら機械学習や自然言語処理の環境を作ろうと試みては失敗してPython使うものかと思っていた人でした。それが、Anacondaで環境導入すると、面倒なことは何も考えずに済むということを知り、CookpadではAnacondaを前提に環境構築を勧めていました。 今は、ymotongpooに「郷に入っては郷に従え」と言われたため、pip+virtualenv/venvで全てをこなしていますが、これで困ったことは特にありません。macOS, Windows, Linux

  • 退職します

    現在の自分の肩書である「セールスエンジニア」という仕事がどのようなものか知らない方も多く、毎回説明するのが大変なのでブログ記事にしました。セールスエンジニアという仕事はなかなか馴染みがありませんが、20代後半から30代のITエンジニアの… ただ、Clouderaのセールスエンジニアのロールは継続的に使っていただくために割となんでもするという感じで裁量も大きく、Field Data Scientistという風に名乗らせていただいて、Spark周りのBig Dataの話とデータ活用の話、それから機械学習の話を幅広くさせていただきました。 おかげさまで、国内外での発表も色々とさせていただきましたが、USのエンジニアブログにも5ほど執筆させてもらい、Strata Data Conference Singapore 2017での発表や、自社の全エンジニアが集まる社内テックサミットでの発表などかなり

    退職します
    rokujyouhitoma
    rokujyouhitoma 2018/06/19
    > goodbye-cloudera
  • オライリーから「仕事ではじめる機械学習」が出版されます

    どういうなの?まえがきのスクリーンショットを貼りましたが、このは多くの機械学習とは異なり、機械学習の実務で使えるようになるために知りたい、機械学習を含めたシステムのアーキテクチャや機械学習プロジェクトの進め方、効果検証をどうするのかということをまとめました。 めざすところのイメージ既に多く刊行されているTensorFlowやChainerでディープラーニングをしてみようというものでもなければ、機械学習の理論をわかりやすく解説するといった類のものでもありません。ゼロから作るDeep LearningやCourseraのMachine Learningで学んだけど、実際の仕事に活かすにはどうしたら良いだろう?という疑問に答えているつもりです。また、大学の講義などで機械学習は学んだけど、実際仕事機械学習プロジェクトを進めるときはどうすればいいんだろう?という人にも得るものがあると思い

    オライリーから「仕事ではじめる機械学習」が出版されます
    rokujyouhitoma
    rokujyouhitoma 2017/10/20
    買い。
  • PyConJP 2017に参加した

    2年ぶりにPyConJPに参加しました。2日間参加してきたので、メモがてら書いていきます。 興味深かった話 pandasとdaskのコミッターのshinhrksさんの基調講演。pandasに対してどうコントリビュートしているかという話を中心に、OSS活動をしていこうと思わせる(1日目とは打って変わって)良い基調講演でした。 特に印象的だったのが、pandasの中ではAirspeed Velocityを使ってCIでベンチマークを取りコミット間の処理速度が低下していないかを検出しているという点です。Pythonのパッケージなので、他の言語では難しいかもしれないということです。ともすると速度のデグレは気づきにくいことも多いですが、OSSでそこまできっちり見ているのは素晴らしいと思いました。

  • OSSベースの機械学習が強い理由

    英語版はこちら。 TensorFlowの登場以降、OSSベースの機械学習の盛り上がりは加速しています。Kerasの作者のFrançois Cholletさんの言葉が、この状況を非常に端的に表しています。これだけでも十分だとは思いますが、この記事では、なぜオープンソースの機械学習が強いのか、最近のどういった流れがあるのかを整理したいと思います。 tl;dr機械学習やDeep Learningのフレームワークが充実してきた論文が査読前に公開され、他社も簡単にアルゴリズムの検証ができるようになった多くのプレーヤーの参戦により、アカデミアでの機械学習の研究がレッドオーシャン化した他社にないアルゴリズムで一発勝負、実装は秘密、というアプローチが厳しい牧歌的な時代5年前10年前の世界では、先端の機械学習に取り組んでいるのは大学などの研究室、大企業の研究所や一部の先進的な企業がほとんどでした。特に、ラベ

    OSSベースの機械学習が強い理由
  • 企業がユーザを守るための学術データ公開

    人工知能学会(以下JSAI)で発表された論文が、Pixivのデータを「晒した」ということで盛り上がっています。詳細は、以下のtogetterを見ていただければと思いますが、ざっくり言うとPixivで公開されていた女性向けランキングトップ10の二次創作小説(R-18)に対して「有害表現」を分類するという目的で、作者名とURLを論文に書いて炎上したということになります。 なお、以下のまとめの片方はコンテンツ提供側に、片方が学術的な立場に偏ったものになっています。今回、これに対して一つの解決策になるかもしれないと思い、自分の考えを書きます。

  • 1