タグ

ブックマーク / catindog.hatenablog.com (5)

  • Kaggleを取り掛かるまでにやったこととと、モチベーションの維持のために必要だったこと - にほんごのれんしゅう

    Kaggleを取り掛かるまでにやったこととと、モチベーションの維持のために必要だったこと わたしの経験した、最初のKaggleの一歩と、実際にKaggleに対するモチベーションがそれなりに加熱するまでにやったことと、息切れしない心の持ち方です。 KaggleがDataScienceに携わるものの価値の可視化の基軸の一つになっていますが、まだ取り掛かれない or 心が折れそう人のために、私に必要だったきっかけと、私が行ったモチベーションコントロールを含めて記します。 まだまだkaggleは弱いですが、継続的に、日々の生活の中に組み入れるまでが大変でした。 目次 既存の機械学習関連の技術者にとってのKaggleの認識のあり方 すでに機械学習アルゴリズムを知っているがやるべきか 競技プログラミングは業務コーディングで役に立たないロジックが、Kaggleの業務のデータ分析との関係にも成り立つか 挑

    Kaggleを取り掛かるまでにやったこととと、モチベーションの維持のために必要だったこと - にほんごのれんしゅう
    advblog
    advblog 2018/05/21
  • CNNによる文字コード不明なドキュメントの推定 - にほんごのれんしゅう

    CNNによる文字コード不明なドキュメントの推定 Advent Calender遅刻いい訳 年末忙しすぎた ネタと期待していたいくつかがまともに結果が出ずに苦しい思いをしていた 元URLの喪失 バイト列から文字コーディングを推定する Twitterで時々バズるネタとして、機械学習がこれほどもてはやされるのに、今だにBrowserは時々文字化けし、ExcelはUTF8を突っ込むと文字化けし、到底、文化的で最低限の人権が保護された状態ではありません。 実際、ルールベースで推定しようとすると、この様にshift jisとeucでは完全に背反な情報を使っているわけでないので、なんらかのヒューリスティックなルールを人間が作成して対応していたのだと思いますが、この様なユースケースの場合、機械学習が強い力を発揮します。 図1. sjisとeucの文字コードのバイト列のマップ(参考:smdn) その度、「そ

    CNNによる文字コード不明なドキュメントの推定 - にほんごのれんしゅう
    advblog
    advblog 2018/01/08
  • 機械学習ではじめるDocker - にほんごのれんしゅう

    目次とお断り この資料をまとめるに当たって、実際に開発したり運用したりという経験のスニペットから、できるだけ編集して、自分なりに体系化したものです 様々な角度のデータが乱雑なっててわかりにくいかもしれませんが、ご了承いただけると幸いです "1. Dockerとは" "2. Dockerを用いるメリット" "3. docker.ioのインストール" "4. dockerでコンテナの起動" "5. 基的な操作" "6. Dockerコンテナにsshdなどの必須ソフトウェアをインストールする" "7. dockerコンテナのexportとimport" "8. 機械学習ように調整したコンテナの利用" "9. 実際に使用している例" "10. Docker Hub連係" "11. Docker Compose" "12. Dockerのコンテナとホストマシン間でファイルの共有をする" "13.

    機械学習ではじめるDocker - にほんごのれんしゅう
    advblog
    advblog 2017/12/16
  • 機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 - にほんごのれんしゅう

    機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 背景 広告代理店業を行なっており、クライアント企業から予算を預かって、インターネット広告やマーケティング業をしているのだが、クライアントの予算消化の異常値を監視したい 2016年半ばに外部のデータ分析専門の会社に、その日の予算消化が異常の場合、アラートを鳴らすシステムを外注開始、2016年10月に納品 2017年9月半ばに進捗率が芳しくないことが判明した。終わる見込みが立たなかったので、私が解決に当たる (ついでに"Machine Learning: The High-Interest Credit Card of Technical Debt[2]"と呼ばれる負債化してしまう機械学習のシステムとはという評価軸があったので、これらから今回使えそうなプラクティスを取り出して適応してみたいというモチベーションが

    機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 - にほんごのれんしゅう
    advblog
    advblog 2017/09/25
  • ドメインにより意味が変化する単語の抽出 - にほんごのれんしゅう

    ドメインにより意味が変化する単語の抽出 立命館の学生さんが発表して、炎上した論文を、わたしもJSAI2017に参加していた関係で、公開が停止する前に入手することができました 論文中では、幾つかのPixivに公開されているBL小説に対して定性的な分類をして、終わりという、機械学習が入っていないような論文でしたので、わたしなりに機械学習を使ってできることを示したいという思いがあります。(そんなに大変な問題でないように見えて、かつ、問題設定も優れていたのに、なぜ…) 炎上に対して思うところ(主観です) PixivBLのコンテンツを参照し、論文にハンドル名を含めて記述してしまっており、作家の方に精神的な不可をかけてしまうという事件がありました。 非常にRTされている代表的なツイートは、以下のようになっています。 (該当ツイートは盗用との指摘を受けたので消しました、検索すれば出るものなで、大乗だと

    ドメインにより意味が変化する単語の抽出 - にほんごのれんしゅう
    advblog
    advblog 2017/05/30
  • 1