タグ

ブックマーク / catindog.hatenablog.com (5)

  • 不動産価格分析とモデルの作成とクローム拡張 - にほんごのれんしゅう

    機械学習不動産を予想する意味 特徴量から重要度を知ることができる EndUserにとって嬉しいことは? 線形モデルならばChrome ExtentionなどJavaScriptなどにモデルを埋め込むこともでき、意思決定の補助材料などとして、不動産の情報の正当性を推し量る事ができる 管理会社にとって嬉しいことは? 特徴量の重要度が明確にわかるため、設備投資戦略をどうするか、異常に値段がずれてしまっている案件の修正などに用いることができる データを集める ダウンロード済みのデータはこちらLink モデルを検討する ElasticNetを利用 ElasticNetはL1, L2の正則化をあわせた線形モデルで、オーバーフィットを強力に避けて、予想するアルゴリズム 1 / (2 * n_samples) * ||y - w*x||^2 + alpha * l1_ratio * ||w|| +

    不動産価格分析とモデルの作成とクローム拡張 - にほんごのれんしゅう
    xiangze
    xiangze 2019/03/26
  • ポアンカレエンベッディング - にほんごのれんしゅう

    ポアンカレエンベッディング Euclid空間にエンベッディングするようなword2vecは意味の上下関係が明示的に記されません。(情報としたあったとしても僅かでしょう) ポアンカレボールという双曲幾何学空間に埋め込むことで、効率的に意味(や木構造)の上位関係をとらえることができます[1] 理解 ポアンカレボールはこのような、外周部に行くほど密になる球みたいなものなのです。 図1. ハニカム構造のPoincare Ball(Wikipediaより) ポアンカレボールでは外に行くほど情報が密になり、空間が広がっているともとらえます。 数式で表現するとこのようになって、 gEというユークリッド距離がxが1に近づけば無限に大きくなることがわかります。 このポアンカレボール上にある二点間の距離はこのように表現され、単純なユークリッド距離ではないことが見て取れます。 この距離関数に基づいて損失関数L(

    ポアンカレエンベッディング - にほんごのれんしゅう
    xiangze
    xiangze 2018/02/07
  • 機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 - にほんごのれんしゅう

    機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 背景 広告代理店業を行なっており、クライアント企業から予算を預かって、インターネット広告やマーケティング業をしているのだが、クライアントの予算消化の異常値を監視したい 2016年半ばに外部のデータ分析専門の会社に、その日の予算消化が異常の場合、アラートを鳴らすシステムを外注開始、2016年10月に納品 2017年9月半ばに進捗率が芳しくないことが判明した。終わる見込みが立たなかったので、私が解決に当たる (ついでに"Machine Learning: The High-Interest Credit Card of Technical Debt[2]"と呼ばれる負債化してしまう機械学習のシステムとはという評価軸があったので、これらから今回使えそうなプラクティスを取り出して適応してみたいというモチベーションが

    機械学習のスタックしていた案件をFacebook Prophetで3日で返済した話 - にほんごのれんしゅう
    xiangze
    xiangze 2017/09/24
  • RNNで「てにをは」を校正する - にほんごのれんしゅう

    RNNで「てにをは」を校正する 余談 2017/3/19に、どの深層学習フレームワークがこれから深層学習を始める人におすすめなのかというアンケートをtwitterで取らせていただきました。 五位 Theano(個別カウント) はじめに RNNによる文章校正がリクルートによって提案されて以来、調査タスクとして私のものとに来たりして、「できるんでしょう?」とか軽く言われるけど、実際には簡単にはできません。 RNNによる文章生成ができるから、校正もできるというのが人間の自然な発想なのかもしれませんが、英語と日語の違いに着目した場合、英語がアルファベットのみで構築されるのに比べて日語は、漢字・ひらがな・カタカナと非常に多く、同じように問題を適応すると、すごい高次元の問題を解くこととなり、理想的なパフォーマンスになかなかなりません。 まぁ、あんまり完成してるわけでない技術を完成したようにプレスリ

    RNNで「てにをは」を校正する - にほんごのれんしゅう
    xiangze
    xiangze 2017/03/20
  • 複数の著者をテキスト情報を混ぜ合わせたRNNと長文の改善手法 - にほんごのれんしゅう

    問題背景 RNNによる単純な小説の学習と、学習結果の出力は過去、多くの事前研究で行われており、ある程度、人が書いたらしいと思われる文章が数多く出力されてきた。[1], [2] しかしながら、複数の著者の小説を混在させて評価した例は少ないか無いように思う。 著者を混ぜ合わせて学習した場合、両方の著者の特性を備えたモデルができるのではないかと仮定した。 また副次的知見として、Attentionの情報を引数に取らないRNNは一般的に長文に弱いが、もっとかんたんな方法で長文を生成することに成功したので、その時の情報を記す。 提案手法 複数の著者の文章を混ぜ合わせ、学習用データ・セットとする 長文を出力させるために、前の出力内の特徴となる文字を取り出して、一度、LSTMをリセットし、前の文の末尾の文字列のシーケンスを経過したと言う状態を作り出し、連続しない自然な長文を出力させる 図1. 今回使用した

    複数の著者をテキスト情報を混ぜ合わせたRNNと長文の改善手法 - にほんごのれんしゅう
    xiangze
    xiangze 2016/12/09
  • 1