xiangzeのブックマーク - はてなブックマーク

不動産価格分析とモデルの作成とクローム拡張 - にほんごのれんしゅう

序機械学習で不動産を予想する意味特徴量から重要度を知ることができる EndUserにとって嬉しいことは？線形モデルならばChrome ExtentionなどJavaScriptなどにモデルを埋め込むこともでき、意思決定の補助材料などとして、不動産の情報の正当性を推し量る事ができる管理会社にとって嬉しいことは？特徴量の重要度が明確にわかるため、設備投資戦略をどうするか、異常に値段がずれてしまっている案件の修正などに用いることができるデータを集めるダウンロード済みのデータはこちらLink モデルを検討する ElasticNetを利用 ElasticNetはL1, L2の正則化をあわせた線形モデルで、オーバーフィットを強力に避けて、予想するアルゴリズム 1 / (2 * n_samples) * ||y - w*x||^2 + alpha * l1_ratio * ||w|| +

xiangze 2019/03/26

リンク

ポアンカレエンベッディング - にほんごのれんしゅう

ポアンカレエンベッディング Euclid空間にエンベッディングするようなword2vecは意味の上下関係が明示的に記されません。(情報としたあったとしても僅かでしょう) ポアンカレボールという双曲幾何学空間に埋め込むことで、効率的に意味(や木構造)の上位関係をとらえることができます[1] 理解ポアンカレボールはこのような、外周部に行くほど密になる球みたいなものなのです。図1. ハニカム構造のPoincare Ball(Wikipediaより) ポアンカレボールでは外に行くほど情報が密になり、空間が広がっているともとらえます。数式で表現するとこのようになって、 gEというユークリッド距離がxが1に近づけば無限に大きくなることがわかります。このポアンカレボール上にある二点間の距離はこのように表現され、単純なユークリッド距離ではないことが見て取れます。この距離関数に基づいて損失関数L(

xiangze 2018/02/07

NLP

リンク

機械学習のスタックしていた案件をFacebook Prophetで３日で返済した話 - にほんごのれんしゅう

機械学習のスタックしていた案件をFacebook Prophetで３日で返済した話背景広告代理店業を行なっており、クライアント企業から予算を預かって、インターネット広告やマーケティング業をしているのだが、クライアントの予算消化の異常値を監視したい 2016年半ばに外部のデータ分析専門の会社に、その日の予算消化が異常の場合、アラートを鳴らすシステムを外注開始、2016年10月に納品 2017年9月半ばに進捗率が芳しくないことが判明した。終わる見込みが立たなかったので、私が解決に当たる（ついでに"Machine Learning: The High-Interest Credit Card of Technical Debt[2]"と呼ばれる負債化してしまう機械学習のシステムとはという評価軸があったので、これらから今回使えそうなプラクティスを取り出して適応してみたいというモチベーションが

xiangze 2017/09/24

リンク

RNNで「てにをは」を校正する - にほんごのれんしゅう

RNNで「てにをは」を校正する余談 2017/3/19に、どの深層学習フレームワークがこれから深層学習を始める人におすすめなのかというアンケートをtwitterで取らせていただきました。五位 Theano(個別カウント) はじめに RNNによる文章校正がリクルートによって提案されて以来、調査タスクとして私のものとに来たりして、「できるんでしょう？」とか軽く言われるけど、実際には簡単にはできません。 RNNによる文章生成ができるから、校正もできるというのが人間の自然な発想なのかもしれませんが、英語と日本語の違いに着目した場合、英語がアルファベットのみで構築されるのに比べて日本語は、漢字・ひらがな・カタカナと非常に多く、同じように問題を適応すると、すごい高次元の問題を解くこととなり、理想的なパフォーマンスになかなかなりません。まぁ、あんまり完成してるわけでない技術を完成したようにプレスリ

xiangze 2017/03/20

リンク

複数の著者をテキスト情報を混ぜ合わせたRNNと長文の改善手法 - にほんごのれんしゅう

問題背景 RNNによる単純な小説の学習と、学習結果の出力は過去、多くの事前研究で行われており、ある程度、人が書いたらしいと思われる文章が数多く出力されてきた。[1], [2] しかしながら、複数の著者の小説を混在させて評価した例は少ないか無いように思う。著者を混ぜ合わせて学習した場合、両方の著者の特性を備えたモデルができるのではないかと仮定した。また副次的知見として、Attentionの情報を引数に取らないRNNは一般的に長文に弱いが、もっとかんたんな方法で長文を生成することに成功したので、その時の情報を記す。提案手法複数の著者の文章を混ぜ合わせ、学習用データ・セットとする長文を出力させるために、前の出力内の特徴となる文字を取り出して、一度、LSTMをリセットし、前の文の末尾の文字列のシーケンスを経過したと言う状態を作り出し、連続しない自然な長文を出力させる図1. 今回使用した