サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
TGS2023
pompom168.hatenablog.com
こんにちは、街中で「あの文字のフォント何なんだろう?」と思うことよくありますよね。そんなときに役立つサイト「フォントピント(β)」を作りました。 fontpint.com 実際のところ、フォント関連で何か作りたいなと思ってフォント関連の論文を漁っていたところ、Adobeが出している「DeepFont: Identify Your Font from An Image」という画像から使われているフォントを予測する論文を発見しました。論文自体が2015年で方法自体は今からすると古めの印象を受けるのですが、学習データの作り方や予測のさせ方がめちゃくちゃ参考になりこれベースでいけそうだと感じ作ることにしました。3月からちょこちょこやっていたのですが、数日前に4月10日がフォントの日であることを知ってめちゃくちゃ焦って作りましたが、何とか形にはすることができました。 サービス的な部分 類似サービスと
これは SHIROBAKO Advent Calendar 2019 22 日目の記事です。 SHIROBAKO とは一体何なのか。この問いに対して 10日目の記事 では、 「辿り着きたい場所」に向かっていく物語 という一つの仮説にたどり着いていました。答えは無数にありそうですが、それを抽象化した結果が SHIROBAKO は人生 なのだと思います。 それは SHIROBAKO に登場するストーリー/キャラクターが、誰しもの過去/現在/未来の人生と重なる部分があるからです。今回は数ある SHIROBAKO と自分の人生の重なりの中でも、井口祐未のストーリーについて振り返ってみようと思います。 ちゃぶだい返し 『ちゃぶだい返し』は 16話のタイトルであり、ストーリーとしてはキャラクターデザインを担当している井口のデザインに対して原作者からダメ出しを受け、修正を繰り返していくうちに井口が追い詰
タイトルのとおりですが、2019年10月31日に株式会社マイクロアドを退職して、2019年11月1日に株式会社Gunosyに入社しました。 転職して1ヶ月が経ち退職(転職)エントリとしては今更感がありますが、転職時の考えを文書化しておいていつでも振り返られるようにしておくための自己満に近い内容です。 なぜ転職するのか マイクロアドで何をしてたのか そしてなぜ転職か 機械学習システムにおける一部のコンポーネントしか出来るようになっていない 社内での評価と一般的な評価が一致していないのではないか キャリアのロールモデルがいない 結局のところ なぜGunosyなのか 実際転職してどうだったか おわりに なぜ転職するのか マイクロアドで何をしてたのか マイクロアドには、2018年3月に入社しました。元々新卒で2017年4月に就職した際にあまりの世間知らず故に、電話とメールとエクセルと印鑑貰い業と飲
自然言語処理のタスクにおいて、表記ゆれの問題が常につきまといます。単純なパターンであれば単純なルールで対処が可能です。例えばアルファベットの大文字・小文字の混在であれば全て小文字に変換すれば良いし、半角文字と全角文字の混在であれば全て全角文字に変換すれば良いでしょう。 しかし、略語はどうでしょうか。例えばPCはおそらくパソコンのことですね。ただ、かしこまった文書だとパーソナルコンピュータと表記されているかもしれません。こうなってくると、単純なルールでの対処はもう難しいでしょう。 そこで、単語の正規化(名寄せ)が必要です。単語の正規化の話は、Sansanの発表資料に良くまとまっています。大きく分けて以下の方法が考えられます。 単語マスタを用意しておき、入力単語に対してレーベンシュタイン距離(編集距離)を計算して最も距離が小さい単語を採用する 方法としては単純で扱いやすい マスタの用意が必要
機械学習(二値分類問題を考えます)において不均衡なデータセット(クラス間でサンプルサイズが大きく異なる)を扱う場合、多数派のクラスのサンプルに対してサンプリング行い均衡なデータセットに変換するダウンサンプリングが良く行われます。 この不均衡データのダウンサンプリングによって、サンプル選択バイアスが生じることが Calibrating Probability with Undersampling for Unbalanced Classification という論文で説明されています。 具体的には、少数派クラスの事前確率が大きくなります。一般的な問題設定では、正例のクラスが少数派クラスであるので、正例と予測される確率(事後確率)が大きくなります。 予測確率が重要な場合 *1 は特に、このバイアスの影響を除去しなければなりません。 実際、FacebookのCTR予測に関する論文でも、このバイア
今回は、KDD 2018で発表されたCTR (Click Through Rate) 予測に関する論文 Deep Interest Network for Click-Through Rate Prediction を紹介したいと思います。CTR予測は、広義では注目している行動を起こす確率予測であるので、レコメンドに関する論文と捉えることもできます。なお、1週間前くらいに Machine learning papers reading pitch #3 というイベントで、ATRank というリコメンドの汎用的な方法論の論文について紹介しましたが(資料はこちら)、著者らの所属は同じAlibabaです。(ただ著者は全く違います) なお自前で再実装したものは、以下にあります。 github.com 概要 従来手法 提案手法 従来手法の問題点 Deep Interest Network LSTMな
機械学習においてカテゴリ変数を扱うとき、何らかの変換を施して任意の数値で表現しなければなりません。 今回はWord2Vecのように任意のカテゴリ変数の分散表現を学習する、Entity Embeddingの紹介とそのPythonの実装をライブラリとして公開したので紹介します。 実装はこちらです。 github.com 実はEmbeddingレイヤというものを知ったときに、Entity Embeddingと同じ方法を思いついてCategory2Vecなどという名前で自分では呼んでいたのですが、普通に既に提案されていて、まあそりゃ誰でも思いつくよなと思った次第です。 Entity Embedding Entity EmbeddingはkaggleのRossmann Store Salesという店舗の売上を予測するコンペで3位になったチームが提案して使用した方法で、論文にもなっています。 arxi
kaggleのTalkingData AdTracking Fraud Detection Challengeで1位になったチームの解法の1つである、トピックモデルを用いたカテゴリからの特徴抽出を試してみたので紹介します。 Pythonでの実装はこちらです。 github.com 概要 参考にしたのは、kaggleでの解説とリクルートコミュニケーションズさんのブログでの解説です。 やろうとしていることは、トピックモデルを考えて2つのカテゴリ変数の共起度から潜在トピックを推定し、それを新規の特徴量として用いるということです。 トピックを抽出する方法として、LDA (Latent Dirichlet Allocation) / NMF (Non-negative Matrix Factorization) / LSA (Latent Semantic Analysis) が使われていましたが、
機械学習の評価値として、Accuracy/Precision/Recall/F1などが教科書にも載っており、最も有名な評価値だと思います。 ただ実産業への応用において、これらの評価値では正しくモデルの性能を評価できないことが多く、多くの機械学習エンジニアやデータサイエンティストにとって頭を悩ますポイントだと思います。 これまで自分なりに調査したり試行錯誤したりする中で、大体これでいいだろというものが何となく固まってきたので、備忘録のためにチートシート的なものにしました。 機械学習モデルの評価をする際の一助になれば幸いです。 分類問題では二値分類問題のみを対象としています。 RMSE (Root Mean Squared Error) 回帰問題の場合は基本的にRMSEを使えば良いと思います。 RMSEは予測値と目的変数の値の二乗誤差の平均値に平方根をとったものです。 これは非常に分かりやすく
前回は、データの可視化と変数選択を行いました。 pompom168.hatenablog.com 今回は、本格的に家賃予測モデルを生成します。 スクレイピングした物件の、8割を学習に、2割を評価のテスト用に使用することにします。 使用する変数 説明変数 部屋数、間取りK有無、間取りL有無、間取りS有無、築年数、建物高さ、部屋のある階、徒歩時間、駅(中野)、駅(阿佐ヶ谷)、駅(高円寺)、駅(お荻窪)、駅(西荻窪)、駅(吉祥寺)、駅(三鷹)、駅(武蔵境)、駅(東小金井)、駅(武蔵小金井)、駅(国分寺)、駅(西国分寺)、駅(国立) 応答変数 家賃+管理費 重回帰分析による回帰モデル 初めに重回帰分析です。 pythonのライブラリである、scikit-learnを使って実装しました。 以下、ソースコードです。 import pandas as pd import numpy as np impo
このページを最初にブックマークしてみませんか?
『pompom168.hatenablog.com』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く