タグ

ブックマーク / www.yasuhisay.info (3)

  • Rettyにおける推薦文からの見出し抽出の論文を読んだ - yasuhisa's blog

    OR学会の自然言語処理と数理モデルの特集で、はてなと同じくC向けのサービスを運営しているRettyさんの論文が出ていたので、週末に論文を読みました。方法論としてはシンプルだけど、サービスへの貢献もなかなかありそうだなーと思いながら眺めました。 CiNii 論文 -  優先度学習による推薦文からの見出し抽出 (特集 自然言語処理と数理モデル) http://www.orsj.or.jp/archive2/or62-11/or62_11_696.pdf 過去の機関誌目次|公益社団法人 日オペレーションズ・リサーチ学会 OR学会、昔の論文も自由に見れていいですね! 箇条書きスタイルでまとめておきます。 推薦文からレストランの特徴を表わす見出しを自動で抽出したい 全部で80万レストランあり、見出し文の定期的な更新もやりたいので、人手では難しい 優先度学習を使って見出しを抽出する方法を提案 一種の

    Rettyにおける推薦文からの見出し抽出の論文を読んだ - yasuhisa's blog
    moa108
    moa108 2018/05/09
  • 社内でKaggleの布教活動をやっている話 - yasuhisa's blog

    最近、社内勉強会で機械学習についてエンジニアに説明する機会があり、その際にKaggleについても説明しました。一方で うーん、「Kaggler はパラメータチューニングやアンサンブル等の自明でインクリメンタルな改善『しか』できない」というような誤解はどうやって解いていけばいいんだろう。— im132nd (@im132nd) 2018年4月4日 という話もあり、(特にデータサイエンティスト以外の職種の人が)Kaggleをやる意義/メリットについてまとめてみました。ガッと勢いで書いたので、項目に結構被りがあります。なお、書いている人はKaggleほぼ初心者であまり説得力がないです。Kaggle Masterの人がもっといいエントリを書いてくれるのを期待しています、議論の叩き台エントリです!! Kaggleをやる意義/メリット 様々なデータセットを触ることができる kernelでデータ分析

    社内でKaggleの布教活動をやっている話 - yasuhisa's blog
  • KaggleのCTR予測コンペで上位10%に入るまでの試行錯誤 - yasuhisa's blog

    週末KagglerとしてavazuのCTR予測コンペに参加しました。Kaggleは機械学習版のISUCONだと思ってもらえばよいです。コンペ自体は終わっているので、late submiteであまり意味はないかもしれません、練習です。leaderboard上で上位10%以内に行けたので、そこまでの試行錯誤をメモしておきます。謎ノウハウ(?)を持っているガチ勢じゃないと上位に行けないものかと思っていましたが、基に忠実にやればこれくらいの順位(上位7.6%)に行けましたし、他の人の工夫を垣間見えるという意味でも現場の機械学習やり始めたエンジニアにお薦めできそうでした。 参加の動機 目標感: 頑張りすぎずに上位10%以内に入る 試行錯誤 AthenaとRedashによる探索的データ解析 ベンチマークをまず超える 線形分類器でシンプルな特徴量 時系列要素を忘れていて過学習発生 特徴量エンジニアリン

    KaggleのCTR予測コンペで上位10%に入るまでの試行錯誤 - yasuhisa's blog
  • 1