サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
大谷翔平
tksmml.hatenablog.com
現在、NLPの分野でも転移学習やfine-tuningで高い精度がでる時代になっています。 おそらく最も名高いであろうBERTをはじめとして、競ってモデルが開発されています。 BERTは公式のtensorflow実装は公開されてありますが、画像分野の転移学習モデルに比べると不便さが際立ちます。 BERTに限らず、公式のtensorflow実装は難解で、tf.kerasの学習済みモデルに関してもほとんど画像のモデルしかないです。 ただし、pytorch用のライブラリにpytorch-transformersという有用なものがありまして、 BERT, GPT-2, RoBERTa, DistilBert, XLNetなどの多言語学習済みモデルが利用可能で、カスタマイズもしやすいということで有名でした。 このライブラリが名前をかえてtensorflow2に対応してくれました。 Transform
アイテム情報とユーザー情報を組み合わせた、パーソナライズされた推薦を行う基本的なシステムを紹介します。重み付けしたcosine similarity (コサイン類似度)によるシンプルな手法です。いわゆるcontent-basedなrecommendになっています。 機械学習を使った推薦システムでは、metric learningやautoencoderなどで高尚な特徴量に変換し、類似度の大きさを指標としたものが派手な話題性の高い手法だと思います。しかし、これらの手法は直感的でないので、うまく学習できないと全く使えないものになると思います。そこで、保守的な、ベースラインとして使う想定の手法を紹介したいと思います。 推薦システム まずは、recommendの概要を簡単にまとめます。 recommnedは主に以下の2種類のアルゴリズムが使われます。 content-based (コンテンツベース
概要 以下の記事の続編になります。こちらの記事では、hugging faceのtransformersというライブラリを使用してBERTのfine-tuningを試しました。 transformersでの公開済みモデルを使用したfine-tuningの流れを紹介しているので、サポートされていない学習済みモデル(自分で学習させたものなど)を使って転移学習やfine-tuningをしたい場合は前回の記事を参照して頂いた方がいいかと思います。 tksmml.hatenablog.com 本記事では、以下を扱います。 日本語サポートの拡充についてざっくりまとめる 追加された学習済みモデルを使った、前回いまいちだった日本語文書分類モデルの精度の向上 → 飛躍的に精度上がりました!!! transformersの日本語学習済みモデルのサポート!!! おはようござえます、日本の友達 Hello, Fri
自然言語処理 Advent Calendar 2019の10日目です。昨日は、ktr_wtbさんの形態素解析ツールインストール(MeCab,Juman++,Janome,GiNZA)と、plantarumさんの自然言語処理を始める準備でした。 本記事では、以下の論文の概要をまとめます。(技術系の記事が多いのでちょっと気がひけますが) EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [Jason W. Wei, Kai Zou; 2019] 以下、すべての画像はこの論文からの引用です。 TL;DR 英語の5つの文書分類タスクで以下の処理により、Data Augmentationを行った。 (先行研究あり) 同義語で置換 (New!) randomな同義語の
このページを最初にブックマークしてみませんか?
『tksmml.hatenablog.com』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く