はじめに Qiita初心者の@pyopp8128と申します。 これまでに記事を2本ほど投稿してみたのですが、他人に見てもらえる記事というのはそう簡単に書けるものでもなく、「あ~楽してLGTM沢山貰いたいな~」などと言っているところでしたが、じゃあ LGTMが多くつく記事ってどんな記事だ? という疑問に至りました。 そこで、記事本文を自然言語処理により解析し、LGTMがつく/つかないを判別する機械学習モデルができないか を試してみることにしました。 本記事の内容は以下の通りです。 LGTMの数を基準に、Qiita上の記事がバズるかバズらないかを判別するAI を作ったよ BERTのファインチューニングにより、Qiita中の記事がLGTM>100かどうか判別する2クラス分類深層学習モデルを作成したよ Qiita APIを通して取得した約10,000記事のデータセットを用いてモデル構築&性能評価を
![文章からLGTM数を予測して「バズる記事」を判別してみた - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/0ff22aaa6a6ef6baed9192fb40e112cf4558cf47/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9JUU2JTk2JTg3JUU3JUFCJUEwJUUzJTgxJThCJUUzJTgyJTg5TEdUTSVFNiU5NSVCMCVFMyU4MiU5MiVFNCVCQSU4OCVFNiVCOCVBQyVFMyU4MSU5NyVFMyU4MSVBNiVFMyU4MCU4QyVFMyU4MyU5MCVFMyU4MiVCQSVFMyU4MiU4QiVFOCVBOCU5OCVFNCVCQSU4QiVFMyU4MCU4RCVFMyU4MiU5MiVFNSU4OCVBNCVFNSU4OCVBNSVFMyU4MSU5NyVFMyU4MSVBNiVFMyU4MSVCRiVFMyU4MSU5RiZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9MmMxM2I0ZTdjZWU1MmY3NmZmMzZiMzczZjg4NzM3ZTg%26mark-x%3D142%26mark-y%3D57%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9NzcwJnR4dD0lNDBweW9wcDgxMjgmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zNiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTFiNzE0N2ZhMWJiYjdlYjJlMjg4MjYyOTdjMmRkZDQ1%26blend-x%3D142%26blend-y%3D486%26blend-mode%3Dnormal%26s%3D2c04b3bfe493421f99e5c751db0d8d52)