エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
文章がどの作家に似ているか判別するモデルを作った話 - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
文章がどの作家に似ているか判別するモデルを作った話 - Qiita
概要 文章を入れたとき, それがどの作家か当てれる分類モデルを作りました. 具体的に言うと, BERTをファ... 概要 文章を入れたとき, それがどの作家か当てれる分類モデルを作りました. 具体的に言うと, BERTをファインチューニングすることで, 入れた文章から作者を分類する多値分類モデルを作りました. 作者としては 太宰治 寺田寅彦 江戸川乱歩 芥川龍之介 夢野久作 の五人を選びました. 選定理由は, 青空文庫から著作がダウンロードできること, どの作家も作品数がそこそこあることと, 筆者の趣味です. 前処理 青空文庫の情報はgithubの方から引っ張って来ました. 取得したhtmlからまずは前処理として ルビの削除 特殊な処理の削除 注の削除 を行いました. from bs4 import BeautifulSoup # soup = BeautifulSoup(html, features="lxml") def soup2text(soup): ele = soup.find("div",