サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
GPT-4o
scol.hatenablog.com
『小説家になろう』](https://syosetu.com/)とはウェブ小説を掲載している小説投稿サイトであり、色んな面白い小説が無料で読めちゃうすごいサイトです。『小説家になろう』から作品本文を取得する方法を知っていれば自然言語処理やその他機械学習の入力データとして使えて色々便利なので、この記事ではその方法について述べます。本文の取得はPythonによるスクレイピングによって行います。 注意事項 スクレイピングに使用するライブラリ 環境 Nコードについて 全文取得(最もシンプル) 全部分数取得+全文取得 差分取得 コマンドラインツール化した(GitHub) 参考 ちなみに,『小説家になろう』には作品をテキストファイルとしてダウンロードするための正規のサービスが存在します。各作品ページの下部には「TXTダウンロード」のリンクがあり、そこから作品をダウンロードできます(※このリンクはログイ
このページを最初にブックマークしてみませんか?
『scol.hatenablog.com』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く