ブログの全エントリを読み込むコード作ったので、とりあえずこれで学習して極小規模言語モデルを作ったら面白かろう、とやってみました。 というとかっこいいけど、まあ形態素解析して続く単語の頻度を覚えておいて、頻度に応じた単語をつなげていうという、Twitter老人会の方ならご存じの圧縮新聞ですね。圧縮きしだのHatenaか。 まあ、ここではてなブログのアーカイブを読み込むコードを書いたので、これで何かしたら面白かろうなと。 GPTのEmbeddingを利用してブログの投稿に対する近いものを探し出す - きしだのHatena それで、以前 圧縮新聞ぽいものを作っていたので、これを改めてはてなブログをデータに作ってみた感じです。 Igoという形態素解析器をつかって圧縮新聞っぽいものを作ってみる - きしだのHatena 圧縮新聞のアカウントは凍結されていますが、雰囲気はこちらを。 圧縮新聞さん迷言集