taiyo-kのブックマーク / 2023年11月29日

大規模小説データをOpenAI Embedding APIで特徴抽出してUMAPで可視化してみた

テラーノベルで機械学習を中心に担当している川尻です。みなさんも大量のデータを特徴抽出してみたけど、どう使ったらいいかわからないなぁということありますよね。とりあえずどういうデータなのか雰囲気だけでもみるために、簡単な可視化から入るかと思います。以前にもグラフデータの可視化について記事を書きました。テラーノベルでは小説投稿アプリを作っており、OpenAI Embedding APIを使って全作品の特徴量を出しているデータベースがあります。今回はこのデータを例にして、UMAPという可視化に便利な次元削減手法の使い方を紹介します。 UMAPとは UMAPというのは非線形の次元削減手法で、特徴は次元数やデータ量に対してほとんど一定の計算時間で済むということです。LLMなどの事前学習モデルでよく扱うような1,000次元を超えるような特徴量でも全く問題なく動きます。さらに、Pythonでとても使いや

はてなブックマーク

タグ

2023年11月29日のブックマーク (2件)

大規模小説データをOpenAI Embedding APIで特徴抽出してUMAPで可視化してみた

ChatGPT4より3.5が美味い～AI味くらべ～

お知らせ

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス