タグ

2023年11月29日のブックマーク (2件)

  • 大規模小説データをOpenAI Embedding APIで特徴抽出してUMAPで可視化してみた

    テラーノベルで機械学習を中心に担当している川尻です。みなさんも大量のデータを特徴抽出してみたけど、どう使ったらいいかわからないなぁということありますよね。とりあえずどういうデータなのか雰囲気だけでもみるために、簡単な可視化から入るかと思います。以前にもグラフデータの可視化について記事を書きました。 テラーノベルでは小説投稿アプリを作っており、OpenAI Embedding APIを使って全作品の特徴量を出しているデータベースがあります。今回はこのデータを例にして、UMAPという可視化に便利な次元削減手法の使い方を紹介します。 UMAPとは UMAPというのは非線形の次元削減手法で、特徴は次元数やデータ量に対してほとんど一定の計算時間で済むということです。LLMなどの事前学習モデルでよく扱うような1,000次元を超えるような特徴量でも全く問題なく動きます。さらに、Pythonでとても使いや

    大規模小説データをOpenAI Embedding APIで特徴抽出してUMAPで可視化してみた
    taiyo-k
    taiyo-k 2023/11/29
  • ChatGPT4より3.5が美味い~AI味くらべ~

    「今や私達の生活に欠かせない生成AIだが」そんな書き出しを来年あたりはしているのではないだろうか。AIのスマホアプリに音声認識がついておしゃべりができたり、その進化の速度はめざましい。 私は計算ができなかったりウソをしれっとつく今のAIの至らぬところが好きだ。でもすぐに更新されて忘れてしまうのだろう。せめて思い出にでもできたらいいなと思う。 おふくろの味、大学の学の味、味には思い出がある。AIレシピを聞いてせめて味としておぼえておこう。

    ChatGPT4より3.5が美味い~AI味くらべ~
    taiyo-k
    taiyo-k 2023/11/29