タグ

ブックマーク / github.com/hppRC (2)

  • GitHub - hppRC/simple-simcse-ja: Exploring Japanese SimCSE

    文埋め込みは自然言語文の密ベクトル表現であり、類似文検索や質問応答、最近では検索補助付き生成(Retrieval Augmented Generation: RAG)に盛んに利用されています。 文埋め込みを構成する方法には様々な種類がありますが、近年では事前学習済み言語モデルに対して対照学習(Contrastive Learning)によるfine-tuningを施す手法が高い性能を示しています。 その中でも代表的な手法がSimCSE (Simple Contrastive Sentence Embedding)です。 SimCSEには教師なし・教師ありの二つの設定があります。 教師なし設定では、事前学習済み言語モデル中に存在するDropoutモジュールをデータ拡張の手段とみなして「モデルに同じ文を2回入れて、同じ文同士を正例とする」ことで対照学習を行います。 教師あり設定では、自然言語推

    GitHub - hppRC/simple-simcse-ja: Exploring Japanese SimCSE
    secondlife
    secondlife 2023/10/05
    日本語の文ベクトル(embeddings)をSimCSEで学習させたもの、高性能らしい
  • GitHub - hppRC/llm-lora-classification: LLMとLoRAを用いたテキスト分類

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - hppRC/llm-lora-classification: LLMとLoRAを用いたテキスト分類
    secondlife
    secondlife 2023/07/24
    LLMをLoRAで学習させ、BERTでよく行うようなテキスト分類タスクをの例とそれを使った日本語LLMの評価。outputs.last_hidden_state + シーケンス長のデータを使う。
  • 1