AOI-CATのブックマーク / 2024年5月24日

AOI-CAT id:AOI-CAT

2024年5月24日のブックマーク (7件)

日本語の文章をいい感じに文区切りするライブラリを作った - Qiita
はじめに昨今、自然言語処理技術の発展はめざましく、様々な分野で応用が進められています。そんな私も自然言語処理技術やAIを活用した業務をこなすことが多いのですが、その中でとりわけめんどくさい（しかし重要な）作業は、様々な前処理に関するものです。大抵のタスクで実施することになる主な前処理としては、以下のようなものがあります。クリーニング HTMLタグや記号等、テキスト中のノイズを除去正規化(normalization) 全角・半角や大文字・小文字等の統一文区切り(sentence segmentation) 文と文の区切りを検出し分割単語分割(tokenization) 文を単語の列に分割ストップワードの除去解きたいタスクに不要な単語を除去私は主にPythonを利用しているのですが、これらの中で日本語の文区切りについては適当なライブラリが無く、毎回似たようなコードを書く羽目
AOI-CAT 2024/05/24
日本語

python

NLP
リンク
WeaviateとOSSエンベディングモデルを使ったベクトルDB構築 - Qiita
記事の概要 RAGの技術を支えているベクトル検索を体験したいと思いいたったが、Azure AI SearchやOpenAIのエンベディングモデルなどの課金サービスが一般的となっているため、「とりあえず試したい」と思った時に敷居が高いというのが現状だと感じている。そこで、オープンソースのベクトルDB（Weaviate）と日本語対応のエンベディングモデル（BERT）を使った、ベクトル検索を体験する環境を構築する。 ※コサイン類似度やベクトル、エンベディングの考え方については、省略します。 ※Weaviateはv4もリリースされているみたいだが、今回はv3で構築している。動画でも紹介してます。環境 OS:Windows 11 GPU:GeForce RTX 4090 CPU:i9-13900KF memory:64G python:3.10.10 pytorch:2.0.1 CUDA:11
AOI-CAT 2024/05/24
vectorDB

Weaviate
リンク
OSSベクトルDBのChromaを使ってQ&AボットをLangChainで作成する｜mah_lab / 西見公宏
新興で勢いのあるベクトルDBにChromaというOSSがあり、オンメモリのベクトルDBとして気軽に試せます。 LangChainやLlamaIndexとのインテグレーションがウリのOSSですが、今回は単純にベクトルDBとして使う感じで試してみました。データをChromaに登録する今回はLangChainのドキュメントをChromaに登録し、LangChainのQ&Aができるようなボットを作成しようと思います。しかしLangChainのドキュメントはほとんどがJupyter Notebook形式なので、ベクトルDBへ取り込みやすいようにフラットテキストにしてあげる必要があります。以下の関数はJupyter Notebook形式（JSON）のファイルを分解してMarkdown形式に変換し、その後Unstructured.ioのMarkdownスプリッタを利用してコンテンツをチャンクに分割
AOI-CAT 2024/05/24
LLM

LangChain

Chroma

vectorDB
リンク
GitHub - hppRC/simple-simcse-ja: Exploring Japanese SimCSE
文埋め込みは自然言語文の密ベクトル表現であり、類似文検索や質問応答、最近では検索補助付き生成(Retrieval Augmented Generation: RAG)に盛んに利用されています。文埋め込みを構成する方法には様々な種類がありますが、近年では事前学習済み言語モデルに対して対照学習(Contrastive Learning)によるfine-tuningを施す手法が高い性能を示しています。その中でも代表的な手法がSimCSE (Simple Contrastive Sentence Embedding)です。 SimCSEには教師なし・教師ありの二つの設定があります。教師なし設定では、事前学習済み言語モデル中に存在するDropoutモジュールをデータ拡張の手段とみなして「モデルに同じ文を2回入れて、同じ文同士を正例とする」ことで対照学習を行います。教師あり設定では、自然言語推
AOI-CAT 2024/05/24
文埋め込みモデル

NLP

Japanese
リンク
【自然言語処理】BERTの単語ベクトルで「王+女-男」を計算してみる
ベクトルの近傍探索ライブラリfaissの操作備忘録を書きたかったのですが、それだけだとつまらなかったので、Word2Vec等で有名な単語ベクトルの演算がBERTにより獲得されたベクトルでもできるのか調べてみました。事前準備ライブラリのインストール python3 -m venv .env source .env/bin/activate pip install faiss-cpu transf ormers numpy import torch from transf ormers import AutoModel, AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("cl-tohoku/bert-base-japanese-whole-word-masking") model = AutoModel.from_pretrain
AOI-CAT 2024/05/24
NLP

BERT

Japanese
リンク
【🔰自然言語処理】単語の分散表現② Word2VecとBERT - つくもちブログ〜Python&AIまとめ〜
このシリーズでは、自然言語処理において主流であるTransf ormerを中心に、環境構築から学習の方法までまとめます。この記事では単語の分散表現の理解のため、前回紹介したWord2Vecと比較しながら、BERTによる単語のベクトル化の流れを紹介します。 Google colabを使用して、簡単に最新の自然言語処理モデルを実装することができますので、ぜひ最後までご覧ください。【ChatGPT】自然言語処理まとめ【Huggingface Transf ormers】自然言語処理に関するおすすめの書籍 ChatGPT ChatGPTを中心とした、GPT系の関連技術を紹介します。 ChatGPTの概要・ChatGPTとは・ChatGPTができること・ChatGPTの問題点…
AOI-CAT 2024/05/24
NLP

BERT

Japanese
リンク
GitHub - cl-tohoku/bert-japanese: BERT models for Japanese text.
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
AOI-CAT 2024/05/24
NLP

BERT

japanese
リンク
- 2024年5月25日
- 2024年5月24日
- 2024年5月23日