「UniDic」を検索 - はてなブックマーク

1 - 40 件 / 40件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

UniDicの検索結果1 - 40 件 / 40件

表記揺れ検出ツール「テキストゆれないくん」 - inzkyk.xyz
- 977 users
- inzkyk.xyz
- テクノロジー
- 2024/04/27
その他のサンプル: Wikipedia:良質な記事, Wikipedia:長いページ紹介「テキストゆれないくん」は文章に含まれる表記揺れを検出するツールです。「コンピュータ」と「コンピューター」、あるいは「全て」と「すべて」といった同じ単語の別表記が使われていないかどうかをチェックできます。「テキストゆれないくん」は元々このサイト (https://inzkyk.xyz/) の文章校正用に開発されました。機能が成熟してきたので UI を付けて公開します。このページから手動で使う限り、「テキストゆれないくん」は商用/非商用を問わず自由に使って構いません。「テキストゆれないくん」は無保証で提供されます。特徴ウェブブラウザから使えるこのページをウェブブラウザで開いているなら、「テキストゆれないくん」は既に動いています。このページの最初にあるのは「テキストゆれないくん」を使うための完
- ツール
- あとで読む
- 文章
- webサービス
- 言語
- tool
- 小説
- パターン
- 便利
- webservice
大規模言語モデルをフルスクラッチする練習 (環境構築ー前処理ー事前学習ーファインチューニングー評価まで)｜Kan Hatakeyama
- 112 users
- note.com/kan_hatakeyama
- テクノロジー
- 2024/03/06
はじめに以下のオープンなプロジェクトの一環で､大規模言語モデルをフルスクラッチで作る練習をします｡24年3月現在､協力者も募集中です｡リポジトリ当該プロジェクトの標準コードが公開※されたので､それを走らせてみます｡ ※24/3/5時点で､まだレポジトリ内に､工事中の箇所が多々､あります｡このリポ上では､事前学習ー事後学習ー評価まで､一気通貫(?)したパイプラインが提供されています※｡ 0. 環境構築プロジェクトの本番環境はクラウドですが､今回は手持ちのubuntuを使います｡ Dockerはお手軽な一方で､スパコン上で使うと､どうやら速度が落ちるらしいとの噂を聞いたので､condaで作ります(とはいえ､pipしか使わないので､pyenvでもいけると思います)｡必要なマシン適当なlinux: 例えばUbuntu 22.04.3 LTS GPU: 20 GBくらいは欲しいかも? ディスク
日本語LLMをPPOでファインチューニングする - Qiita
- 25 users
- qiita.com/jovyan
- テクノロジー
- 2023/12/29
TL;DR 3.6Bパラメータの日本語LLMに対し全パラメータをSupervised Fine Tuning (SFT)をしたさらにLoRAを使用してProximal Policy Optimization (PPO)を行った精度を定量評価できるようなタスクでSFT, PPOを行い、PPOにより確かに精度が向上することを確かめた学習はすべてGoogle ColabのA100 GPU1枚を用いて行ったはじめに GPT-3.5などのLLMの学習は以下の３段階で行われています。 Pre-traininig: 大規模なコーパスを用いた言語モデルの事前学習 Supervised Fine Tuning (SFT): 対話形式や指示・応答形式のデータセットを用いたファインチューニング Policy Optimization: 人間にとって好ましい応答をさせるためのファインチューニング（ポリシー
- LLM
- NLP
- あとで読む
- qiita
大規模言語モデル(Llama2など)を正攻法でファインチューニングする際のメモ(ZeRO-Offload, not QLoRA) ｜Kan Hatakeyama
- 8 users
- note.com/kan_hatakeyama
- テクノロジー
- 2023/09/25
背景と目的大きめのサイズ(>数b)の大規模言語(LLM)をファインチューニングします｡ファインチューニングにはLoRAやQLoRAと呼ばれる手法が良く使われ､一般家庭レベル(?)のGPUでも動かせるようになってきています｡しかし､LoRAで学習させられる知識や情報には､制約があるのでは､とも囁かれています｡そこで､本記事は､loraではないフルパラメータのファインチューニングを､限られたGPUメモリで行います｡ deepspeedというライブラリを使います｡ deepspeedにはモデルの動作に必要なメモリをCPUメモリに移す機能などがあるようで､それを使います(キーワード: offload, ZeRO)｡ 7bモデルは20GB程度のVRAMで学習できました｡以下の公式チュートリアルをもとに進めたいところですが､情報が断片的で､自分にはあまり理解できなかったので､webサイトを適当
- LLM
- AI
- 言語
- メモ
Jaccard係数に基づく類似文書検索の高速化技法 - LegalOn Technologies Engineering Blog
- 6 users
- tech.legalforce.co.jp
- テクノロジー
- 2024/03/25
こんにちは、LegalOn Technologiesでエンジニアをしている神田（@kampersanda）です。本記事では、Jaccard係数に基づく類似文書検索の高速化技法を解説し、契約書検索での実験結果を報告します。背景と目的共起に基づく類似文書検索の必要性契約書検索での注意点本記事の目的準備表記 Jaccard係数 Overlap係数との関係問題設定線形探索による解法高速化の方針 Length Filtering Position Filtering 高速化のための要素順序アルゴリズム転置索引を使った解法基本的なアイデア Prefix Filteringに基づくトークンの絞り込み高速化のための要素順序アルゴリズム実験データセット統計量 Length Filterの検出率に関する結果検索時間に関する結果おわりにメンバー募集中!! 背景と目的共
PodcastをWhisperで文字起こしして、BERTで句読点抜きの文章に句読点を付与する（その２） - Qiita
- 4 users
- qiita.com/SoySoySoyB
- テクノロジー
- 2023/10/05
PodcastをWhisperで文字起こしして、BERTで句読点抜きの文章に句読点を付与する（その２）Pythonpodcastwhisperbert はじめに前回の記事では、Podcast配信の仕組みを踏まえて、各エピソードの音声ファイルのURLを取得し、Whisperで文字起こしするところまでを書きました。このとき、文字起こしはできたものの、なぜか句読点が入らないという問題がありました。そこで今回は、句読点のない文章に句読点を入れる方法を取り上げます。先にお伝えしておきますが、私はこの領域には知見が浅く、「句読点の無い文章に句読点を挿入する（BERTによる予測）」の記事を大いに参考にさせていただきました。こんな方におすすめ文字起こしをしたものの句読点が入らず困っているあまり詳しくないもののとりあえずBERTを動かしてみたい句読点付与の成果先にどのような結果となったのかをお
魔法少女リリカルなのは形態素解析比較大会 - Qiita
- 2 users
- qiita.com/SuperHotDogCat
- アニメとゲーム
- 2024/03/16
「魔法少女リリカルなのは」を形態素解析しようまずこの話題を話すためには「魔法少女リリカルなのは」形態素解析問題について話さねばなるまい。「魔法少女リリカルなのは」形態素解析問題とは簡単に言うと「なのは」を人名としてユーザー辞書に登録すると「~なのは」という日本文の解析がUnidicやMecabでうまくいかなくなる問題である。しかし最近はBPEやSentence Pieceなどの台頭によりトークナイザー方法も進化してきた。そこで, 現代のトークナイザーはどのように「魔法少女リリカルなのは」をトークナイズしていくのかを見ていこうというのがこの記事の目的である。まずは人の手でトークナイズ最近はトークナイズ方法も色々考案されてきているため意味が変わってきている気がするが, 元々の意味での形態素解析とは、文章を意味を持つ最小単位である「形態素」に区切り、それぞれを名詞や動詞などの品詞に分類する
Elasticsearch v8.9 で実装した日本語NLP、ベクトル検索（セマンティック検索）を使ってみる - Qiita
- 2 users
- qiita.com/daixque
- テクノロジー
- 2023/09/08
Elasticsearch v8.9 で実装した日本語NLP、ベクトル検索（セマンティック検索）を使ってみるNLPElasticsearchベクトル検索VectorSearchVectorStore はじめに Elasticsearchはそれなりに以前からベクトル検索を実現していて、加えてv8.0からは外部のNLPモデルをElasticsearchに取り込んで、Elasticsearch上でテキストのベクトル化（embedding）を実行することが可能でした。しかし残念ながら日本語については、テキストのトークナイズ処理が対応しておらず、適切なテキスト分析ができない状態でした。そこで日本語モデルを利用する際に適切なトークナイズを実現できるように以下のPRを送ったところ無事マージされてv8.9から利用できるようになりました。 ElasticsearchのPR ElandのPR そこでこの取り
- search
AWS Inf2によるモデル推論―コンパイルから速度比較まで｜朝日新聞社メディア研究開発センター
- 2 users
- note.com/asahi_ictrad
- テクノロジー
- 2024/02/12
もう一つが、RevCommさんのテックブログです。こちらはLLMではなく、自社の音声感情認識モデルをInf2インスタンスを使うことでGPUインスタンス上よりも高速かつ安価に推論できたと報告しています。この記事には何が書いてあるか？上述の記事3本でも十分Inf2について知れますが、この記事の特徴はこちらの3点です。 Inf2インスタンス立ち上げ後からBERTモデル（具体的にはBERTベースの系列ラベリングモデル）のコンパイルまでの流れを説明 Hugging Faceのoptimum-neuronを用いたモデルコンパイルおよび推論のサンプルコードを提供モデルコンパイル時のオプションごとの推論速度の比較前置きが長くなってしまいましたが、さっそく本題に入っていきましょう。そもそもInf1とInf2は何が違うのか？ここではInf1インスタンスを触った事がある人向けに簡単にInf1とInf2の
「実務で後一歩使えない」を解決するLLM・RAG　~質問回答に必要なドキュメントを適切に検索する~
- 2 users
- zenn.dev/team_nishika
- テクノロジー
- 2024/04/23
Nishika DSの髙山です。今回は前回の記事「実務で後一歩使えない」を解決するLLM・RAG　~PDFの表を崩さず理解する~の続編です。実際にLLM・RAGを使ったシステムを構築した際に「なかなか適切なドキュメントをひっかけてくれない」という悩みはつきものです。どのような場合にドキュメントの検索が難しいのか、課題とその解決策を紹介します。【実務での悩み】固有名詞（商品コード、製品名など）に関する質問に関するドキュメントが検索できない例えば商品固有の名前やコードについて質問をして社内のナレッジに基づいて回答をさせたいというケースは実務でニーズがあると思います。日本の官公庁のWebサイトに掲載されている「よくある質問」を手作業で抽出し、インストラクション用の公開データセット「matsuxr/JaGovFaqs-22k」を使用して22,794のQAのセットを使用して検索結果を見てみ
kuromoji.js + SudachiDict で形態素解析（辞書のビルド、IPADic・UniDic との比較） - Qiita
- 2 users
- qiita.com/piijey
- テクノロジー
- 2024/04/17
kuromoji.js + SudachiDict で形態素解析（辞書のビルド、IPADic・UniDic との比較）JavaScript形態素解析SudachiDict UniDic の matrix.def のサイズが間違っていたので修正しました: 59GB → 5.9GB kuromoji.js （日本語形態素解析器 Kuromoji の JavaScript実装）と React を組み合わせて、クライアントサイドで完結するブラウザアプリを開発しています。kuromoji.js は IPADic (mecab-ipadic-20070801) をデフォルト辞書として使用していますが、収録語彙が私のアプリケーションの目的には最適ではないと感じていました。また、UniDic は機能面で魅力的ですが、ビルドして使ってみた結果、データサイズが大きすぎてスマートフォンでは動作しないという課題に
kuromoji.js + UniDic で形態素解析（辞書のビルド） - Qiita
- 2 users
- qiita.com/piijey
- テクノロジー
- 2024/03/09
kuromoji.js （日本語形態素解析器 Kuromoji の JavaScript実装）と React でブラウザアプリを作っています。kuromoji.js はデフォルトでは IPADic (mecab-ipadic-20070801) を利用していますが、IPADic は現時点では更新が止まっており、辞書は新しいのがよい…… ということで、今回は UniDic 最新版（unidic-cwj-202302）を kuromoji.js 用にビルドして使ってみることにしました。結果として、ブラウザアプリで UniDic 最新版を使って形態素解析を動かすことができました。ただし、UniDic は IPADic に比べてデータ量が多いことに注意が必要です。パソコンのブラウザ（自分の M1 iMac + Chrome）では動作を確認できましたが、スマホなどリソースの限られた環境では難しい
- javascript
LinderaをTantivyで使えるようにした - Qiita
- 1 user
- qiita.com/mosuka
- テクノロジー
- 2024/01/28
「Rust初心者がRust製の日本語形態素解析器の開発を引き継いでみた」の続きです。前回のおさらい前回の記事では、Lindera(Rust製日本語形態素解析器)のCLIを紹介しました。 % echo "関西国際空港限定トートバッグ" | lindera 関西国際空港名詞,固有名詞,組織,*,*,*,関西国際空港,カンサイコクサイクウコウ,カンサイコクサイクーコー限定名詞,サ変接続,*,*,*,*,限定,ゲンテイ,ゲンテイトートバッグ UNK,*,*,*,*,*,*,*,* EOS 上記のような使い勝手です。テキストを標準入力やファイルから読み込んで形態素解析を行うことまでできます。このCLIを利用して出力フォーマットをJSONなどにすれば、シェルスクリプトである程度のことが可能ですが、Linderaはライブラリターゲットが本来の提供なので、ライブラリとしての使い方を紹介します。
transformersとaozorabunko-cleanで作る日本語DeBERTaモデル - Qiita
- 1 user
- qiita.com/KoichiYasuoka
- テクノロジー
- 2024/01/02
transformersとaozorabunko-cleanで、日本語DeBERTaモデルを作ってみることにした。ただ、aozorabunko-cleanは各レコードがどう見ても512トークンを超えてしまうので、各行700文字未満に整形しつつtrain.txtに入れている。トークナイザは「Sentencepieceの分割をMeCabっぽくする」のアイデアを借りるべく、各行をfugashiとunidic-liteで切った結果に常用漢字を加えた上で、Unigramトークナイザを鍛えている。 #! /usr/bin/python3 import os,datasets,urllib.request from transformers import DebertaV2TokenizerFast,DebertaV2Config,DebertaV2ForMaskedLM,DataCollatorFor
tdmelodic利用マニュアル — tdmelodic ドキュメント
- 1 user
- tdmelodic.readthedocs.io
- 学び
- 2023/08/25
これは、ニューラルネットワークにより、日本語（東京方言）の大規模なアクセント辞書を自動生成するモジュールです。このモジュールの目的は、日本語の大規模アクセント辞書を自動生成することです。そのために UniDic と NEologd という既存の二つの辞書を利用します。UniDic では正確なアクセント情報が提供されていますが、扱える語彙がやや限定されています。一方 NEologd は非常に大規模な語彙を扱っている一方、アクセント情報を提供していません。
日本語BERTに新しい単語（ユーザ辞書）を追加してみる - Qiita
- 1 user
- qiita.com/m__k
- テクノロジー
- 2023/10/27
huggingface/transformersで扱える日本語BERT（cl-tohoku/bert-base-japanese-whole-word-masking）に新しい単語を追加する方法を調べていたので、ここにメモしておこうと思います。同じことで悩んでいる人に届けば幸いです。参考といっても、以下の内容をまとめているだけです。 https://github.com/huggingface/transformers/issues/1413 https://stackoverflow.com/questions/64669365/huggingface-bert-tokenizer-add-new-token 実装 Google Colab上で検証しているので、必要なライブラリをインストールしておきます。 !apt install aptitude swig !aptitude i
MeCabの使い方｜npaka
- 1 user
- note.com/npaka
- テクノロジー
- 2023/10/07
「MeCab」の使い方を備忘録的にまとめました。 1. MeCab「MeCab」はオープンソースの形態素解析エンジンです。・形態素解析・トークン化・品詞タグ付け・レンマ化・係り受け解析 (+ CaboCha) 2. インストールMacへのインストール方法は、次のとおりです。 ◎ MeCab 「HomeBrew」で以下のコマンドを実行します。 $ brew install mecab $ brew install mecab-ipadic◎ NEologd 「git」で以下のコマンドを実行します。 $ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git $ cd mecab-ipadic-neologd $ bin/install-mecab-ipadic-neologd -n -a #
SuPar-UniDicで日本語係り受け解析 - Qiita
- 1 user
- qiita.com/KoichiYasuoka
- テクノロジー
- 2024/02/02
日本語係り受け解析モジュールSuPar-UniDicは、単語間係り受けと二文節間係り受けの両方をサポートしている。Google Colaboratoryで動かしてみよう。 !pip install suparunidic import suparunidic nlp=suparunidic.load() doc=nlp("吾輩はここで始めて人間というものを見た") import deplacy deplacy.serve(doc,port=None) from suparunidic import bunsetu_span,bunsetu_spans from deplacy.deprelja import deprelja d=bunsetu_spans(doc) g="digraph{"+";".join([f'x{b.start}[label="{b.text}"]' for b i
Google ColaboratoryにMecabをインストールして形態素解析を行うサンプルコード
- 1 user
- tkstock.site
- テクノロジー
- 2023/08/08
Google ColaboratoryにMecabをインストールして形態素解析するサンプルコード以下のコマンドをコピペして実行するだけでMecabと辞書がインストールされます。 !pip install mecab-python3 unidic-lite !apt install aptitude !aptitude install mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils file -y !pip install mecab-python3==0.7 !apt-get -q -y install sudo file mecab libmecab-dev mecab-ipadic-utf8 git curl python-mecab > /dev/null !git clone --depth 1 https:
GSK2020-E 「国語研日本語ウェブコーパス」NWJC-BERT | GSK
- 1 user
- www.gsk.or.jp
- 暮らし
- 2023/09/27
「国語研日本語ウェブコーパス」 NWJC-BERTは、国立国語研究所コーパス開発センター超大規模コーパスプロジェクト(2011-2015年度)で整備されたウェブテキストコーパス (2014年第4四半期データ)から訓練した BERT モデルである。同データの 6単語以上の文 226億語から UniDic 語彙素（表層形ではない）に基づいて訓練した。形態素解析は、MeCab-0.996 と UniDic-2.1.2による。語彙は、UniDic の機能語（語彙素）と UniDic-分類語彙表対応表中の語彙素 48,914語彙素からなる。
神戸大学石川慎一郎研究室／Dr. Shin Ishikawa, Kobe University
- 1 user
- language.sakura.ne.jp
- 学び
- 2024/07/06
コーパス言語学入門 ■コーパスとは何か？ Collins COBUILD英英辞典によると，「コーパス(corpus)」とは，「言語研究に使用するために大量に収集された書き言葉および話し言葉のテキスト（"a large collection of written or spoken texts that is used for language research"）」と定義されています。しかし，今日「コーパス」という場合，とくに，機械で処理できるような（"machine-readable"な）「電子化テキスト資料」を指す場合が大半です。英語では，すでに，5億語超のBank of Englishや，1億語のBritish National Corpusなどが電子データとして整備されています。 ■コーパスを使うには？時には数億語にも及ぶ大量の電子資料を直接読むことは不可能ですので，コーパスを
Transformersにおける日本語トークナイザBertMecabTokenizerFastの改良 | yasuokaの日記 | スラド
- 1 user
- srad.jp/~yasuoka
- 世の中
- 2023/07/21
2023年2月19日の日記ででっち上げたBertMecabTokenizerFastだが、FULLWIDTH(いわゆる全角)な文字が消えてしまう、との御指摘をいただいた。NFKCを挟むと、場合によっては妙な副作用が出る可能性もあるのだが、ざっと書き直してみた。Google Colaboratoryで動かしてみよう。 !pip install transformers fugashi unidic_lite from transformers import BertTokenizerFast from transformers.models.bert_japanese.tokenization_bert_japanese import MecabTokenizer class MecabPreTokenizer(MecabTokenizer): def mecab_split(self,i,
「UniDic」国語研短単位自動解析用辞書|UniDicとは
- 1 user
- clrd.ninjal.ac.jp
- 暮らし
- 2023/12/09
UniDicとは、国立国語研究所の規定した斉一（せいいつ）な言語単位（短単位）と、階層的見出し構造に基づく電子化辞書の ① 設計方針および、その実装としてのリレーショナルデータベース ② UniDicデータベースと、そのデータベースからエクスポートされた短単位をエントリ（見出し語）とする、形態素解析器MeCab用の解析用辞書 ③ 解析用UniDic の総称です。本サイトでは ③の解析用UniDic を公開・配布しています。解析用UniDicは短単位をMeCab辞書のエントリとしているため、 UniDicを使った形態素解析は「短単位（自動）解析」とも呼ばれます。 UniDicの第一の目的は、国語研で構築しているコーパスアノテーションを支援することです。国語研所内にあるUniDicデータベースは、同じく所内のコーパスのデータベースと参照関係にあり、完成したコーパスデータベース中の
QiitaのGNNタグ付けレコメンドにテキスト情報を追加してみる - Qiita
- 1 user
- qiita.com/taguchi1
- テクノロジー
- 2024/05/01
前身となった記事 2つを掛け合わせたような記事です．タグ同士のリンク情報に加えて，記事内容をベクトル化したものを加えることで，さらに良い推論結果が出せるのではないかということで実践してみることにしました．Heterogeneous Graphをカスタムデータに使ってみたいという方におすすめです．以下の流れで実装を進めていきます．データセットの用意テキストデータをベクトル化グラフデータを用意する学習評価実装のnotebookはgithubに挙げてますので，記載していない細かい部分が気になる方はそちらを参照してください．(あまり精査してませんが) https://github.com/taguch1s/qiita-tag-recommend/tree/main いろいろ細かい部分はスルーしてとりあえず実装までこぎつけた感じなので，気になる部分がありましたらご教授いただけますと幸
RMeCab トラブルシュート - Qiita
- 1 user
- qiita.com/paithiov909
- テクノロジー
- 2024/05/04
RMeCabを使ううえでのトラブルシュートです。 RMeCabをインストールできない Linux/macOS LinuxやmacOSでRMeCabをインストールするにはmecab-configコマンドが必要です。たとえばUbuntuでMeCabをaptでインストールした場合、apt install mecabではmecab-configはインストールされていません。apt install libmecab-devでlibmecab-devをインストールしたか確認しましょう。 Windows 例年4月ごろのRのリリースがあったばかりのタイミングでは、RMeCabが公開されているリポジトリに最新のR向けのバイナリパッケージがまだアップロードされていない場合があります。Windowsでソースパッケージをビルドするには、Rtoolsが必要です。Rtoolsがインストールされているか確認しましょう
RAG処理の改善: langchainでハイブリッド検索を実装してみる(勉強メモ) - Qiita
- 1 user
- qiita.com/isanakamishiro2
- テクノロジー
- 2023/12/22
参考記事 Step1. 環境・データの準備いつものようにDatabricks上で実装・検証しています。ノートブックを作成し、必要なモジュールをインストール。(いくらか余計なものが入っています） %pip install -U -qq transformers accelerate ctranslate2 langchain faiss-cpu sentencepiece rank_bm25 mecab-python3 unidic-lite dbutils.library.restartPython() 検索に用いるデータは、以前の記事で利用・作成したdolly-15k-jaにチャンクデータ・埋め込みデータを追加したデータセットを使います。こんな感じで、chunkとembeddingのペアを一列に保持したデータです。 Step2. セマンティック検索用Retrieverの作成これも
富岳でSuPar-UniDicをムリヤリ動かすには - Qiita
- 1 user
- qiita.com/KoichiYasuoka
- テクノロジー
- 2024/02/03
昨日の記事で書いたSuPar-UniDicによる係り受けプログラムを、スーパーコンピュータ「富岳」のPyTorch-1.13.0で動かすことを試みた。しかし、富岳のPyTorch-1.13.0はコンパイル時にUSE_LAPACK=1を指定していないらしく、torch.nn.init.orthogonal_()まわりで File "/vol0004/apps/oss/spack-v0.19/opt/spack/linux-rhel8-a64fx/fj-4.8.1/py-torch-1.13.0-glqavnhys6plsjklw2bp3tkkh5ysyrqh/lib/python3.10/site-packages/torch/nn/init.py", line 484, in orthogonal_ q, r = torch.linalg.qr(flattened) RuntimeErro
日本語生成AIでのFew-Shot Promptingによる品詞付与 - Qiita
- 1 user
- qiita.com/KoichiYasuoka
- テクノロジー
- 2024/06/11
生成AIに関する記事を書こう！というイベントが面白そうだったので、とりあえず、国語研短単位でのUPOS (Universal Part-Of-Speech)品詞付与をFew-Shot Promptingでやってみた結果を、まとめておくことにした。プログラムは、こんな感じ。 #! /usr/bin/python3 model="tokyotech-llm/Swallow-MS-7b-v0.1" class TextUPOSList(list): __str__=lambda self:"\n".join("###text:"+"".join(t for t,u in s)+"\n###UPOS:"+"|".join(t+"_"+u for t,u in s) for s in self)+"\n" ex=TextUPOSList() ex.append([("一","NUM"),("直線",
大規模言語モデルのフルスクラッチ作成の予習〜データセット取得、クリーニングまで〜｜ウチダマサトシ
- 1 user
- note.com/uchidama
- テクノロジー
- 2024/04/03
これを使ってデータセットの取得、クリーニングまでを試してみました。実行環境はMacOS(M2 MBP)です。 GPUが入ってる学習可能なマシンが今ないので、とりあえず手持ちのMacで予習しておきます。データ収集加工手順のREADMEを元に作業してみました。リポジトリ取得git clone https://github.com/matsuolab/ucllm_nedo_prod.gitとりあえず、リポジトリを取得します。ダウンロードされるデータセットの容量が大きいので空きが大きいハードディスクで取得したほうが良いです。データのダウンロードcd ucllm_nedo_prod/preprocessing # sudo apt-get install git-lfs # pip install git-lfs # apt-get, pipで入れる方法もあるがMacOSなのでbrewでg
富岳のPyTorch-1.7.0とaozorabunko-cleanで作る日本語DeBERTaモデル - Qiita
- 1 user
- qiita.com/KoichiYasuoka
- テクノロジー
- 2024/01/03
#! /bin/bash #PJM -L rscgrp=small #PJM -L elapse=6:00:00 #PJM -L node=12x12:torus #PJM -j #PJM -S G=`id | sed 's/^.*gid=[0-9]*($[^)]*$).*$/\1/'` set `ls -d /vol*/$G /vol*/data/$G` $HOME export PYTHONUSERBASE=$1/deberta-aozora export PATH=/home/apps/oss/PyTorch-1.7.0/bin:$PYTHONUSERBASE/bin:$PATH export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/home/apps/oss/PyTorch-1.7.0/lib64 export HF_HOME=$PYTHONUS
日本語トークナイザの「精度」をUD_Japanese-GSDとUD_Japanese-Modernのtestセットで測る - Qiita
- 1 user
- qiita.com/KoichiYasuoka
- テクノロジー
- 2024/04/12
昨日の記事のアイデアをUD_Japanese-GSDに適用して、日本語モデルにおけるトークナイザの「精度」を測ってみた。Google Colaboratoryだと、こんな感じ。 !pip install transformers sentencepiece spacy-alignments fugashi unidic-lite models=["tohoku-nlp/bert-base-japanese-v2","rinna/japanese-gpt-neox-3.6b","stockmark/gpt-neox-japanese-1.4b","tokyotech-llm/Swallow-MS-7b-v0.1","Rakuten/RakutenAI-7B","K-walk/chimaki-2b-base"] ud="UD_Japanese-GSD" !test -d $ud || git
Google Colaboratoryの無料TPUで日本語DeBERTaモデルは作れるのか - Qiita
- 1 user
- qiita.com/KoichiYasuoka
- テクノロジー
- 2024/01/04
一昨日の記事で書いたaozorabunko-cleanによる日本語DeBERTa作成プログラムを、Google Colaboratoryで動かすことを考えた。それもあえてTPUで動かす。ただ、PyTorch/XLAはGoogle Colaboratoryのサポートを打ち切ったらしいので、インストールはちょっとヤヤコシイことになっている。 !pip install torch==2.0.1 torchvision==0.15.2 https://storage.googleapis.com/tpu-pytorch/wheels/colab/torch_xla-2.0-cp310-cp310-linux_x86_64.whl !pip install -U transformers accelerate datasets fugashi unidic-lite !echo 0:5::8:::
【Python】GoogleColab上でNetworkXによる日本語の共起ネットワークを文字化けせずにプロット
- 1 user
- tkstock.site
- テクノロジー
- 2023/12/21
今回はテキストデータから共起ネットワークをプロットします。そもそも共起ネットワークとは同時に出現する単語の組み合わせをエッジで繋ぎ、単語間の関係をネットワークで表したものです。これにより、文章内の単語の関連性を可視化できます。 <イメージ図> 共起ネットワークはPythonだと「networkx」というライブラリを使って簡単に実装することができます。・実行環境 GoogleColab Python3.7 networkx2.6.3 データの取得と加工今回使用するデータは、青空文庫 Aozora Bunkoにある福沢諭吉の『学問のすすめ』です。すでにテキストファイル化したものはをGITからダウンロードしてgooglecolabの一番上のディレクトリにアップロードして配置してください。ライブラリのインストール !pip install mecab-python3 unidic-lite
「んなままいいㇺぬみーらいびゃーㇺ」はUniversal Dependenciesで書けるのか - Qiita
- 1 user
- qiita.com/KoichiYasuoka
- テクノロジー
- 2024/03/18
下地理則『南琉球宮古語伊良部島方言』(くろしお出版, 2018年3月)を横目に、「んなままいいㇺぬみーらいびゃーㇺ」をUniversal Dependenciesで書いてみることにした。 # text = んなままいいㇺぬみーらいびゃーㇺ 1 んなま _ NOUN 名詞-普通名詞-副詞可能 _ 5 obl _ SpaceAfter=No|Translit=nnama 2 まい _ ADP 助詞-係助詞 _ 1 case _ Translit=mai 3 いㇺ _ NOUN 名詞-普通名詞-一般 _ 5 nsubj _ SpaceAfter=No|Translit=im 4 ぬ _ ADP 助詞-格助詞 _ 3 case _ Translit=nu 5 みーらい _ VERB 動詞-一般 _ 0 root _ SpaceAfter=No|Translit=miːrai 6 びゃーㇺ
LLMのRAGにSparkを活用してみる - Qiita
- 1 user
- qiita.com/isanakamishiro2
- テクノロジー
- 2023/12/09
実験メモのような内容です。無駄に長い。。。導入 LLMの利用において、外部知識をモデルに与えるためには、SFTなどのFine tuningする方法や、プロンプトとして必要な情報を与える方法があります。後者の方法として、Retrieval Augmented Generation (RAG) はかなり一般化してきているように思います。 ※　RAGについては下記リンク先をどうぞ。最近のLLMはコンテキスト長も大幅に増えてきており、RAGはもっと発展していく流れになると考えています。個人的に困っているのはVectorStoreのデータ管理。様々なVectoreStoreが公開されていますが、既存のデータ管理システムとは別個にテキストデータを管理することになるので、ちょっと面倒です。特にDatabricksはUnity Catalogなど非常に優秀なマネジメント機構が備わっていますし
「ばーあいぬむぬーばふぁいーやみーん。」はUniversal Dependenciesで書けるのか - Qiita
- 1 user
- qiita.com/KoichiYasuoka
- テクノロジー
- 2024/03/19
「ばーあいぬむぬーばふぁいーやみーん。」はUniversal Dependenciesで書けるのか係り受け解析言語処理イラヴ語昨日の記事の続きだが、下地理則『南琉球宮古語伊良部島方言』(くろしお出版, 2018年3月)の例文9-25は、ひらがなで書くと「ばーあいぬむぬーばふぁいーやみーん。」となって、様々な点で手強い。何とかUniversal Dependenciesで書いてみよう。 # text = ばーあいぬむぬーばふぁいーやみーん。 1-2 ばー _ _ _ _ _ _ _ _ 1 ば _ PRON 代名詞 _ 8 nsubj _ _ 2 あ _ ADP 助詞-格助詞 _ 1 case _ _ 3 あい _ DET 代名詞 _ 5 det _ SpaceAfter=No 4 ぬ _ ADP 助詞-格助詞 _ 3 case _ _ 5-6 むぬー _ _ _
RAG における埋め込みモデルの比較｜alexweberk
- 1 user
- note.com/alexweberk
- テクノロジー
- 2023/10/14
LLM を使った RAG を行う際に埋め込みモデルが必要となりますが、どの程度差がでるのか 4 種類ほどの埋め込みモデルを使って検証してみたいと思います。今回試す埋め込みモデル: intfloat/multilingual-e5-large cl-nagoya/sup-simcse-ja-large pkshatech/GLuCoSE-base-ja openai/text-embedding-ada-002 こちらの記事内のベンチマークの結果でいうと各モデルはこのような比較となります。 https://github.com/hppRC/simple-simcse-ja より前回の記事で試したコードを活用します。LLM にはElyza 7B Instructを、Chain には Langchain の QAChain を使ってみました。必要なライブラリをインストール# 必要なライブラリ
「かぬぴぅとーてれびばみゅーんびゃーい」はUniversal Dependenciesで書けるのか - Qiita
- 1 user
- qiita.com/KoichiYasuoka
- テクノロジー
- 2024/06/16
杉村孝夫『来間島方言の記述的研究』(文部科学省研究費補助金基盤研究(C)13610660, 2003年3月)を読んでいたところ、終助詞「びゃー」に関する例文が6つほど例示されていた(p.43)。 (3) bjaː (か、疑問) 1　kuzjoː macjaːkidu icitaIbjaː　去年一緒に行ったかな。 2　narasimjuːdibjaːiː　鳴らしてみようかね。 3　kaninudu naIbja ːiː　鐘が鳴るだろうかね。 4　banummeː kakaridusIbjaːi　私にも書けるかね。 5　kanupItoː terebiba mjuːmbjaːi　あの人はテレビを見ないかね。 6　vvagadu jumbjaːiː　あなたが読むかね。例文5をひらがなで書くと「かぬぴぅとーてれびばみゅーんびゃーい」らしい。何とかUniversal Dependenciesで
mecab openai - Google 検索
- 1 user
- www.google.com
- テクノロジー
- 2023/10/07
2023/03/09 · openaiの呼び出し対応しない会話に対して応答してくれる. 以下が ... mecab-python3 unidic-lite python.exe -m pip install openai python.exe -m pip ...
旧仮名キーボード開発記#6｜辞書をつくる｜よしなが
- 1 user
- note.com/yoshy_toshy
- テクノロジー
- 2023/11/30
長いこと放置していましたが、今日は辞書をどうするかについて考えていきます。＊＊＊先人の辞書を見てみる普段旧仮名を使っている人たちは、旧仮名の単語が大量に定義されたCSVファイルを「ユーザー辞書」としてIMEに取り込み、擬似的に旧仮名変換を実現しているようです。今回はライセンスの関係上および自分で色々整理したい都合上、ネットに転がっている旧仮名辞書は利用しません。ただし、仕様を検討するにあたっては、以下のような辞書を参考にしました。 ※敬称略旧仮名口語UniDic（国立国語研究所）快適仮名遣ひ（歴史的仮名遣教室） Google日本語入力用正字正かな辭書（野嵜健秀）モバイル餠辭書（押井徳馬）北極三號辭書（千田俊太郎）北極三號改（tadakiti）また、mozcを改変して旧仮名変換をできるようにしている人も見つけました。辞書も自前で作成しているらしいです。ちなみに公開されている