「UniDic」を検索 - はてなブックマーク

1 - 5 件 / 5件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

UniDicの検索結果1 - 5 件 / 5件

表記揺れ検出ツール「テキストゆれないくん」 - inzkyk.xyz
- 973 users
- inzkyk.xyz
- テクノロジー
- 2024/04/27
その他のサンプル: Wikipedia:良質な記事, Wikipedia:長いページ紹介「テキストゆれないくん」は文章に含まれる表記揺れを検出するツールです。「コンピュータ」と「コンピューター」、あるいは「全て」と「すべて」といった同じ単語の別表記が使われていないかどうかをチェックできます。「テキストゆれないくん」は元々このサイト (https://inzkyk.xyz/) の文章校正用に開発されました。機能が成熟してきたので UI を付けて公開します。このページから手動で使う限り、「テキストゆれないくん」は商用/非商用を問わず自由に使って構いません。「テキストゆれないくん」は無保証で提供されます。特徴ウェブブラウザから使えるこのページをウェブブラウザで開いているなら、「テキストゆれないくん」は既に動いています。このページの最初にあるのは「テキストゆれないくん」を使うための完
- ツール
- あとで読む
- 文章
- webサービス
- 言語
- tool
- 小説
- パターン
- 便利
- webservice
大規模言語モデルをフルスクラッチする練習 (環境構築ー前処理ー事前学習ーファインチューニングー評価まで)｜Kan Hatakeyama
- 112 users
- note.com/kan_hatakeyama
- テクノロジー
- 2024/03/06
はじめに以下のオープンなプロジェクトの一環で､大規模言語モデルをフルスクラッチで作る練習をします｡24年3月現在､協力者も募集中です｡リポジトリ当該プロジェクトの標準コードが公開※されたので､それを走らせてみます｡ ※24/3/5時点で､まだレポジトリ内に､工事中の箇所が多々､あります｡このリポ上では､事前学習ー事後学習ー評価まで､一気通貫(?)したパイプラインが提供されています※｡ 0. 環境構築プロジェクトの本番環境はクラウドですが､今回は手持ちのubuntuを使います｡ Dockerはお手軽な一方で､スパコン上で使うと､どうやら速度が落ちるらしいとの噂を聞いたので､condaで作ります(とはいえ､pipしか使わないので､pyenvでもいけると思います)｡必要なマシン適当なlinux: 例えばUbuntu 22.04.3 LTS GPU: 20 GBくらいは欲しいかも? ディスク
日本語LLMをPPOでファインチューニングする - Qiita
- 25 users
- qiita.com/jovyan
- テクノロジー
- 2023/12/29
TL;DR 3.6Bパラメータの日本語LLMに対し全パラメータをSupervised Fine Tuning (SFT)をしたさらにLoRAを使用してProximal Policy Optimization (PPO)を行った精度を定量評価できるようなタスクでSFT, PPOを行い、PPOにより確かに精度が向上することを確かめた学習はすべてGoogle ColabのA100 GPU1枚を用いて行ったはじめに GPT-3.5などのLLMの学習は以下の３段階で行われています。 Pre-traininig: 大規模なコーパスを用いた言語モデルの事前学習 Supervised Fine Tuning (SFT): 対話形式や指示・応答形式のデータセットを用いたファインチューニング Policy Optimization: 人間にとって好ましい応答をさせるためのファインチューニング（ポリシー
- LLM
- NLP
- あとで読む
- qiita
Jaccard係数に基づく類似文書検索の高速化技法 - LegalOn Technologies Engineering Blog
- 6 users
- tech.legalforce.co.jp
- テクノロジー
- 2024/03/25
こんにちは、LegalOn Technologiesでエンジニアをしている神田（@kampersanda）です。本記事では、Jaccard係数に基づく類似文書検索の高速化技法を解説し、契約書検索での実験結果を報告します。背景と目的共起に基づく類似文書検索の必要性契約書検索での注意点本記事の目的準備表記 Jaccard係数 Overlap係数との関係問題設定線形探索による解法高速化の方針 Length Filtering Position Filtering 高速化のための要素順序アルゴリズム転置索引を使った解法基本的なアイデア Prefix Filteringに基づくトークンの絞り込み高速化のための要素順序アルゴリズム実験データセット統計量 Length Filterの検出率に関する結果検索時間に関する結果おわりにメンバー募集中!! 背景と目的共
日本語の高性能な文埋め込みモデルを試す｜ぬこぬこ
- 4 users
- note.com/schroneko
- テクノロジー
- 2024/09/05
環境構築手元の macOS 上で実行しましたが、環境が違えど手順は同じかと思います。まずは作業ディレクトリを作成します。 mkdir playground-embedding cd playground-embeddingそれぞれの embedding 用のファイルを用意します。 touch GLuCoSE-base-ja-v2.py touch RoSEtta-base-ja.py touch ruri-large.pyuv 経由で必要なパッケージをインストールします。 uv init uv add sentence-transformers uv add fugashi uv add unidic_lite uv add sentencepiece uv syncもし uv をお使いでない場合は下記の公式インストールページを参照してインストールしてください。macOS をお使いであれ
- ai