並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 5 件 / 5件

新着順 人気順

UniDicの検索結果1 - 5 件 / 5件

  • 表記揺れ検出ツール「テキストゆれないくん」 - inzkyk.xyz

    その他のサンプル: Wikipedia:良質な記事, Wikipedia:長いページ 紹介 「テキストゆれないくん」は文章に含まれる表記揺れを検出するツールです。「コンピュータ」と「コンピューター」、あるいは「全て」と「すべて」といった同じ単語の別表記が使われていないかどうかをチェックできます。 「テキストゆれないくん」は元々このサイト (https://inzkyk.xyz/) の文章校正用に開発されました。機能が成熟してきたので UI を付けて公開します。 このページから手動で使う限り、「テキストゆれないくん」は商用/非商用を問わず自由に使って構いません。「テキストゆれないくん」は無保証で提供されます。 特徴 ウェブブラウザから使える このページをウェブブラウザで開いているなら、「テキストゆれないくん」は既に動いています。このページの最初にあるのは「テキストゆれないくん」を使うための完

      表記揺れ検出ツール「テキストゆれないくん」 - inzkyk.xyz
    • 大規模言語モデルをフルスクラッチする練習 (環境構築ー前処理ー事前学習ーファインチューニングー評価まで)|Kan Hatakeyama

      はじめに以下のオープンなプロジェクトの一環で、大規模言語モデルをフルスクラッチで作る練習をします。24年3月現在、協力者も募集中です。 リポジトリ当該プロジェクトの標準コードが公開※されたので、それを走らせてみます。 ※24/3/5時点で、まだレポジトリ内に、工事中の箇所が多々、あります。 このリポ上では、事前学習ー事後学習ー評価まで、一気通貫(?)したパイプラインが提供されています※。 0. 環境構築プロジェクトの本番環境はクラウドですが、今回は手持ちのubuntuを使います。 Dockerはお手軽な一方で、スパコン上で使うと、どうやら速度が落ちるらしいとの噂を聞いたので、condaで作ります(とはいえ、pipしか使わないので、pyenvでもいけると思います)。 必要なマシン適当なlinux: 例えばUbuntu 22.04.3 LTS GPU: 20 GBくらいは欲しいかも? ディスク

        大規模言語モデルをフルスクラッチする練習 (環境構築ー前処理ー事前学習ーファインチューニングー評価まで)|Kan Hatakeyama
      • 日本語LLMをPPOでファインチューニングする - Qiita

        TL;DR 3.6Bパラメータの日本語LLMに対し全パラメータをSupervised Fine Tuning (SFT)をした さらにLoRAを使用してProximal Policy Optimization (PPO)を行った 精度を定量評価できるようなタスクでSFT, PPOを行い、PPOにより確かに精度が向上することを確かめた 学習はすべてGoogle ColabのA100 GPU1枚を用いて行った はじめに GPT-3.5などのLLMの学習は以下の3段階で行われています。 Pre-traininig: 大規模なコーパスを用いた言語モデルの事前学習 Supervised Fine Tuning (SFT): 対話形式や指示・応答形式のデータセットを用いたファインチューニング Policy Optimization: 人間にとって好ましい応答をさせるためのファインチューニング(ポリシー

          日本語LLMをPPOでファインチューニングする - Qiita
        • Jaccard係数に基づく類似文書検索の高速化技法 - LegalOn Technologies Engineering Blog

          こんにちは、LegalOn Technologiesでエンジニアをしている神田(@kampersanda)です。 本記事では、Jaccard係数に基づく類似文書検索の高速化技法を解説し、契約書検索での実験結果を報告します。 背景と目的 共起に基づく類似文書検索の必要性 契約書検索での注意点 本記事の目的 準備 表記 Jaccard係数 Overlap係数との関係 問題設定 線形探索による解法 高速化の方針 Length Filtering Position Filtering 高速化のための要素順序 アルゴリズム 転置索引を使った解法 基本的なアイデア Prefix Filteringに基づくトークンの絞り込み 高速化のための要素順序 アルゴリズム 実験 データセット 統計量 Length Filterの検出率に関する結果 検索時間に関する結果 おわりに メンバー募集中!! 背景と目的 共

            Jaccard係数に基づく類似文書検索の高速化技法 - LegalOn Technologies Engineering Blog
          • 日本語の高性能な文埋め込みモデルを試す|ぬこぬこ

            環境構築手元の macOS 上で実行しましたが、環境が違えど手順は同じかと思います。 まずは作業ディレクトリを作成します。 mkdir playground-embedding cd playground-embeddingそれぞれの embedding 用のファイルを用意します。 touch GLuCoSE-base-ja-v2.py touch RoSEtta-base-ja.py touch ruri-large.pyuv 経由で必要なパッケージをインストールします。 uv init uv add sentence-transformers uv add fugashi uv add unidic_lite uv add sentencepiece uv syncもし uv をお使いでない場合は下記の公式インストールページを参照してインストールしてください。macOS をお使いであれ

              日本語の高性能な文埋め込みモデルを試す|ぬこぬこ
            1