2024年8月23日のブックマーク (2件)

  • Pythonで文字列の類似度を120倍高速に計算するRapidFuzzを勧めたい - Qiita

    はじめに みずほリサーチ&テクノロジーズ株式会社の@fujineです。 記事では、文字列同士の類似度を計算する「レーベンシュタイン距離」をRapidFuzzで超高速に処理する方法を解説いたします。 この方法で実装すると、1万件の文字列同士の類似度計算において、 一般的なlevenshteinライブラリよりも120倍近く高速に計算することが可能です! (RapidFuzzのGitHubリポジトリより引用) 記事の概要 Pythonで一般的に用いられているlevenshteinライブラリは、比較対象データが多いと処理が長時間化し、実用的ではない RapidFuzzは上記ライブラリよりも約120倍高速であり、エンタープライズ規模のデータにも十分に適用可能 RapidFuzzはレーベンシュタイン距離以外のアルゴリズムや、並列処理、前処理など多様な機能を提供しているため、読者の皆さんには積極的に

    Pythonで文字列の類似度を120倍高速に計算するRapidFuzzを勧めたい - Qiita
    soy-curd
    soy-curd 2024/08/23
  • WhisperをFine Tuningして専門用語を認識可能にする

    Whisperを少量のデータセットでFine Tuningして専門用語を認識可能にする方法を解説します。Tacotron2の合成音声でデータセットを作成することで、専門用語を認識可能なWhisperモデルを作成します。 WhisperについてWhisperOpenAIの開発した音声認識モデルです。日語を含む多言語に対応しており、高精度な音声認識が可能です。ただし、学習時に使用していない専門用語は認識できないという問題があります。 Whisperのアーキテクチャ(出典:https://huggingface.co/blog/fine-tune-whisperWhisperにおける専門用語の扱いについてWhisperで専門用語を取り扱う場合、initial_promptに専門用語を埋め込むという方法があります。しかし、initial_promptにはコンテキストサイズの半分の224トーク

    WhisperをFine Tuningして専門用語を認識可能にする
    soy-curd
    soy-curd 2024/08/23