2023年4月13日のブックマーク (2件)

  • Sentencepiece の分割を MeCab っぽくする - Qiita

    Sentencepieceは公開から約6年経ち、月間のpipダウンロード数が1000万を超え、開発者として嬉しい限りです。ただ、Sentencepieceを使用する際にMeCabなどの形態素解析器を前処理に使うケースが散見されます。単語分割をしたいというニーズは理解できますが、作者としてはあまり満足していません。多言語処理が一般的になり、しかもSentencepieceは言語非依存のシステムであるにもかかわらず、なぜベタな日語処理に依存するのでしょうか。このような使い方は、精度が向上するかもしれませんが、以下のようなデメリットもあります。 形態素解析が入力した空白と、元からある空白を区別できないため、分割されたデータから元の文を復元することができません。(可逆処理ではない)。 形態素解析システムに依存するため、メンテナンス性や可搬性が低下します。正しいバージョンの辞書を維持し、管理するこ

    Sentencepiece の分割を MeCab っぽくする - Qiita
    gengohouse
    gengohouse 2023/04/13
    “Sentencepiece の分割を MeCab っぽくする”
  • 無料で商用利用も可能なオープンソースの大規模言語モデル「Dolly 2.0」をDatabricksが発表

    2023年3月に大規模言語モデル(LLM)「Dolly」を公開したDatabricksが、わずか2週間で、初のオープンソースの命令追従型LLMだという「Dolly 2.0」を発表しました。 Free Dolly: Introducing the World's First Open and Commercially Viable Instruction-Tuned LLM - The Databricks Blog https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llm Databricks releases Dolly 2.0, the first open, instruction-following LLM for commercial

    無料で商用利用も可能なオープンソースの大規模言語モデル「Dolly 2.0」をDatabricksが発表