並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 2 件 / 2件

新着順 人気順

言語判定の検索結果1 - 2 件 / 2件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

言語判定に関するエントリは2件あります。 言語language などが関連タグです。 人気エントリには 『gzipで言語判定 - Qiita』などがあります。
  • gzipで言語判定 - Qiita

    はじめに 以前、UNIXに標準搭載されているライブラリを使って日英の言語判定をしたくなったので、gzipを使った言語判定の実験をしました。 言語判定とは 文が与えられたときにそれがどの言語で書かれているのか判定するタスクです。 他の自然言語処理タスクで使われるコーパスのクリーニングをしたり、言語によって処理を変えたりするのに有用な技術です。 gzip を使った言語判定の仕組み gzip はファイル圧縮に使われるライブラリです。そのため、言語判定タスクに使うと聞いてもピンとこないかもしれません。 gzip はファイルの圧縮に LZ法という手法を用いています。 これは辞書を用いた圧縮法で、ある文字列が繰り返し出現したとき、その文字列の代わりに辞書中の番号を出力することで元の文を短い長さで表すという仕組みです。 その仕組み上、今まで入力された文字列にないようなフレーズを多く含む文に対しては圧縮の

      gzipで言語判定 - Qiita
    • gzipを使用した言語判定モデル、精度がほとんどのニューラルモデルを上回る | スラド

      言語判定には、ディープニューラルネットワーク(DNN)が広く使われているが、この方法は計算量が大きいことから大量のデータとリソースが必要であり、実際の利用時や最適化、新しいデータへの適用にはコストがかかるという問題が起きるそうだ。そこで、簡単で軽量かつ汎用的な代替手法がACL 2023で提案されたという。手法としてはタレコミにあるように、シンプルなコンプレッサ(gzipなど)とk近傍法を組み合わせたないようだという(ACL アンソロジー、Stephen Diehl氏のツイート)。 Patilise 曰く、 ACL 2023でk近傍法とgzipを組み合わせた言語判定モデルが発表された。軽量(大量のデータと処理能力が不要)、パラメータ調整不要でPythonスクリプトにして14行という簡素なものだったが、ほとんどのニューラルモデルと同程度または上回る精度となった。すべてのデータセットでgzipを

      1

      新着記事