並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 5 件 / 5件

新着順 人気順

N-gramの検索結果1 - 5 件 / 5件

  • 三経義疏を N-gram分析してみれば共通性と和習と学風の古さは一目瞭然 - 聖徳太子研究の最前線

    先日、勤務先で教員向けに N-gramを用いたコンピュータ処理による古典研究法の講習をし、例として三経義疏の分析をやってみました。文系のパソコンおたく仲間である漢字文献情報処理研究会のメンバーたちで開発したこのNGSM(N-Gram based System for Multiple document comparison and analysis)という比較分析法に関しては、2002年に東京大学東洋文化研究所の『明日の東洋学』No.8 に簡単な概説(こちら)を載せ、その威力を強調してあります。それ以来、宣伝し続けてきたのですが、文系の研究者には処理が複雑すぎたため、まったく広まりませんでした。 ところが、一昨年の暮に、上記の主要な開発メンバーであった師茂樹さんが、私の要望に応えてきわめて簡単で高速な形に改善してくれました。その結果、大学院の私の演習に出ている院生たちは、1回講習したらほと

      三経義疏を N-gram分析してみれば共通性と和習と学風の古さは一目瞭然 - 聖徳太子研究の最前線
    • Kneser-NeyスムージングによるN-gram言語モデルを実装してミニマリズム言語トキポナを学習させる話 - Qiita

      最近ではニューラルネットを使った言語モデルがよく用いられていますが,N-gram言語モデルをいまさら実装し,いまどきKneser-Neyスムージングで遊んで知見を深めようという気持ちの記事です.せっかくなので,「Basic English」や「やさしい日本語」よりもかんたんで,単語が120語しかないミニマリズム言語トキポナの言語モデルを作成し,その挙動を観察します. (この記事と同じ実装をgithubで公開しています https://github.com/nymwa/knlm ) N-gram 言語モデル 言語モデルとは,単語の列の出現確率を与える確率モデルです.単語列 $a_1, a_2, a_3, \cdots, a_n$ の確率を $$p(a_1, a_2, a_3, \cdots, a_n)$$ として計算します.言語モデルは,「ことば」を確率で表したモデルと言うことができます.

        Kneser-NeyスムージングによるN-gram言語モデルを実装してミニマリズム言語トキポナを学習させる話 - Qiita
      • 【Python】SQLite で日本語を全文検索するコード例【N-Gram, FTS4/FTS5】

        日本語の全文検索ぜんぶんけんさく (full-text search, FTS) を、高速に実行する Python コード例です。 Python の標準モジュール sqlite3 を使用しました。 sqlite3 から、SQLiteエスキューライト の全文検索 (FTSエフティーエス) を使ってみました。 試したのは、FTS4エフティーエスフォー と FTS5エフティーエスファイブ の2種類です。 ところで、SQLite の読み方は色々ありました。YouTube では、エスキューライト、エスキューエライト、スィクライト、スィクエライト、などの発音を聞きました。 全文検索の使い方(FTS の使い方)ですが、テキストを N-Gram にして、FTS4 か FTS5 の仮想テーブルに INSERT するだけでした。 (2022年2月5日 追記)MeCab の使い方も書きました。 MeCab で

          【Python】SQLite で日本語を全文検索するコード例【N-Gram, FTS4/FTS5】
        • 3. Pythonによる自然言語処理 1-1. 単語N-gram - Qiita

          Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

            3. Pythonによる自然言語処理 1-1. 単語N-gram - Qiita
          • N-Gramは部分一致っぽく当たるがそうでもないこともあるのは使い方次第(Elasticsearchを例にしてなんとなく説明) - はてだBlog(仮称)

            Elasticsearchに限らずですが、検索エンジン案件ぽい話の際に、SQL/RDB界隈の部分一致検索のメタファーでN-Gramでの検索を語ることになりつつも、 結果、「部分一致」の先入観からかえってわかりにくくなる面もあって悩ましいということもなくはない...ので、このようなケースの 語り部記事を投稿いたします。 mapping サンプルデータ(1件だけ!) 2-Gram 3-Gram 2,3 Gram (1) これはヒットしてしかるべきでヒットするよねの例 (2) こいつはどうでしょう(検索語(文)そのままはありませんが...)の例 (3) ちょっと寄り道しますの例(Gramの刻み違い) (4) 本題に戻ってきて、アナライザーを同じものにする、もしくは 小刻みな方で併用アナライザー(筆者の造語)のインデックスデータにぶつける (5) 当たらない方が正統派と思われますが、ひょっとしたら

              N-Gramは部分一致っぽく当たるがそうでもないこともあるのは使い方次第(Elasticsearchを例にしてなんとなく説明) - はてだBlog(仮称)
            1