並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 8 件 / 8件

新着順 人気順

N-gramの検索結果1 - 8 件 / 8件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

N-gramに関するエントリは8件あります。 全文検索mysqlTech などが関連タグです。 人気エントリには 『JavaScriptで全文検索(N-gram)を実装してみる! | Simple is Beautiful.』などがあります。
  • JavaScriptで全文検索(N-gram)を実装してみる! | Simple is Beautiful.

    プラコレアドベントカレンダーもラストスパート!こんにちは、森です! 仕組みをちゃんと理解するには実装してみることが一番!ということで、N-gramの中でも一番実装が簡単なuni-gramをjsで実装してみました! 目次 全文検索とは uni-gram インデックスの作成 文章にdocument IDを振る 文字列の分割 文字位置付与 トークンごとに位置情報をまとめる トークンをキーに引けるように保存 インデックスから検索 検索文字列をトークンに分割 インデックスからトークンのデータを取得 取得したデータをつなぎ合わせる 実装 動かし方 インデックスの作成 インデックスから文字列を検索 コード 参考文献 最後に 全文検索とは まず最初に全文検索とはなにかってことですが、Wikipediaで調べてみました「コンピュータにおいて、複数の文書(ファイル)から特定の文字列を検索すること。「ファイル名

      JavaScriptで全文検索(N-gram)を実装してみる! | Simple is Beautiful.
    • 三経義疏を N-gram分析してみれば共通性と和習と学風の古さは一目瞭然 - 聖徳太子研究の最前線

      先日、勤務先で教員向けに N-gramを用いたコンピュータ処理による古典研究法の講習をし、例として三経義疏の分析をやってみました。文系のパソコンおたく仲間である漢字文献情報処理研究会のメンバーたちで開発したこのNGSM(N-Gram based System for Multiple document comparison and analysis)という比較分析法に関しては、2002年に東京大学東洋文化研究所の『明日の東洋学』No.8 に簡単な概説(こちら)を載せ、その威力を強調してあります。それ以来、宣伝し続けてきたのですが、文系の研究者には処理が複雑すぎたため、まったく広まりませんでした。 ところが、一昨年の暮に、上記の主要な開発メンバーであった師茂樹さんが、私の要望に応えてきわめて簡単で高速な形に改善してくれました。その結果、大学院の私の演習に出ている院生たちは、1回講習したらほと

        三経義疏を N-gram分析してみれば共通性と和習と学風の古さは一目瞭然 - 聖徳太子研究の最前線
      • MySQLのN-gramを使った全文検索について調べてみました | Simple is Beautiful.

        今回MySQL5.7.22を用いて検証しています。 初期設定 データベース作成 mysql> CREATE DATABASE fts; Query OK, 1 row affected (0.00 sec) mysql> use fts; Database changed テーブル作成 テーブル作成時に全文検索をするカラムの型をFULLTEXTにし、パーサーにngramを指定します。 mysql> CREATE TABLE documents (id SERIAL PRIMARY KEY, content VARCHAR(255), FULLTEXT(content) WITH PARSER ngram) CHARACTER SET utf8; Query OK, 0 rows affected (0.10 sec) レコード挿入 レコードの挿入は通常の文字列同様に入れられます。 mysq

          MySQLのN-gramを使った全文検索について調べてみました | Simple is Beautiful.
        • Kneser-NeyスムージングによるN-gram言語モデルを実装してミニマリズム言語トキポナを学習させる話 - Qiita

          最近ではニューラルネットを使った言語モデルがよく用いられていますが,N-gram言語モデルをいまさら実装し,いまどきKneser-Neyスムージングで遊んで知見を深めようという気持ちの記事です.せっかくなので,「Basic English」や「やさしい日本語」よりもかんたんで,単語が120語しかないミニマリズム言語トキポナの言語モデルを作成し,その挙動を観察します. (この記事と同じ実装をgithubで公開しています https://github.com/nymwa/knlm ) N-gram 言語モデル 言語モデルとは,単語の列の出現確率を与える確率モデルです.単語列 $a_1, a_2, a_3, \cdots, a_n$ の確率を $$p(a_1, a_2, a_3, \cdots, a_n)$$ として計算します.言語モデルは,「ことば」を確率で表したモデルと言うことができます.

            Kneser-NeyスムージングによるN-gram言語モデルを実装してミニマリズム言語トキポナを学習させる話 - Qiita
          • 【Python】SQLite で日本語を全文検索するコード例【N-Gram, FTS4/FTS5】

            日本語の全文検索ぜんぶんけんさく (full-text search, FTS) を、高速に実行する Python コード例です。 Python の標準モジュール sqlite3 を使用しました。 sqlite3 から、SQLiteエスキューライト の全文検索 (FTSエフティーエス) を使ってみました。 試したのは、FTS4エフティーエスフォー と FTS5エフティーエスファイブ の2種類です。 ところで、SQLite の読み方は色々ありました。YouTube では、エスキューライト、エスキューエライト、スィクライト、スィクエライト、などの発音を聞きました。 全文検索の使い方(FTS の使い方)ですが、テキストを N-Gram にして、FTS4 か FTS5 の仮想テーブルに INSERT するだけでした。 (2022年2月5日 追記)MeCab の使い方も書きました。 MeCab で

              【Python】SQLite で日本語を全文検索するコード例【N-Gram, FTS4/FTS5】
            • 3. Pythonによる自然言語処理 1-1. 単語N-gram - Qiita

              自然言語処理には2つの手法があります。 統計情報から単語を表現する手法を「カウントベース」といい、ニューラルネットワークによる手法を「推論ベース」といいます。 カウントベースの手法として、文字や単語の「連なり」の頻度分布N-gramをもとに文を生成するプログラムを考えます。 ⑴ テキストデータの読み込み

                3. Pythonによる自然言語処理 1-1. 単語N-gram - Qiita
              • N-Gramは部分一致っぽく当たるがそうでもないこともあるのは使い方次第(Elasticsearchを例にしてなんとなく説明) - はてだBlog(仮称)

                Elasticsearchに限らずですが、検索エンジン案件ぽい話の際に、SQL/RDB界隈の部分一致検索のメタファーでN-Gramでの検索を語ることになりつつも、 結果、「部分一致」の先入観からかえってわかりにくくなる面もあって悩ましいということもなくはない...ので、このようなケースの 語り部記事を投稿いたします。 mapping サンプルデータ(1件だけ!) 2-Gram 3-Gram 2,3 Gram (1) これはヒットしてしかるべきでヒットするよねの例 (2) こいつはどうでしょう(検索語(文)そのままはありませんが...)の例 (3) ちょっと寄り道しますの例(Gramの刻み違い) (4) 本題に戻ってきて、アナライザーを同じものにする、もしくは 小刻みな方で併用アナライザー(筆者の造語)のインデックスデータにぶつける (5) 当たらない方が正統派と思われますが、ひょっとしたら

                  N-Gramは部分一致っぽく当たるがそうでもないこともあるのは使い方次第(Elasticsearchを例にしてなんとなく説明) - はてだBlog(仮称)
                • MySQL5.7 InnoDB のN-gram全文検索を検証&サービス導入した

                  ※ この記事は以前Mediumで公開した記事 の転載です MySQL5.7・InnoDB・N-gram という環境下で全文検索の挙動やパフォーマンスについて検証を行った。FULLTEXT INDEXは以前はMyISAMでしか利用できなかったが、 5.6.4からInnoDBでのサポートが始まっていた。 InnoDBの全文検索は5.7、特に5.7.6以降でいわゆるCJK(中国語・日本語・韓国語)がN-gramで標準サポートされ始め、 CREATE TABLE文で簡単にパーサーを指定できる構文のサポート、 設定やクエリの組立で考えないといけない事が減った事で導入障壁がかなり下がっている。 ※4.1と5.0でサービス導入経験がある私の個人的な比較感想です。 FULLTEXT INDEXも他のINDEXと同様にデータ更新・削除の際にINDEXのrebuildが走るので更新時の負荷には注意が必要で、F

                  1

                  新着記事