タグ

曖昧検索に関するEnogunoCapのブックマーク (16)

  • Ngramを利用したページ類似度チェッカー+Ngram計算のphpクラス ← Neo Inspiration

    まあ何がやりたかったって スパムチェック的な類似度チェッカーです。 こんなかんじ。 類似度チェッカー 全く違うURLだと5~10%くらいになって ちょっと関係がある(リンク紹介してたり)すると20%くらいかな 同じブログの違う記事とかだと40%くらいになって 60%超えたらかなり似てるページってかんじのラインです。 例えば wikiの アイスランドのページとアイルランドのページとかでやると 重複度77%とかになります。 Googleは言語にとらわれない解析方法を使っているとのことなので、 高確率で、どっかにNgramは使ってると思うので、 デュプリケイトコンテンツとかの参考に使えるかなーと。 一応ソース公開 たいしたものじゃないんですが、たいしたものじゃないだけに ソースくらい出しとけというお話です。 アルゴリズム的には単純に ・URLからタグを引っぺがす ・出てきたテキストのNgram(

  • 00-01Ł\1-4.ec8

    立命館白川静記念東洋文字文化研究所紀要 第一号 1.はじめに 稿は、 「N - g r a m方式を漢字文献の分析に用いる」という筆者の研究手法について、その概 念・期待される効果・問題点について説明・紹介する事を目的とする。 稿は、主に三つの部分で構成される。 1.始めに N - g r a mそのものを初めとする基的な用語について説明する 2.次に、N - g r a mによって得られた情報を分析する手段を幾つか紹介し、各手法の特徴と 期待される効果、そして N - g r a m方式の限界と問題点について説明する。 3.付録として、N - g r a m方式を利用して漢字文献を数値化する手順・ツールを説明する。 稿の執筆動機として、 「N - g r a m方式」を用いた研究手法に対する、過度の期待や誤解を解 消したいという思いが背景にある。 筆者の周辺では、 「N - g

  • 形態素解析の基礎

    形態素解析の基礎 大西 祥代,廣安 知之,三木 光範 ISDL Report  No. 20070913009 2007年 8月 28日 Abstract 形態素解析とは文章を単語に区切る処理であり,自然言語処理の最も基となる処理である.報告では,形態素解析に必要な技術形態素解析ツールについて述べる. 1  はじめに 近年, 自然言語で書かれた大量の文書が電子化され利用されている. 例えば, Web上では様々な情報をテキストや写真などで記述したページがある. また, 電子化されたアンケートなどは, データマイニングを行い経営などに活かされている. このように文書は電子化され今後もますます利用されると考えられるが, より効率良く利用するためにはコンピュータによる文書の解析が必要である. コンピュータが文書を解析するためには, 自然言語解析を行うが, 日語においては, 文章を単語に分

  • 自然言語・形態素解析

    大學の研究室、企業の研究所。サーヴァ名が不安定だつたり、研究者に異動があつたりで、よくデッドリンクになります。なぜか複數のURIでアクセス出來る邊りが謎。

  • 形態素解析 〜 box.aflat.com

    Yahoo! JAPAN 日形態素解析Webサービスを利用したツールです。 ご指定のテキスト解析とwebページのテキスト解析を行なえます。

  • Ngram(N-gram)とは何か & 形態素解析との比較

    全て 1.このサイトについて 2.作品DB開発/運用 3.ホームページ制作技術 4.Perl 5.C言語 / C++ 6.検索エンジン&SEO 7.サッカー 8.自分のこと 9.Linux 10.旅行 11.思ったこと 12.パソコン 13.Berkeley DB 14.その他技術系 15.企画 16.スマートフォン 17.鑑賞 18.皆声.jpニュース 19.インターネット業界 20.運用マニュアル(自分用) 21.技術系以外実用書 22.料理 23.ALEXA 24.アニメ 25.会計 26.漫画 27.設計書 28.色々サイト作成 29.サーバー 30.自分専用 31.生活 32.OP/ED/PV 33.ゲーム 34.DB整備 35.新規開始作品紹介 36.英語圏の話題 37.大道芸 38.映画 39.PHP 40.ダイエット 41.Mac 42.JavaScript 43.MySQ

  • リリース morogram-win32-standalone morogram-0.7.3.zip (2009/06/25) - morogram - OSDN

    ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので人であることの特定には利用できません。人であることを保証したい場合にはログインして投稿を行なってください)。 ログインする

    リリース morogram-win32-standalone morogram-0.7.3.zip (2009/06/25) - morogram - OSDN
  • N-gramモデルを利用したテキスト分析 ―インデックスページ―

    ↑ページ先頭 N-gramモデルを利用した事例 あるテキストから、任意のN-gram単位で共起頻度を集計し(N-gram統計を取る)、その結果を利用してテキストや言語の性格を見いだす研究によく利用される。 N-gramモデルで、ある文字列の直後に、特定の別な文字列は出現する確率を求める。 「an」の後には、必ず母音(aiueo)で始まる単語が結びつく確率が100% 「q」の後には、「u」が結びつく可能性が高い。 『論語』では「子」の後に「曰」が結びつく可能性が高い。 「百人一首」を平仮名に開いた場合の延べ数は、上位十五位までで全体の五割の使用量を占める(全部で六十八種の異なる平仮名(濁点含む)が使われている) 音声認識やOCR(原稿読みとりソフト)での利用 読みにくい文字でも、共起頻度の発生確率を考慮すれば、正しく原稿を可読出来る ↑ページ先頭 人文学的へのN-gramモデル導入 近藤みゆ

  • SQLで高速にあいまい検索してみよう:ベンチャー社長で技術者で:エンジニアライフ

    株式会社ジーワンシステムの代表取締役。 新しいものを生み出して世の中をあっといわせたい。イノベーションってやつ起こせたらいいな。 リクエストがあったので、OracleでN-Gram(今回は2-Gram バイグラム)で顧客を抽出するSQL&ストアドプロシージャを作ってみました。 全文検索ではありますが、Googleなどであればキーワードとキー(GoogleはURL)ごとにあらかじめスコアリングしています。それで、実際には上から×××件(スコアーの低いコンテンツは無視され漏れる)という仕組みになりますが、50万人ぐらいの顧客の中から、特定の顧客を特定するような処理であれば、スコアリングはできないし漏れることはマズイのでそれほど高速にはできません。たかだか50万件ではもともと速いから、パフォーマンス的にはあまり効果はないかも。 また、N-Gramは、ゴミを拾い易い検索方式ですが、チューニングしだ

    SQLで高速にあいまい検索してみよう:ベンチャー社長で技術者で:エンジニアライフ
  • 形態素解析 エンジン 一覧

    ChaSen 日形態素解析システム CaboCha Support Vector Machines に基づく日語係り受け解析器 JSplitter 日語の単語抽出ツール MeCab ChaSenを基に開発された高速な形態素解析器 Sen Java 形態素解析エンジン すもも NTT 物性科学基礎研究所で開発された日形態素解析システム 大量の日語データを高速に形態素解析することを目的 JUMAN 日語の解析の研究を目指す多くの研究者に共通に使える形態素解析ツール Breakfast 富士通研究所が開発した日形態素解析システム KNP 日語文の構文解析を行なうシステム SUFARY suffix arrayというデータ構造を用いて高速な文字列検索を行なう MACD Java RM用いた形態素解析システム Rosette GoogleAmazon、Lycos 等名だたるサ

  • フリーで入手可能な日本語の形態素解析エンジンに関するメモ。 - 雑記/えもじならべあそび on blog

    注:wikipedia形態素解析」より。 KAKASI(kanji kana simple inverter)、kakasi.namazu.org MeCab(和布蕪)、cl.aist-nara.ac.jp (http://cl.aist-nara.ac.jp/~taku-ku/software/mecab/) ChaSen(茶筌)、chasen.aist-nara.ac.jp Juman、pine.kuee.kyoto-u.ac.jp (http://pine.kuee.kyoto-u.ac.jp/nl-resource/juman.html) すもも、www.t.onlab.ntt.co.jp (http://www.t.onlab.ntt.co.jp/sumomo/) Breakfast、www.labs.fujitsu.com ええと…まだ試してないものがたくさんありますね(汗

    フリーで入手可能な日本語の形態素解析エンジンに関するメモ。 - 雑記/えもじならべあそび on blog
  • 形態素解析 - Wikipedia

    語の代表的な形態素解析の手法[編集] 英語の場合と異なり、文節を得るのが目的となることが多い。大まかに言えば文から切り出した単語が属する品詞を辞書(自然言語処理用の)を用いて調べていき、結果得られた並びから正しく文節が構成される並びであるものを正解であるとするといったような方法を取る。 日語文法では、たとえば動詞のあとに格助詞がくることはできない(「ドアを開けるを」などは不可)といったように、ほとんどの付属語について「このようなものの後には付く」「このようなものの後には付かない」という規則性があり、また動詞の活用はその後に来る品詞を制限することがある(たとえば連体形の後は名詞)。このような性質を利用することによって単語の境界の判別を行う。具体的にこの性質を利用する方法には以下の2つがある: 規則による方法 確率的言語モデルをもちいる方法 規則による形態素解析[編集] 長尾真らの197

    形態素解析 - Wikipedia
  • 日本語形態素解析 内山将夫@NICT mutiyama@nict.go.jp 1 日本語形態素解析 • 入力文を形態素に分割し,各種の情報をつけること 例 「今日は良い天気だ.」を茶筌で解析すると以下のよう になる�

    形態素解析 内山将夫@NICT mutiyama@nict.go.jp 1 日形態素解析 • 入力文を形態素に分割し,各種の情報をつけること 例 「今日は良い天気だ.」を茶筌で解析すると以下のよう になる. 今日 キョウ 今日 名詞-副詞可能 は ハ は 助詞-係助詞 良い ヨイ 良い 形容詞-自立 形容詞・ アウオ段 基形 天気 テンキ 天気 名詞-一般 だ ダ だ 助 動 詞 特 殊・ ダ 基形 . . . 記号-句点 2 日形態素解析の重要性 • 日形態素解析は,日語処理の最初の方のステ ップである. • 機械翻訳においても,入力文は,単語に分割されて いることを仮定している. • Web検索においても,入力質問やWebページは,形 態素解析される. 3 形態素解析の難しさ • 入力文には,区切の曖昧さがある • 入力文には,辞書にない単語がある. 4 問題

  • 第7回 曖昧検索機能 | gihyo.jp

    これまで解説したように、N-gram方式は完全一致の検索結果が保証できるという点が優れています。ところが検索という用途では、厳密な検索結果が必要とされる一方、もう少し曖昧な表現も含めて検索したいという相反する要求もあります。このようなリクエストに応えたのが、FINDSPOTの曖昧検索と呼んでいる機能です。今回は曖昧検索機能とそのしくみについて紹介します。 曖昧検索 FINDSPOTでは、文字列を検索の際に指定文字列が完全に一致していなくても、曖昧な一致についても検索結果に含めることができます。この機能を曖昧検索と呼んでいます。曖昧検索を行うには、検索クライアントからサーバに対して曖昧検索のリクエストを送信します。CGIからの検索であれば、検索フォームに用意されている「曖昧検索」チェックボックスをチェックしておき、検索を行います。 曖昧検索では、検索語に対する、部分文字列、文字の挿入、文字の

    第7回 曖昧検索機能 | gihyo.jp
  • 曖昧検索ライブラリ

    曖昧検索ライブラリは 高速に曖昧検索(approximate pattern matching)を行なうためのライブラリです。 曖昧検索とは、 指定した検索文字列パタンに 被検索テキストが完全に一致しない場合でもマッチングが成功する検索手法です。 曖昧検索ライブラリでは以下のような曖昧マッチングが有効です。 文字の置換 e.g. パタン"masui"がテキスト"matui"にマッチする 文字の挿入 e.g. パタン"masui"がテキスト"matsui"にマッチする 文字の削除 e.g. パタン"masui"がテキスト"matsi"にマッチする これらは 曖昧度を1として検索を行なった場合ですが、 曖昧度は0からMAXMISMATCHまでの値を使うことができます。 曖昧度に0を指定すると普通の検索が行なわれます。 POBoxの検索には曖昧検索ライブラリが使用されています。 wtangl

  • 1