[B! 曖昧検索] EnogunoCapのブックマーク

Ngramを利用したページ類似度チェッカー＋Ngram計算のphpクラス ← Neo Inspiration

まあ何がやりたかったってスパムチェック的な類似度チェッカーです。こんなかんじ。類似度チェッカー全く違うURLだと5~10%くらいになってちょっと関係がある（リンク紹介してたり）すると20%くらいかな同じブログの違う記事とかだと40%くらいになって 60%超えたらかなり似てるページってかんじのラインです。例えば　wikiの　アイスランドのページとアイルランドのページとかでやると重複度77%とかになります。 Googleは言語にとらわれない解析方法を使っているとのことなので、高確率で、どっかにNgramは使ってると思うので、デュプリケイトコンテンツとかの参考に使えるかなーと。一応ソース公開たいしたものじゃないんですが、たいしたものじゃないだけにソースくらい出しとけというお話です。アルゴリズム的には単純に・URLからタグを引っぺがす・出てきたテキストのNgram(

EnogunoCap 2009/10/29

リンク

00-01Ł\1-4.ec8

立命館白川静記念東洋文字文化研究所紀要第一号１．はじめに本稿は、「N - g r a m方式を漢字文献の分析に用いる」という筆者の研究手法について、その概念・期待される効果・問題点について説明・紹介する事を目的とする。本稿は、主に三つの部分で構成される。１．始めに N - g r a mそのものを初めとする基本的な用語について説明する２．次に、N - g r a mによって得られた情報を分析する手段を幾つか紹介し、各手法の特徴と期待される効果、そして N - g r a m方式の限界と問題点について説明する。３．付録として、N - g r a m方式を利用して漢字文献を数値化する手順・ツールを説明する。本稿の執筆動機として、「N - g r a m方式」を用いた研究手法に対する、過度の期待や誤解を解消したいという思いが背景にある。筆者の周辺では、「N - g

EnogunoCap 2009/10/29

リンク

形態素解析の基礎

形態素解析の基礎大西祥代，廣安知之，三木光範 ISDL Report　 No. 20070913009 2007年 8月 28日 Abstract 形態素解析とは文章を単語に区切る処理であり，自然言語処理の最も基本となる処理である．本報告では，形態素解析に必要な技術や形態素解析ツールについて述べる． 1 はじめに近年, 自然言語で書かれた大量の文書が電子化され利用されている. 例えば, Web上では様々な情報をテキストや写真などで記述したページがある. また, 電子化されたアンケートなどは, データマイニングを行い経営などに活かされている. このように文書は電子化され今後もますます利用されると考えられるが, より効率良く利用するためにはコンピュータによる文書の解析が必要である. コンピュータが文書を解析するためには, 自然言語解析を行うが, 日本語においては, 文章を単語に分

EnogunoCap 2009/10/28

リンク

自然言語・形態素解析

大學の研究室、企業の研究所。サーヴァ名が不安定だつたり、研究者に異動があつたりで、よくデッドリンクになります。なぜか複數のURIでアクセス出來る邊りが謎。

EnogunoCap 2009/10/28

リンク

形態素解析〜 box.aflat.com

Yahoo! JAPAN 日本語形態素解析 Webサービスを利用したツールです。ご指定のテキスト解析とwebページのテキスト解析を行なえます。

EnogunoCap 2009/10/28

リンク

Ngram(N-gram)とは何か & 形態素解析との比較

全て 1.このサイトについて 2.作品DB開発/運用 3.ホームページ制作技術 4.Perl 5.C言語 / C++ 6.検索エンジン&SEO 7.サッカー 8.自分のこと 9.Linux 10.旅行 11.思ったこと 12.パソコン 13.Berkeley DB 14.その他技術系 15.企画 16.スマートフォン 17.鑑賞 18.皆声.jpニュース 19.インターネット業界 20.運用マニュアル(自分用) 21.技術系以外実用書 22.料理 23.ALEXA 24.アニメ 25.会計 26.漫画 27.設計書 28.色々サイト作成 29.サーバー 30.自分専用 31.生活 32.OP/ED/PV 33.ゲーム 34.DB整備 35.新規開始作品紹介 36.英語圏の話題 37.大道芸 38.映画 39.PHP 40.ダイエット 41.Mac 42.JavaScript 43.MySQ

EnogunoCap 2009/10/28

曖昧検索

リンク

リリース morogram-win32-standalone morogram-0.7.3.zip　(2009/06/25) - morogram - OSDN

ログインしていません。投稿を区別するために投稿者のニックネームをつけてください(ニックネームの一意性は保証されません。全く別の人も同じ名前を利用することが可能ですので本人であることの特定には利用できません。本人であることを保証したい場合にはログインして投稿を行なってください)。ログインする

EnogunoCap 2009/10/28

曖昧検索

リンク

N-gramモデルを利用したテキスト分析　―インデックスページ―

↑ページ先頭 N-gramモデルを利用した事例あるテキストから、任意のN-gram単位で共起頻度を集計し（N-gram統計を取る）、その結果を利用してテキストや言語の性格を見いだす研究によく利用される。 N-gramモデルで、ある文字列の直後に、特定の別な文字列は出現する確率を求める。「an」の後には、必ず母音（aiueo）で始まる単語が結びつく確率が100% 「q」の後には、「u」が結びつく可能性が高い。『論語』では「子」の後に「曰」が結びつく可能性が高い。「百人一首」を平仮名に開いた場合の延べ数は、上位十五位までで全体の五割の使用量を占める（全部で六十八種の異なる平仮名（濁点含む）が使われている）音声認識やOCR（原稿読みとりソフト）での利用読みにくい文字でも、共起頻度の発生確率を考慮すれば、正しく原稿を可読出来る ↑ページ先頭人文学的へのN-gramモデル導入近藤みゆ

EnogunoCap 2009/10/28

曖昧検索

リンク

SQLで高速にあいまい検索してみよう：ベンチャー社長で技術者で：エンジニアライフ

株式会社ジーワンシステムの代表取締役。新しいものを生み出して世の中をあっといわせたい。イノベーションってやつ起こせたらいいな。リクエストがあったので、OracleでN-Gram（今回は2-Gram バイグラム）で顧客を抽出するSQL＆ストアドプロシージャを作ってみました。全文検索ではありますが、Googleなどであればキーワードとキー（GoogleはURL）ごとにあらかじめスコアリングしています。それで、実際には上から×××件（スコアーの低いコンテンツは無視され漏れる）という仕組みになりますが、50万人ぐらいの顧客の中から、特定の顧客を特定するような処理であれば、スコアリングはできないし漏れることはマズイのでそれほど高速にはできません。たかだか50万件ではもともと速いから、パフォーマンス的にはあまり効果はないかも。また、N-Gramは、ゴミを拾い易い検索方式ですが、チューニングしだ

EnogunoCap 2009/10/28

曖昧検索

リンク

形態素解析エンジン一覧

ChaSen 日本語形態素解析システム CaboCha Support Vector Machines に基づく日本語係り受け解析器 JSplitter 日本語の単語抽出ツール MeCab ChaSenを基に開発された高速な形態素解析器 Sen Java 形態素解析エンジンすもも NTT 物性科学基礎研究所で開発された日本語形態素解析システム大量の日本語データを高速に形態素解析することを目的 JUMAN 日本語の解析の研究を目指す多くの研究者に共通に使える形態素解析ツール Breakfast 富士通研究所が開発した日本語形態素解析システム KNP 日本語文の構文解析を行なうシステム SUFARY suffix arrayというデータ構造を用いて高速な文字列検索を行なう MACD Java RM用いた形態素解析システム Rosette Google、Amazon、Lycos 等名だたるサ

EnogunoCap 2009/10/28

曖昧検索

リンク

フリーで入手可能な日本語の形態素解析エンジンに関するメモ。 - 雑記/えもじならべあそび on blog

注:wikipedia「形態素解析」より。 KAKASI（kanji kana simple inverter）、kakasi.namazu.org MeCab（和布蕪）、cl.aist-nara.ac.jp (http://cl.aist-nara.ac.jp/~taku-ku/software/mecab/) ChaSen（茶筌）、chasen.aist-nara.ac.jp Juman、pine.kuee.kyoto-u.ac.jp (http://pine.kuee.kyoto-u.ac.jp/nl-resource/juman.html) すもも、www.t.onlab.ntt.co.jp (http://www.t.onlab.ntt.co.jp/sumomo/) Breakfast、www.labs.fujitsu.com ええと…まだ試してないものがたくさんありますね(汗

EnogunoCap 2009/10/28

曖昧検索

リンク

形態素解析 - Wikipedia

日本語の代表的な形態素解析の手法[編集] 英語の場合と異なり、文節を得るのが目的となることが多い。大まかに言えば文から切り出した単語が属する品詞を辞書（自然言語処理用の）を用いて調べていき、結果得られた並びから正しく文節が構成される並びであるものを正解であるとするといったような方法を取る。日本語文法では、たとえば動詞のあとに格助詞がくることはできない（「ドアを開けるを」などは不可）といったように、ほとんどの付属語について「このようなものの後には付く」「このようなものの後には付かない」という規則性があり、また動詞の活用はその後に来る品詞を制限することがある（たとえば連体形の後は名詞）。このような性質を利用することによって単語の境界の判別を行う。具体的にこの性質を利用する方法には以下の2つがある: 規則による方法確率的言語モデルをもちいる方法規則による形態素解析[編集] 長尾真らの197

EnogunoCap 2009/10/28

曖昧検索

リンク

日本語形態素解析内山将夫@NICT mutiyama@nict.go.jp 1 日本語形態素解析 • 入力文を形態素に分割し，各種の情報をつけること例「今日は良い天気だ．」を茶筌で解析すると以下のようになる�

日本語形態素解析内山将夫@NICT mutiyama@nict.go.jp 1 日本語形態素解析 • 入力文を形態素に分割し，各種の情報をつけること例「今日は良い天気だ．」を茶筌で解析すると以下のようになる．今日キョウ今日名詞-副詞可能はハは助詞-係助詞良いヨイ良い形容詞-自立形容詞・アウオ段基本形天気テンキ天気名詞-一般だダだ助動詞特殊・ダ基本形．．．記号-句点 2 日本語形態素解析の重要性 • 日本語形態素解析は，日本語処理の最初の方のステップである． • 機械翻訳においても，入力文は，単語に分割されていることを仮定している． • Web検索においても，入力質問やWebページは，形態素解析される． 3 形態素解析の難しさ • 入力文には，区切の曖昧さがある • 入力文には，辞書にない単語がある． 4 問題

EnogunoCap 2009/10/28

曖昧検索

リンク

第7回曖昧検索機能 | gihyo.jp

これまで解説したように、N-gram方式は完全一致の検索結果が保証できるという点が優れています。ところが検索という用途では、厳密な検索結果が必要とされる一方、もう少し曖昧な表現も含めて検索したいという相反する要求もあります。このようなリクエストに応えたのが、FINDSPOTの曖昧検索と呼んでいる機能です。今回は曖昧検索機能とそのしくみについて紹介します。曖昧検索 FINDSPOTでは、文字列を検索の際に指定文字列が完全に一致していなくても、曖昧な一致についても検索結果に含めることができます。この機能を曖昧検索と呼んでいます。曖昧検索を行うには、検索クライアントからサーバに対して曖昧検索のリクエストを送信します。CGIからの検索であれば、検索フォームに用意されている「曖昧検索」チェックボックスをチェックしておき、検索を行います。曖昧検索では、検索語に対する、部分文字列、文字の挿入、文字の

EnogunoCap 2009/10/28

曖昧検索

リンク

曖昧検索ライブラリ

曖昧検索ライブラリは高速に曖昧検索(approximate pattern matching)を行なうためのライブラリです。曖昧検索とは、指定した検索文字列パタンに被検索テキストが完全に一致しない場合でもマッチングが成功する検索手法です。本曖昧検索ライブラリでは以下のような曖昧マッチングが有効です。文字の置換 e.g. パタン"masui"がテキスト"matui"にマッチする文字の挿入 e.g. パタン"masui"がテキスト"matsui"にマッチする文字の削除 e.g. パタン"masui"がテキスト"matsi"にマッチするこれらは曖昧度を1として検索を行なった場合ですが、曖昧度は0からMAXMISMATCHまでの値を使うことができます。曖昧度に0を指定すると普通の検索が行なわれます。 POBoxの検索には本曖昧検索ライブラリが使用されています。 wtangl

EnogunoCap 2009/10/28

曖昧検索

リンク

はてなブックマーク

タグ

関連タグで絞り込む (2)

曖昧検索に関するEnogunoCapのブックマーク (16)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス