タグ

検索と日本語に関するBell000のブックマーク (4)

  • 増井 / 類語をみつける方法

    というか[[[同じカテゴリの単語を複数見つける]]]方法 [[[同位語]]]検索というらしい [[http://IQAuth.com/ 画像なぞなぞ認証]]で偽答を作るのを自動化したい たとえば「大阪」が正解のとき「神戸」とか「京都」とかの偽答を自動生成したい 「的場」から「菊地」を生成するとか [[http://hondana.org/%E5%A2%97%E4%BA%95/4812439914 http://gyazo.com/6c0f4f744676c2a71fc1577ace0557c7.png]] [[[「や」を使う方法]]] "大阪や" でググると「大阪や埼玉」「大阪や鳥取」などが出る [[http://gyazo.com/cc94658d04bc123b1b807db482862488.png]] 京大田中研の研究 by 大島氏 [[http://ci.nii.ac.jp/na

  • 「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記

    Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「下準備があればこその高性能」なわけです。 インデックスを作成するためには、あらかじめWebページの内容を単語に分割する必要があります。英語では単語と単語の間をスペースで区切るため、この作業はさほど難しくありません。しかし日語では、単語の境界はそれほど自明ではないため、日語特有の処理をする必要があります。 日語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合があり、そ

  • 辞書不要の形態素解析エンジン「マリモ」とは − @IT

    2007/08/15 検索サービスを提供するベンチャー企業のムーターは8月1日、辞書を必要としない形態素解析エンジン「マリモ」の提供を開始した。従来、形態素解析では品詞情報を含む日語辞書を用意するのが常識だったが、マリモでは、そうした辞書を不要とした。新技術のアプローチと特性について、開発元のムーターに話を聞いた。 統計処理で単語部分を推定 形態素解析とは、与えられた文を、文法上意味のある最小の単位(形態素)に区切る処理。「今日は晴れています」なら、「今日(名詞)/は(助詞)/晴れ(動詞)/て(助詞)/い(助詞)/ます(助動詞)」と分ける。検索エンジンをはじめ、さまざまな自然言語処理の場面で必要となる基礎技術だ。 形態素解析を行うには、あらかじめ品詞情報が付加された数十万語からなる辞書を用意する必要がある。また、新語や造語、専門用語に対応するには、個別に人力で単語を登録する必要がある。

  • 日国オンライン - JapanKnowledge Select Series

    日国オンライン | 最大最強の国語辞典。50万項目100万用例14万方言を収録。全13巻完全デジタル化。国語学・国文学の専門家にとどまらず、歴史・仏教・漢籍・民族などの各界の権威、社会科学および自然科学の研究者など、3000人以上に及ぶ指揮者の協力。『日国語大辞典』(第二版、全13巻)をインターネットで、くまなく検索! 日国オンライン独自の検索システム機能を開発し、日国の全データを目的に応じ自在に検索、出典別に用例を網羅的に探し出すなど書籍版を超える日国の活用法を実現しました。 検索結果一覧には補助表示を搭載し、探しやすく、読みやすく設計。 文画面で方言出典一覧を閲覧可能にし、また、親子項目参照ジャンプを搭載。 豊富な図版5000点を完全収録し、拡大表示を実装。 50万項目、100万用例を収録したわが国を代表する知識資産『日国語大辞典』は、40年の歳月をかけ、3000人以上に及ぶ専門

  • 1