タグ

検索に関するChiseiのブックマーク (19)

  • 第6回 N-gramと形態素解析との比較 | gihyo.jp

    これまでに、N-gramと形態素解析の2つの検索エンジンの、見出し語の切り出し方法を説明しました。今回は、2つの見出し語の切り出し方法を比較し、それぞれの得意な点、不得意な点を明らかにしていきます。 2つの手法の概要 はじめに、2つの手法をおさらいしてみます。 形態素解析 検索対象のテキストを形態素解析を行い分かち書きを行う 分かち書きした単位を見出し語として転置インデックスを作成する 転置インデックスを元に検索を行う N-gram 検索対象のテキストをN文字単位の文字列片に分解する 分解した文字列片を見出し語として転置インデックスを作成する 検索語をN文字単位の文字列片に分け検索を行う 文字列の出現位置情報を利用すれば、漏れのない完全一致の検索が可能 大きな違いは、「⁠転置インデックスの見出し語をどのように作るか」というプロセスが異なる点です。形態素解析は構文解析を行って分かち書きを行う

    第6回 N-gramと形態素解析との比較 | gihyo.jp
    Chisei
    Chisei 2012/01/25
    社内システム向けに手軽に構築したい。
  • PHP で N-gram を生成する | Born Too Late

    PHP 用の N-gram 生成ライブラリ、 php5-Text_Ngram を Github に公開しました。 個人的な PHP 5.3 の練習ということで作ったので、 namespace 等を使っています。 5.3 未満では動きません。 yuya-takeyama's php5-Text_Ngram at master - GitHub プロダクションとしての利用は想定していませんので、利用者ご自身の責任においてご利用ください。 Text_Ngram 文字列を N-gram 形式に分割するためのライブラリです。 N-gram オブジェクトを生成し、配列のように扱うことができます。 動作環境 PHP5 (>= PHP 5.3) インストール Openpear 経由でインストールできます。 sudo pear channel-discover openpear.org sudo pear

    PHP で N-gram を生成する | Born Too Late
    Chisei
    Chisei 2012/01/25
    参考にしてみよう。
  • MySQL FULLTEXT Ngram : LIKE検索より数十倍高速な、お手軽 日本語全文検索 について|blog|たたみラボ

    tatamilab.jp

    Chisei
    Chisei 2012/01/07
    fulltext用テーブル作ると良さそう。
  • Google Scholar

    Google Scholar では、さまざまな学術文献を簡単に検索できます。多岐にわたる分野と出典の論説、論文、書籍、要約、法律関係資料をお探しいただけます。

    Chisei
    Chisei 2010/12/31
    論文検索
  • 日Yahoo!が米Googleと提携 — これだけ押さえておけばいい重要ポイントまとめ

    全国的に猛暑が続いている日でさらにホットなニュースが飛び込んできました。 もう知っているとは思いますが、Yahoo! JAPANが検索エンジンのシステムとしてGoogleからデータ提供を受けることが正式に決まりました。 アメリカではYahoo! Inc.が運営するYahoo.comでBingへの切り替えテストが行われている真っ最中です。 Yahoo! JAPANもいずれはBingを採用するだろうと大半が予測していたはずです。 ひょっとしたら独自運営の可能性もなくはないかな、が別のオプションとして考えられましたがいざ蓋を開けてみると提携先はGoogleでした。 直前まで情報がリークしなかったこともあり、まさに「寝耳に水」でした。 以下は両社からの公式発表とそれ付随するドキュメントです。 Yahoo! JAPAN のより良い検索と広告サービスのために – Google 公式ブログ 日版 Y

    日Yahoo!が米Googleと提携 — これだけ押さえておけばいい重要ポイントまとめ
    Chisei
    Chisei 2010/07/29
    まとめエントリー
  • Yahoo! JAPAN のより良い検索と広告サービスのために

    Google が展開するほぼすべてのサービスの中心に位置するのが検索です。Google 検索の人気については広く知られていますが、この検索技術Google がパートナー企業に提供し、彼らが自らの検索サイトで Google の検索技術を活用しているということについては、あまり知られていないかも知れません。 2001 年から 2004 年にはヤフー株式会社に対し、Google の検索エンジンを提供していました。そして、日、ヤフー株式会社に対して再び検索技術をライセンス提供することになったことを発表いたします。今回の非独占的な契約に基づき、ヤフー株式会社(ソフトバンク株式会社の子会社であり、米ヤフーも一部出資しています)は、Google が日国内で最も速く、最も先進的であると自信を持つ検索技術を利用者に提供できることになります。これに加え、ヤフー株式会社はオークション、ショッピング、知恵

    Yahoo! JAPAN のより良い検索と広告サービスのために
    Chisei
    Chisei 2010/07/29
    発表から一日遅れてブックマーク。すでに約400ブクマ。はてブユーザの関心度の高さがうかがえる。
  • 『usamiさんのブログに搭載されているアメーバの再検索システム』

    小越ブログ スマートニュース株式会社ではたらく小越のブログ。旧:今日のニッパウ *スパムが多いのでコメントは承認制になっております。 再検索システムというのは私が勝手に名付けたのですが。 検索エンジン経由での訪問者に対して、クエリを参考にコンテンツの中身を 変えるという考え方があります。 まぁ、情報を探している人にあったものを表示しましょうという考え方で、 見出しの情報が変わったり、はたまたLPO的な考え方をとったりと バリエーションはいろいろあります。 で、再検索システムというのは、検索エンジンからの訪問者に対し、 そのクエリでの再検索を提案するという仕組みです。 コンテンツが豊富にあるサイトならば、さらに情報を提示できる 可能性は十分にあるので理にかなった導線のように思います。 または、情報を探す人は検索→見る→検索→見るを繰り返すので この観点からも理にかなった導線です。 例えばライ

    『usamiさんのブログに搭載されているアメーバの再検索システム』
    Chisei
    Chisei 2010/05/10
    あーなるほどこういう使い方はありかも。自身のメディア内をさらに回遊してくれそうな取り組み。
  • グーグルの1月米国検索シェアがわずかに減少--コムスコア調査

    comScoreによるとGoogleの2010年1月の検索シェアが前月に比べてわずかながら減少したが、誰もそれほど心配していないようだ。 comScoreが米国時間2月11日に発表した調査結果によると、Googleの1月の検索市場シェアは米国で実行された全検索の65.4%で、2009年12月から0.3ポイント減少した。その分Microsoftの「Bing」がシェアを伸ばして全検索の11.3%となり、12月から0.6ポイント増加した。サービスの提供を2009年5月に発表して以来、Bingの検索市場シェアは6月の8.4%から2010年1月の11.3%にまで増加している。 Yahooは苦戦を続けており、0.3ポイント減で全検索の17%となった。Yahooは現在、トラフィックが収入につながっていないと見ているツールバーやデスクトップ検索提携を再編中だ、と10日に行った同社のイベントで説明した。 ま

    グーグルの1月米国検索シェアがわずかに減少--コムスコア調査
    Chisei
    Chisei 2010/02/12
    Bing上昇か。
  • “官報”の内容を無料で全文検索できる「官報検索!」がスタート - はてなニュース

    「国の広報紙」「国民の公告紙」としての役割を果たす「官報」。そんな官報に記載されている内容を、無料で全文検索できるサービスがスタートしました。 ▽官報検索!- 官報を全文検索できる無料サービス 「官報」とは、法律や政令、条約等の公布など、国からの諸報告や資料を公表するために発行される広報誌のこと。明治16年に初めて発行され、現在も行政機関の休日を除いて、ほぼ毎日発行されています。独立行政法人国立印刷局が提供するインターネット版「官報」では、直近30日間の官報をWeb上で閲覧することができますが、こちらの「官報検索!」を使えば、その内容から好きなワードで全文検索をすることが可能になります。 例えばこちらは「インターネット」というワードで検索した場合です。「PAGE」もしくは「PDF」をクリックすれば、該当する官報をすぐに閲覧することができます。 ▽官報を無料で全文検索できる『官報検索!』を公

    “官報”の内容を無料で全文検索できる「官報検索!」がスタート - はてなニュース
    Chisei
    Chisei 2010/01/30
    へー。
  • 検索エンジンがWebの中心から引きずり下ろされる?:Geekなぺーじ

    不況は様々な物を変化させつつありますが、Webの世界も不況の影響が徐々に出始めているような気がします。 最近は、様々なコンテンツ保持者がオンラインコンテンツに対する課金に関して検討しています。 少なくとも、私の周りでは多くの人々が電子出版やオンライン課金を検討しています。 まだ多くは「社内での検討」や「情勢調査」といった段階であると勝手に推測しているのですが、何かのキッカケあれば、雪崩現象的に多くのコンテンツが課金へと向かいそうな雰囲気を最近強く感じるようになってきました。 Webコンテンツの課金へと向かわせるもの 最近、Web課金に関する記事をチラホラ見かけるようになってきました。 TechCrunch:メディア王マードック:タブレット以外に「新聞が生き残る道はない」 JBpress:「課金の壁」を巡る新旧メディアの戦い - 騒動を楽しむメディア王マードック JBpressの記事では、以

    Chisei
    Chisei 2009/11/22
    確かにソーシャルメディアにはロボットが入れない。検索エンジンもすべてのデータを保持することはできない。
  • Ask.jp、検索サービスを6月25日に終了

    アスク ドット ジェーピーは6月12日、検索サービス「Ask.jp」を終了することを発表した。法人向けソリューションに特化する事業再編を進めるという。 Ask.jpのウェブ検索、ブログ検索、商品検索、カテゴリ検索が6月25日をもって終了する。広告メニューの販売は5月で終了している。

    Ask.jp、検索サービスを6月25日に終了
    Chisei
    Chisei 2009/06/13
    Askからのクローラが来訪しなくなるということですね
  • 1日で作る全文検索エンジン - Building a full-text search engine in "ONE" day - - とあるはてな社員の日記

    最近、「Introduction to Information Retrieval」というStanfordの大学院向け教科書のドラフトを読んでいます。id:naoyaあたりが勉強会で読んでいる教科書です。この教科書には、効率のいい全文検索システムを作るにはどうすればいいか、という(まさに)教科書的手法が網羅的に書いてあり、そのあたりに興味がある人には、非常に興味深く読めるお勧めのです。 ただ、面白い面白いと言っているだけでは、エンジニアとしては価値半減ですので、GW中にrubyで一日かけて実装してみました。 さすがに実装は、一日で作ったものですから、非常に素朴です。マルチバイト文字はbi-gramで、シングルバイトはスペースなどの区切り記号で認識しています。インデックスは、rubyの処理系のHashやArrayで保持しており、外部にMarshallで書き出す、というものです。検索エンジン

  • 「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記

    Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「下準備があればこその高性能」なわけです。 インデックスを作成するためには、あらかじめWebページの内容を単語に分割する必要があります。英語では単語と単語の間をスペースで区切るため、この作業はさほど難しくありません。しかし日語では、単語の境界はそれほど自明ではないため、日語特有の処理をする必要があります。 日語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合があり、そ

  • 株式会社VOYAGE GROUP

    株式会社VOYAGE GROUPは、2022年1月、株式会社CARTA HOLDINGSと合併いたしました。 関連リリース:CARTA HOLDINGS、基幹グループ会社のCCIおよびVOYAGE GROUPと統合へ https://cartaholdings.co.jp/news/20210513_01/ CARTA トップへ

    株式会社VOYAGE GROUP
  • グーグル、ヤフーを退けMySpaceと契約--ウェブ検索機能や広告リンクを提供

    Googleが入札でライバルのYahooを抑え、MySpaceから重要な契約を勝ち取った。News Corp.が所有し、およそ1億人近いメンバーを誇る同ソーシャルネットワークに対し、Googleはウェブ検索機能や広告リストを提供する。 MySpaceの親会社Fox Interactive Mediaは米国時間8月7日、Googleと3年9カ月の提携を結んだことを明らかにした。MySpace全体にウェブ検索結果と広告リンクを表示できる独占使用権をGoogleに提供する。Googleは、RottenTomatoes.comやScout.comなど、ほかのFox Interactive関連サイトにも検索機能や広告を提供するが、MicrosoftのMSNと提携するFoxSportsは対象とならない。 第4四半期に発効する今回の契約では、トラフィックなどの一定条件を満たすことを条件に、Google

    グーグル、ヤフーを退けMySpaceと契約--ウェブ検索機能や広告リンクを提供
  • 利用している検索サイト「1サイトのみ」のユーザーは約6割--VRI調べ

    家庭内におけるインターネット利用状況を調査しているビデオリサーチインタラクティブは7月24日、インターネットによる検索行動の実態についての調査結果を発表した。 まず、主要検索サイトでの1カ月間での検索行動率(集計対象期間内に1度でもインターネットでウェブ視聴行動を行ったユーザーを100%とした場合の、検索結果ページの接触者率)についてみると、各月とも85%前後で安定しており、検索行動の一般化が見受けられた。また、検索行動者1人あたりの検索結果平均視聴ページ数は、各月85〜100ページ水準で推移しているという結果となった。 検索行動者が1カ月間のうち何日間検索行動を行ったかをみると、検索行動者全体での平均日数は7.4日であり、ほぼ4日に1日の割合だった。分布でみると、10日以上の割合が29%までを占め、20日以上の割合は検索行動者の8%を占めていた。男女別、年令別では、男性20-34才層が平

    利用している検索サイト「1サイトのみ」のユーザーは約6割--VRI調べ
    Chisei
    Chisei 2006/07/25
    gooは確かに辞書検索で使いまくりますね。
  • Expired

    Expired:掲載期限切れです この記事は,ロイター・ジャパンとの契約の掲載期限(30日間)を過ぎましたのでサーバから削除しました。 このページは20秒後にNews トップページに自動的に切り替わります。

    Chisei
    Chisei 2006/07/20
    ユーザに対する選択肢が増え、ユーザビリティ向上!
  • ファイルを探すにはどんな手段がある?

    ここでの例は、上から順に「カレントディレクトリの頭からhogehogeが含まれるファイルを表示」「カレントディレクトリ下に頭からhogehogeが含まれるファイルを表示」「ルート階層下すべてから頭からhogehogeが含まれるファイルを表示」になる。 3.「locate(slocate)」コマンドによる方法 ファイル名データベースからパターンに合うものを表示する。

    ファイルを探すにはどんな手段がある?
    Chisei
    Chisei 2006/07/20
    Whichコマンド便利ですね。
  • あなたの中で 「えっ!マジで知らないの?このソフト・・無料だよ?」 「こんなにメチャメチャ役立つウェブサービスって世の中にあったんだねぇ」 というように下記のよう.. - 人力検索�

    あなたの中で 「えっ!マジで知らないの?このソフト・・無料だよ?」 「こんなにメチャメチャ役立つウェブサービスって世の中にあったんだねぇ」 というように下記のように無料で役立つ『フリーソフト』や『ウェブサービス』を 提供しているあなただけのとっておきのサイトを教えてください!! 今回は出来れば「Web2.0」を象徴するWebサイトがたくさん出ることを願ってます。 ”Web2.0とは?(http://arena.nikkeibp.co.jp/col/20051108/114164/)” 「私も使いたい!!」と思わせるような最高に役立つ情報をガシガシ投稿してください!! 例 http://www.flickr.com/(オープンな写真共有サービス) http://symy.jp/?pFb (共同編集の百科事典ーウィキペディア) http://www.napster.com/ (MP3の分散型共

  • 1