タグ

webと検索に関するRanTairyuのブックマーク (7)

  • mixiが自社開発の検索エンジンに移行、ウェブ検索はYSTに

    ミクシィは7月2日、ソーシャルネットワーキングサービス(SNS)「mixi」内の検索機能をgooから自社開発の検索エンジンに切り替えた。 今回の検索エンジン移行により、mixi内における日記やコミュニティの検索機能はすべて自社開発の検索エンジンによって提供される。 この検索エンジンは「文字 N-gram」をいう手法を用いたもので、従来の検索エンジンに比べて検索漏れが少ないという。mixiの日記には、辞書に掲載されていない文字が見られたり、文字がきちんと並んでいなかったりする。こういった場合に効率よく検索できる技術として文字 N-gramによる検索エンジンを導入したという。 同時に、ウェブ検索のエンジンも「Yahoo! Search Technology」(YST)に移行した。この検索エンジンはヤフーでも採用されている。 オーバーチュアは今回のYST導入を機に、mixi のコミュニティ検索、

    mixiが自社開発の検索エンジンに移行、ウェブ検索はYSTに
  • 「風景」と「光景」の違いは? 国立国語研が大量の日本語データ公開

    国立国語研究所は2007年5月28日、約1000万語分の日語の書き言葉データをインターネット上で試験公開したと発表した。各省庁が刊行した白書のデータ(約500万語分)と、ヤフーのQ&A情報サイト「Yahoo!知恵袋」に投稿されたデータ(約500万語分)から成る。こうした大量の言語データは「コーパス」と呼ばれ、言語にまつわる研究開発で活用されている。同研究所は現在、「現代日語書き言葉均衡コーパス」と呼ぶ大規模コーパスの構築を進めており、今回公開したのはその一部。研究者に限らず誰でも無償で検索、閲覧が可能だ。「“風景”と“光景”など、辞書では違いが分かりにくい言葉でも、大量の用例を見ればすぐ分かる」(研究開発部門の前川喜久雄言語資源グループ長)など、一般の人にとっても、日語の使われ方を知るうえで便利なデータとなりそうだ。 コーパスは、日語学や日教育はもちろん、自然言語処理のように情

    「風景」と「光景」の違いは? 国立国語研が大量の日本語データ公開
  • http://5go.biz/game/

  • 秋元@サイボウズラボ・プログラマー・ブログ: Google Hacking Database - ハック向けGoogleキーワード集

    Googleの検索キーワードを工夫すると、サイトの持ち主が意図していなかった隠れたデータを探せる、というのはたびたび話題になる。 Googleを使ってサイトのセキュリティテストをするという著書もあるJohnny Long氏による、既知のそういったキーワードのデータベース Google Hacking Database のURLが変更されたようだ。(データの更新は2006年で止まったままのようだが) Google Hacking Database いろいろなカテゴリーの検索キーワードがある。いくつかカテゴリーを紹介すると すでに知られているセキュリティホールで放置されているものを探す エラーメッセージに出さなくてもいい情報まで表示されているものを探す 重要な情報、ユーザ名、パスワードなどを検索する 商品やオープンソースアプリのログイン画面を検索する ファイアウォールやサーバのログファイルを探

  • Yahoo!検索のフィルターを解除しよう!

    Yahoo!検索 以前にGoogleのフィルタの解除について書きましたが、実はYahoo!検索にもアダルトフィルタという規制が掛かっているのをご存知ですか?このアダルトフィルタを外せば、今まで検索で引っかからなかったエロサイトやエロ画像、エロ音声、エロ動画が検索可能になります! では早速やり方を紹介したいと思います! ★Yahoo!検索フィルタの外し方 1、Yahoo! JAPANへアクセスします。 2、18歳以上で既にYahoo! JAPAN IDを持っている人はそのままログインします。Yahoo! JAPAN IDを持っているが18歳以下、またはアカウントを持っていない人は、新しく年齢を18歳以上に設定してアカウントを作ってください。※一度設定した生年月日の情報は、あとから変更する事はできません。 3、Yahoo!検索を開きます。ウェブ検索ボタンの下にある「設定」を押します。 4、アダ

    Yahoo!検索のフィルターを解除しよう!
  • ITmedia +D PC USER:検索サイト「百度」がえらいことになっている

    中国で最も有名なWebサイト「百度」が中国のライバル企業やネチズンから“悪しき企業”として非難されている。一連のゴタゴタも興味深いが中国企業の抗議行動の仕方もこれまた興味深いのだ。 不満高まる百度の広告システム 中国Google中国と双璧をなす検索サイト「百度」(Baidu)の周辺がなにやら騒がしい。しかもいくつものゴタゴタが立て続けに起こっているのでなおさら目に付いてしまう。この一連のトラブルのインパクトは、広告収入を主とする百度のビジネススタイルを変化させるほど大きいようだ。 事件の内容を説明する前に、百度の主な収入源である「推広」(文字通り推し広めるという意味)と呼ばれる広告について紹介しよう。百度では、広告主があるキーワードに対して1クリックあたりの広告費を支払うと、その広告費の順位が百度でWEB検索を行ったときの検索結果順位となる。百度のWEB検索結果は、まず広告費を多く支払っ

    ITmedia +D PC USER:検索サイト「百度」がえらいことになっている
  • ソースコードの盗み方|悪態のプログラマ

    悪態のプログラマとある職業プログラマの悪態を綴る。 入門書が書かないプログラミングのための知識、会社の研修が教えないシステム開発業界の裏話は、新人プログラマや、これからプログラマを目指す人たちへのメッセージでもある。 プログラミングを行う際に、既存のソースコードを流用することは多い。自分が過去に書いたコード、周囲の仲間が持っているコード、ヘルプや書籍に掲載されているコード。ネットで探せば、最新技術やマイナーな技術のものでも、何かしら発見できることだろう。 Yahoo!Google のような一般的な検索エンジンでも、適切なキーワードを指定すれば、ソースコードを検索することができる。コードによく出てくる文字列(例えば、C言語なら「include」や「void」など)を含めて検索すればよいだろう。 こうした一般のページ検索では、コードの解説や関連情報なども見つかるので有意義だ。しかし、一方

    ソースコードの盗み方|悪態のプログラマ
  • 1