初めまして、インフラストラクチャー部の加藤 (@EugeneK) です。 クックパッドでは現在178万ものレシピが公開されていますが、目的のレシピを探すために検索機能を提供しています。 今回は検索機能の裏側の仕組みについて、インフラストラクチャーの観点からお話ししようと思います。 全ての検索機能を支えるSolrと周辺のアーキテクチャ クックパッドにはレシピの検索だけでなく様々な検索機能がありますが、その全てはSolrを活用して実装されています。 以前はMySQL Tritonnによる全文検索機能を使用していましたが、2011年頃からSolrに切り替わりました。 クックパッドではSolrをマスタ - スレーブ構成にすることで冗長性と負荷分散を実現しています。以下の構成図をご覧ください。 マスタとスレーブの間には、リピータと呼ばれる検索インデックスを中継するためだけの役割のサーバがいます。この
検索エンジン自作入門 ~手を動かしながら見渡す検索の舞台裏 作者:山田 浩之,末永 匡発売日: 2014/09/25メディア: 単行本(ソフトカバー) (この記事で紹介しているのはTF-IDFとかの計算もない簡素なものです。) はじめに Webサービスのプログラミングに必要なことのだいたいは、スクレイピングに学んだ - Line 1: Error: Invalid Blog('by Esehara' ) この前↑の記事をみかけました。クローリングやスクレイピングは、色々と応用が効きそうなのでしっかり勉強したい。 PythonではScrapyという有名なクローリング・スクレイピング用のライブラリがありますが、今回は勉強としてScrapyを使わずに実装してみる。流れとしては以下のとおり Webクローラの構築 Mecabで日本語の形態素解析 検索エンジンの構築 データをMongoDBに格納 Fl
By Global Panorama 「検索エンジンといえばGoogle」と言えるほど世界中で使われているGoogle検索は、ブロック崩しができるなど隠れたキーワードや機能がコッソリ追加されていることでも知られています。そんなGoogle検索で知っていると便利な工夫や、ちょっとしたキーワードの追加で超絶便利にしてくれる35機能がDigital Trendsでまとめられており、その中から27の機能が日本語でも使えることが確認できました。 The 35 Best Google Search Tips and Tricks | Digital Trends http://www.digitaltrends.com/computing/the-35-best-google-search-tips-and-tricks/ 検索での句読点、記号、演算子 - ウェブ検索 ヘルプ https://supp
Web解析の専門家、井水大輔です。Webを使って企業の売上UPのお手伝いをしています。。WACA認定ウェブ解析士マスターの資格を取得して企業研修や公演などウェブ解析士の育成にもとりくんでいます。 ご相談・メディア掲載依頼等はこちらから→
セコン (id:secondlife, @hotchpotch) です。ウェブサービスにはよく「このエントリーに関連するブログ記事」や「このレシピに関連するレシピ」という機能が実現されてますよね。さて、この機能はどのように実現すれば良いでしょうか。例えば tf-idf で単語の類似度を求め…といった実装が必要になり、いささか面倒です。 しかしながら Elasticsearch や Solr *1を使うと手軽に実現できます。例えば、クックパッドニュースの記事では Solr を使い「この記事を読んだ人におすすめ」の機能に、最近クックパッドにジョインしたインドネシアの会社の DapurMasak では Elasticsearch を使い「Resep serupa(関連レシピ)」の機能で利用しています。 クックパッドニュースでのこの記事を読んだ人におすすめ DapurMasak での関連レシピ 使
先行発売で、検索エンジン自作入門を購入しました。まだペラペラと眺めている状況ですが、これが非常に面白いです。 「検索エンジン自作入門」は、集めた文章をいかに整理するかをテーマとして扱っている本です。整理するという意味は、検索エンジンを利用するというライフハック的な意味ではありません。整理する為の検索エンジン自体を自分で作ることで理解するという、極めて硬派な本です。 「検索エンジン自作入門」とは? 「検索エンジン自作入門」は、未踏IT人材発掘・育成事業にスーパークリエータに認定された山田浩之氏と、Senna/groongaの開発者の末永匡氏の共著です。検索エンジンについて語らせたら、日本でこれ以上の人たちはいないだろうという組み合わせです。ということで、内容は非常に濃いのですが、難しい内容を解りやすく解説されています。 一方で、扱っている内容は非常にマニアックです。下に目次付けておくので見て
はじめまして、レバレジーズSEOチームです。 私達は自然言語処理を用いてSEO施策を行っています。 自然言語処理というのは、人間が普段使っている言語をコンピュータなどの機械に処理させることを指します。Googleなどの検索エンジンがWebページを理解するために用いていると考えられています。 今回は、自然言語処理を行うためのテキストマイニングの手法をいくつか紹介しようと思います。 ■形態素解析とテキストマイニングまず第一に、検索エンジンがWebページを読み込んで、そのページに何が書かれているのか・何を強調したいのか・どのような文脈なのかを人間のように理解することは一般的に難しいとされています。 とりわけ日本語の場合、The pen is made in German.など、 ”The”,”pen”,”is”,”made”,”in”,”German”とスペースで区切られた英語とは異なり、「ドイ
webページ(ホームページ)は、ユーザに見せるための物です。 ユーザが何を求めてホームページに来たかを把握できればより良いホームページが製作できます。 ユーザがホームページを訪問するとアクセスログと呼ばれる記録が残ります。 ここでは、そのアクセスログを解析することにより色々な情報を引き出す方法を説明したいと思います。 ただし、ここで説明する方法は多少特殊かも知れません。 一般的には世の中にあるツールを使ってアクセスログ解析を行いますが、ここでは、生のアクセスログから情報を抽出する方法を説明して行きたいと思います。 もしかすると、アクセスログの読み方、ツールの作り方に近いかも知れません。 アクセスログからわかること アクセスログを解析すると以下の事が解ります。 どのページが閲覧されているか ユーザはどのような順番でページを閲覧しているか どのような場所からホームページにたどり着いてきたか 何
Webサイトを上位表示させるためにはコンテンツの質が良いことは当然として、外部リンクの獲得、近年ではソーシャルの活用等も重要になってきています。 ですがそれだけではなく、特にWebサイトの設計段階においては検索エンジンによるWebページの評価の仕組みを理解して、適切にWebサイト内のリンクを構築していくということが重要です。 今回はその内部リンクについて、どういう内部リンクがその機能を果たしつつ検索エンジンに正当に評価されやすいのか、私の経験からその考え方をSEO初心者の方にも分かりやすく解説しようと思います。 内部リンク(Internal Link)とは 内部リンクとは、同じドメイン内から張られたそのドメイン内部のページへのリンクのことです。違うドメインから張られたリンクは外部リンク(External Link)といいます。 内部リンクの果たす役割 SEO的な観点で言うと、内部リンクは外
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く