第10回[実録] MySQL向け全文検索エンジン「Tritonn」から「mroonga」への移行ガイド(3) 吉田健太郎 2013-09-03 第9回mroongaを広く使ってもらうために大事なこと - mroongaのパッケージング動向の紹介 HAYASHI Kentaro (kenhys) 2013-08-20
![隔週連載groonga 記事一覧 | gihyo.jp](https://cdn-ak-scissors.b.st-hatena.com/image/square/7241c583676d54fc052c4388a6edd25e4c7f280b/height=288;version=1;width=512/https%3A%2F%2Fgihyo.jp%2Fassets%2Fimages%2Fgihyojp-ogp.png)
クックパッド、グリー、ぐるなび、CROOZは検索技術を どう使っているのか 有限会社オングス 杉山貴章 2012/2/9 2012年1月26日、CROOZ主催の勉強会「モーショノロジー2012 #1」が開催された。今回のテーマは「全文検索」。検索技術の開発や活用に携わる6名の発表者によって、検索エンジンの実装やプロダクトの活用事例などが紹介された。 全文検索の歴史とgroongaの索引構築の実装 ソーシャル連携などに広がるECサイトでの全文検索 KVSの膨大なKeyを見つけるための全文検索 groongaのRuby実装「rroonga」による検索サービス モバイルに欠かせない位置情報検索で使うgroonga レシピ検索のプロトタイピングにApache Solrを使う そもそも、「モーショノロジー」って何? そもそも、「モーショノロジー」とは何だろうか。総合司会を務めたCROOZの小俣泰明氏
About Mroonga Mroonga is a storage engine for MySQL. It provides fast fulltext search feature for all languages including Chinese, Japanese and Korean to all MySQL users. Mroonga was called Groonga storage engine. Characteristic The latest release 13.05 is the latest release. It had been released at 2023-08-02. Install The latest posts Mroonga 13.05 has been released! (2023-08-02) Mroonga 13.01 ha
BOOK: WEB+DB Press TITLE: 常駐型サーバーのデバッグ手法(ドラフト版) AUTHOR: (株)プリファードインフラストラクチャー 太田一樹 *注: この文章はWEB+DB PRESS Vol.48に掲載された記事のドラフト版です はじめに 今回はデバッグ関連特集ということで、常駐型サーバープログラムを作成する際のハマりどころやそれに対する解析方法・解析ツール・対策を、実際の経験を交えながら紹介したいと思います。 筆者は(株)プリファードインフラストラクチャーでインメモリ分散検索エンジン「Sedue (セデュー)」を開発しています。モバイル向け検索エンジン「エフルート」や、2008/11/6にリニューアルされました「はてなブックマーク2」などの検索バックエンドとして使われております。 この検索エンジンはいくつかの常駐型サーバープログラムから構成されており
6位以降 -ブロガーの間で話題のブログ記事ランキング/リアルタイム集計 日付: 2024/03/10(今日) / 2024/03/09 ... まとめ: 1週間 / 1ヶ月 / 1年
2009年05月30日18:30 カテゴリLightweight Languages perl - HTML::ExtractContent vs. 404 Blog Not Found やっとわかった。なんではてなブックマークのサマリーが、本blogに関してはイマイチなのかが。 HTMLから本文を抜き出せるモジュールHTML::ExtractContent - perl-mongers.org 今回ご紹介するHTML::ExtractContentはHTMLの内容を判断しコンテンツの本文らしき部分を抜き出せる凄いモジュールです。 これを、使っているからだ。 以下、llevalによる実演。 #!/usr/bin/perl use strict; use warnings; use LWP::UserAgent; use HTTP::Response::Encoding; use HTML:
2009年06月28日16:00 カテゴリ書評/画評/品評Lightweight Languages それでも私がはてなブックマークプラスにした理由 トラッキングIDまで変えているわけではないので、決定的な証拠は出せないのですが.... TABLOG:はてなブックマーク有料版でのアフィリエイトが、激しく儲からない件 - livedoor Blog(ブログ) これなら、月額280円の費用を払っても、投資回収は余裕だな〜、いいアイデアだな〜、さすが「はてな」さんだな、と思って加入してみた。 純粋にアフィリ増収のための投資として入ってみたのですが、、激しく儲からない!ガックシ〜・・。 私のところでは280円よりは収益を上げているのはほぼ確実ではあります。 が、もちろんそれが理由ではありません。 本題に行く前に、まず、はてなダイアリープラスで儲からない理由をあげておきましょう。 元記事のPV>ブッ
日記を相当長い間書いていませんでしたすいません・・・ 今日は、ちょっと時期をのがしてしまいましたが、はてなブックマークリニューアルについて書いてみようと思います。まずは、リニューアルおめでとうございます!>はてなの皆様 今回のはてなブックマークリニューアルでは、弊社は、はてなブックマークのエントリ全文検索に携わりました。弊社の全文検索エンジンである、「Sedue」を用いて、複数台で全文検索機能を実現しています。リアルタイム性と大規模な検索が必要なタスクであったので、Sedueは今回のタスクにぴったりなエンジンでした。 エンジン自体は、もともと分散環境でいかに簡単に動作させるか、が売りのエンジンなので、すぐに稼働させることができました。ランキングの部分は、かなり力をいれていて、id:naoyaさんと弊社のCTO太田、エンジニアの久保田が協力して作成していきました。ランキングは、もうすでに汎用
新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。 新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する(たぶん)最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは 実装が簡単 学習時間が短い 性能もそこそこよい という感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ
そろそろ落ち着いて来たころ合いなので、はてなブックマーク全文検索機能の裏側について書いてみることにします。 PFI側は、8月ぐらいからバイトに来てもらっているid:nobu-qと、id:kzkの2人がメインになって進めました(参考: 制作スタッフ)。数学的な所は他のメンバーに色々と助言をしてもらいました。 はてな側は主にid:naoyaさんを中心に、こちらの希望や要求を聞いて頂きました。開発期間は大体1〜2か月ぐらいで、9月の上旬に一度id:naoyaさんにオフィスに来て頂いて合宿をしました。その他の開発はSkypeのチャットで連絡を取りながら進めてました。インフラ面ではid:stanakaさん、契約面ではid:jkondoさん、id:kossyさんにお世話になりました。 全文検索エンジンSedue 今回の検索エンジンはSedue(セデュー)という製品をベースにして構築しています。Sedu
このドメインは お名前.com から取得されました。 お名前.com は GMOインターネットグループ(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。 日本のドメイン登録業者(レジストラ)(「ICANNがレジストラとして認定した企業」一覧(InterNIC提供)内に「Japan」の記載があるもの)を対象。 レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2023年5月時点の調査。
数日前に見かけた情報ですが、これまでフィードに掲載されているコンテンツのみインデックスしていたGoogleブログ検索が、ページ全体をインデックスしようと試みているそうです。 » Google Blog Search Changes How It Indexes Posts – Nine By Blue 記事によるとGoogleグループの「Blog Search side(bar) effects – Google Blog Search | Google Groups」に情報があるということなので実際に見てみると、Google BlogSearchチームのJeremy Hyltonという人が次のように発言しています。 We have changed the way we index blog posts to include the full content of the page. We
2011-01-18追記 教科書編その2 にて2011年版のIR教科書を紹介しています 情報検索(IR)の勉強を本格的に始めて8ヶ月.大体どんな分野があって,どんなことを勉強すればいいのかわかってきた(と思う).この気持ちを忘れないうちにメモしておこう.以下,若輩があーだこーだ言ってるだけなので,間違いや他に情報があれば,ぜひコメントをお願いします. # ここで述べている情報検索とは,コンピュータサイエンスの一分野としての情報検索です.図書館情報学の側面は一切扱っていません,あしからず. というわけでまず教科書編. 本腰を入れて勉強する場合,基礎づくりのためには教科書選びがいちばん重要だと思っている.自分の知っている限り,情報検索における教科書の選択肢はそれほど広くはない.以下に紹介する本は,情報検索を学ぶ上で「買い」の本.これらを読めば,最新の論文を読めるだけの土台はできるし,専門家と議
前々回のエントリで紹介した重要部分を抽出するperlモジュール「HTML::Feature」ですが、その後ジワジワと反響があって、意外なことにid:fubaさんから「HTML::Elementでデータを返してくれるといいなぁ」というリクエストまでいただくほどに。 でようやく今週末に時間がとれたので、遅ればせながら対応してみました。 http://search.cpan.org/~miki/HTML-Feature-2.0.3/ 精度面でもわずかながらチューンアップを施しています。多分少しだけ精度が高くなっているはず。 重要部分のHTML::Elementを取得する方法ですが、こんな感じでOKです。 use HTML::Feature; my $feature = HTML::Feature->new; my $result = $feature->parse("http://hogehog
zuzara.com を読んでいると、ブログの本文抽出にチャレンジしているのを見つけました。 tdかdivで囲まれた文字列で、文章と比べてHTMLのタグがあまり多くないもののうち、一番文字数が多いのが本文だろう、というアルゴリズム。 PHP で書かれたコードを Perl に移植しながら、もっと効率的なアルゴリズムが無いかを考えていました。 まずは、『タグの数』ではなく、比率をで判定するように改良(?)しました。 スコア = タグ除去後(length) / タグ除去前(length) タグが含まれていないときが最大値になるので、スコアは 1 が最大となります。タグの数よりもこっちの方が良さそうだったのだけど、コメント部分を抽出してしまう可能性が非常に高い。だめぽ。 牛乳を飲みつつ考えていると(カルシウムを摂取して身長を伸ばす)、ひらめきましたよ!要は、長い文章を取り出せればいいのだから、句読
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く