[B! 検索] niwakaのブックマーク

隔週連載groonga 記事一覧 | gihyo.jp

第10回[実録] MySQL向け全文検索エンジン「Tritonn」から「mroonga」への移行ガイド（3）吉田健太郎 2013-09-03 第9回mroongaを広く使ってもらうために大事なこと - mroongaのパッケージング動向の紹介 HAYASHI Kentaro (kenhys) 2013-08-20

niwaka 2013/05/22

検索

リンク

検索技術を使うなら知ってないと損する6つのこと～クックパッド、グリー、ぐるなび、CROOZは検索技術をどう使っているのか（1/2） - ＠IT

クックパッド、グリー、ぐるなび、CROOZは検索技術をどう使っているのか有限会社オングス杉山貴章 2012/2/9 2012年1月26日、CROOZ主催の勉強会「モーショノロジー2012 ＃1」が開催された。今回のテーマは「全文検索」。検索技術の開発や活用に携わる6名の発表者によって、検索エンジンの実装やプロダクトの活用事例などが紹介された。全文検索の歴史とgroongaの索引構築の実装ソーシャル連携などに広がるECサイトでの全文検索 KVSの膨大なKeyを見つけるための全文検索 groongaのRuby実装「rroonga」による検索サービスモバイルに欠かせない位置情報検索で使うgroonga レシピ検索のプロトタイピングにApache Solrを使うそもそも、「モーショノロジー」って何？そもそも、「モーショノロジー」とは何だろうか。総合司会を務めたCROOZの小俣泰明氏

niwaka 2012/02/10

検索

リンク

2011年東北地方太平洋沖地震に関するウェブ情報のTR解析　ポータル　京都大学防災研究所巨大災害研究センター

niwaka 2011/04/15

リンク

二次元画像詳細検索

二次元画像詳細検索インターネットに画像がある場合検索画像ファイルを持っている場合検索

niwaka 2011/03/01

リンク

Fast fulltext search for all languages on MySQL

About Mroonga Mroonga is a storage engine for MySQL. It provides fast fulltext search feature for all languages including Chinese, Japanese and Korean to all MySQL users. Mroonga was called Groonga storage engine. Characteristic The latest release 13.05 is the latest release. It had been released at 2023-08-02. Install The latest posts Mroonga 13.05 has been released! (2023-08-02) Mroonga 13.01 ha

niwaka 2011/01/24

検索
MySQL

リンク

常駐型サーバープログラムのデバッグ手法

BOOK: WEB+DB Press TITLE: 常駐型サーバーのデバッグ手法(ドラフト版) AUTHOR: (株)プリファードインフラストラクチャー太田一樹＊注: この文章はWEB+DB PRESS Vol.48に掲載された記事のドラフト版ですはじめに今回はデバッグ関連特集ということで、常駐型サーバープログラムを作成する際のハマりどころやそれに対する解析方法・解析ツール・対策を、実際の経験を交えながら紹介したいと思います。筆者は(株)プリファードインフラストラクチャーでインメモリ分散検索エンジン「Sedue (セデュー)」を開発しています。モバイル向け検索エンジン「エフルート」や、2008/11/6にリニューアルされました「はてなブックマーク2」などの検索バックエンドとして使われております。この検索エンジンはいくつかの常駐型サーバープログラムから構成されており

niwaka 2010/12/27

検索

リンク

加藤和彦 Kazuhiko KATO, Dr. Prof.

niwaka 2009/12/04

java
検索

リンク

ブログ検索/解析皆声.jp: ネット上の皆の声をリアルタイムに把握

6位以降 -ブロガーの間で話題のブログ記事ランキング/リアルタイム集計日付: 2024/03/10(今日) / 2024/03/09 ... まとめ: 1週間 / 1ヶ月 / 1年

niwaka 2009/10/30

リンク

perl - HTML::ExtractContent vs. 404 Blog Not Found : 404 Blog Not Found

2009年05月30日18:30 カテゴリLightweight Languages perl - HTML::ExtractContent vs. 404 Blog Not Found やっとわかった。なんではてなブックマークのサマリーが、本 blogに関してはイマイチなのかが。 HTMLから本文を抜き出せるモジュールHTML::ExtractContent - perl-mongers.org 今回ご紹介するHTML::ExtractContentはHTMLの内容を判断しコンテンツの本文らしき部分を抜き出せる凄いモジュールです。これを、使っているからだ。以下、llevalによる実演。 #!/usr/bin/perl use strict; use warnings; use LWP::UserAgent; use HTTP::Response::Encoding; use HTML:

niwaka 2009/07/01

検索

リンク

それでも私がはてなブックマークプラスにした理由 : 404 Blog Not Found

2009年06月28日16:00 カテゴリ書評/画評/品評Lightweight Languages それでも私がはてなブックマークプラスにした理由トラッキングIDまで変えているわけではないので、決定的な証拠は出せないのですが.... TABLOG:はてなブックマーク有料版でのアフィリエイトが、激しく儲からない件 - livedoor Blog（ブログ）これなら、月額280円の費用を払っても、投資回収は余裕だな〜、いいアイデアだな〜、さすが「はてな」さんだな、と思って加入してみた。純粋にアフィリ増収のための投資として入ってみたのですが、、激しく儲からない！ガックシ〜・・。私のところでは280円よりは収益を上げているのはほぼ確実ではあります。が、もちろんそれが理由ではありません。本題に行く前に、まず、はてなダイアリープラスで儲からない理由をあげておきましょう。元記事のPV＞ブッ

niwaka 2009/07/01

検索

リンク

『はてなブックマークリニューアル』

日記を相当長い間書いていませんでしたすいません・・・今日は、ちょっと時期をのがしてしまいましたが、はてなブックマークリニューアルについて書いてみようと思います。まずは、リニューアルおめでとうございます！＞はてなの皆様今回のはてなブックマークリニューアルでは、弊社は、はてなブックマークのエントリ全文検索に携わりました。弊社の全文検索エンジンである、「Sedue」を用いて、複数台で全文検索機能を実現しています。リアルタイム性と大規模な検索が必要なタスクであったので、Sedueは今回のタスクにぴったりなエンジンでした。エンジン自体は、もともと分散環境でいかに簡単に動作させるか、が売りのエンジンなので、すぐに稼働させることができました。ランキングの部分は、かなり力をいれていて、id:naoyaさんと弊社のCTO太田、エンジニアの久保田が協力して作成していきました。ランキングは、もうすでに汎用

niwaka 2008/12/31

検索

リンク

新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転改

新はてブ正式リリース記念ということで。もうリリースから何週間も経っちゃったけど。新はてなブックマークではブックマークエントリをカテゴリへと自動で分類しているが、このカテゴリ分類に使われているアルゴリズムはComplement Naive Bayesらしい。今日はこのアルゴリズムについて紹介してみる。 Complement Naive Bayesは2003年のICMLでJ. Rennieらが提案した手法である。ICMLというのは、機械学習に関する（たぶん）最難関の学会で、採択率はここ数年は30%を切っている。2003は119/371で、32.1%の採択率だったようだ。 Complement Naive Bayesの位置づけは実装が簡単学習時間が短い性能もそこそこよいという感じで、2003年段階にあっても、絶対的な性能ではSVMに負けていた。しかし、学習が早いというのは実アプリケーシ

niwaka 2008/12/26

検索

リンク

はてなブックマーク全文検索機能の裏側

そろそろ落ち着いて来たころ合いなので、はてなブックマーク全文検索機能の裏側について書いてみることにします。 PFI側は、8月ぐらいからバイトに来てもらっているid:nobu-qと、id:kzkの2人がメインになって進めました(参考: 制作スタッフ)。数学的な所は他のメンバーに色々と助言をしてもらいました。はてな側は主にid:naoyaさんを中心に、こちらの希望や要求を聞いて頂きました。開発期間は大体1〜2か月ぐらいで、9月の上旬に一度id:naoyaさんにオフィスに来て頂いて合宿をしました。その他の開発はSkypeのチャットで連絡を取りながら進めてました。インフラ面ではid:stanakaさん、契約面ではid:jkondoさん、id:kossyさんにお世話になりました。全文検索エンジンSedue 今回の検索エンジンはSedue(セデュー)という製品をベースにして構築しています。Sedu

niwaka 2008/12/26

検索

リンク

徹底比較！検索エンジン第1回：検索ログと検索エンジン

このドメインはお名前.com から取得されました。お名前.com は GMOインターネットグループ(株) が運営する国内シェアNo.1のドメイン登録サービスです。 ※表示価格は、全て税込です。 ※サービス品質維持のため、一時的に対象となる料金へ一定割合の「サービス維持調整費」を加算させていただきます。 ※1 「国内シェア」は、ICANN(インターネットのドメイン名などの資源を管理する非営利団体)の公表数値をもとに集計。gTLDが集計の対象。日本のドメイン登録業者(レジストラ)（「ICANNがレジストラとして認定した企業」一覧（InterNIC提供）内に「Japan」の記載があるもの）を対象。レジストラ「GMO Internet Group, Inc. d/b/a Onamae.com」のシェア値を集計。 2023年5月時点の調査。

niwaka 2008/12/26

検索

リンク

Googleブログ検索がページ全体をインデックスしようとしているらしい - F.Ko-Jiの「一秒後は未来」

数日前に見かけた情報ですが、これまでフィードに掲載されているコンテンツのみインデックスしていたGoogleブログ検索が、ページ全体をインデックスしようと試みているそうです。 » Google Blog Search Changes How It Indexes Posts – Nine By Blue 記事によるとGoogleグループの「Blog Search side(bar) effects – Google Blog Search | Google Groups」に情報があるということなので実際に見てみると、Google BlogSearchチームのJeremy Hyltonという人が次のように発言しています。 We have changed the way we index blog posts to include the full content of the page. We

niwaka 2008/12/26

検索

リンク

情報検索ことはじめ〜教科書編〜 - シリコンの谷のゾンビ

2011-01-18追記教科書編その2 にて2011年版のIR教科書を紹介しています情報検索(IR)の勉強を本格的に始めて8ヶ月．大体どんな分野があって，どんなことを勉強すればいいのかわかってきた（と思う）．この気持ちを忘れないうちにメモしておこう．以下，若輩があーだこーだ言ってるだけなので，間違いや他に情報があれば，ぜひコメントをお願いします． # ここで述べている情報検索とは，コンピュータサイエンスの一分野としての情報検索です．図書館情報学の側面は一切扱っていません，あしからず．というわけでまず教科書編．本腰を入れて勉強する場合，基礎づくりのためには教科書選びがいちばん重要だと思っている．自分の知っている限り，情報検索における教科書の選択肢はそれほど広くはない．以下に紹介する本は，情報検索を学ぶ上で「買い」の本．これらを読めば，最新の論文を読めるだけの土台はできるし，専門家と議

niwaka 2008/12/26

検索

リンク

連載：検索エンジンを作る｜gihyo.jp … 技術評論社

niwaka 2008/12/26

検索

リンク

Googleはなぜ的確に探せるのか？

「1兆ページ以上」といわれる世界中の膨大なWebページの中から、目的の情報を的確に見つけ出すGoogleの検索サービス。日々、当たり前のように利用しているGoogleの検索エンジンがどのような仕組みで動いているか、ご存知ですか？　本連載では東京大学情報基盤センター図書館電子化研究部門助教の清田陽司氏が解説します。

niwaka 2008/12/26

連載インデックスページ。東京大学情報基盤センター図書館電子化研究部門助教の清田陽司氏が解説

検索

リンク

HTML::Elementを返すようにした - download_takeshi’s diary

前々回のエントリで紹介した重要部分を抽出するperlモジュール「HTML::Feature」ですが、その後ジワジワと反響があって、意外なことにid:fubaさんから「HTML::Elementでデータを返してくれるといいなぁ」というリクエストまでいただくほどに。でようやく今週末に時間がとれたので、遅ればせながら対応してみました。 http://search.cpan.org/~miki/HTML-Feature-2.0.3/ 精度面でもわずかながらチューンアップを施しています。多分少しだけ精度が高くなっているはず。重要部分のHTML::Elementを取得する方法ですが、こんな感じでOKです。 use HTML::Feature; my $feature = HTML::Feature->new; my $result = $feature->parse("http://hogehog

niwaka 2008/11/06

リンク

ブログの本文抽出にチャレンジ - Ceekz Logs (Move to y.ceek.jp)

zuzara.com を読んでいると、ブログの本文抽出にチャレンジしているのを見つけました。 tdかdivで囲まれた文字列で、文章と比べてHTMLのタグがあまり多くないもののうち、一番文字数が多いのが本文だろう、というアルゴリズム。 PHP で書かれたコードを Perl に移植しながら、もっと効率的なアルゴリズムが無いかを考えていました。まずは、『タグの数』ではなく、比率をで判定するように改良（？）しました。スコア = タグ除去後（length） / タグ除去前（length）タグが含まれていないときが最大値になるので、スコアは 1 が最大となります。タグの数よりもこっちの方が良さそうだったのだけど、コメント部分を抽出してしまう可能性が非常に高い。だめぽ。牛乳を飲みつつ考えていると（カルシウムを摂取して身長を伸ばす）、ひらめきましたよ！要は、長い文章を取り出せればいいのだから、句読

niwaka 2008/11/06

リンク

はてなブックマーク

タグ

関連タグで絞り込む (35)

検索に関するniwakaのブックマーク (77)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス