[B! 全文検索] katotakuのブックマーク

マンガ全文検索システムの構築 - builderscon tokyo 2017

Abstract Google Cloud Visionを利用し漫画の全文検索システムを作りたい！ Google OCRの日本語検出力や漫画のコマ切り出しテクニックを披露致します。漫画のコマを分割したい GCV OCRの日本語検出精度の具合い Pythonなら全文検索はどうする？検索システムをPythonでWebサービス化デモ

katotaku 2017/08/07

全文検索

リンク

SolrとElasticsearchを比べてみよう

2.  名前: 菅谷信介  所属: N2SM, Inc.  オープンソース活動:  Apache Portals (Jetspeed2など) コミッタ  Seasarプロジェクトコミッタ(S2Container, Teeda, SAStruts, DBFlute, S2Portlet, S2Robot..)  Fessプロジェクト運営などなど・・・  Github: https://github.com/codelibs  Blog: http://www.chazine.com/  Twitter: https://twitter.com/shinsuke_sugaya/ 自己紹介

katotaku 2014/05/26

リンク

Solrの導入資料を公開します - Hatena Developer Blog

こんにちは、 id:yanbe です。全文検索エンジンLucene上に構築されたSolrという検索ミドルウェアがあります。拡張性・カスタマイズ性に富み、既存のデータのインポート機能が豊富なのもあって、広く利用されています。参考: Solr - Wikipedia 国内のウェブサービスでのSolrの採用事例を挙げるとNAVERやCookpad、アメーバなどがありますが、はてなでも以前より一部のサービスでSolrを採用しています。 Solrの公式ドキュメント(英語)はwiki形式で提供されており、網羅的な情報はこちらで手に入ります。また、Solrの基本的な使い方を学べるチュートリアルもありますが、「すでにある典型的なLAMP構成のウェブサービスにSolrによる検索機能を組み込む」までには、ここからさらに多くの情報を調べる必要があり、Solrの導入のハードルとなっていると感じました。そこで

katotaku 2012/05/04

全文検索

リンク

Welcome to Apache Solr

Solr is the popular, blazing-fast, open source enterprise search platform built on Apache Lucene™. Learn more about Solr. Solr is highly reliable, scala ble and fault tolerant, providing distributed indexing, replication and load-balanced querying, automated failover and recovery, centralized configuration and more. Solr powers the search and navigation features of many of the world's largest inter

katotaku 2009/09/07

リンク

全文検索を実装したソースコードを読もう（1/4）－＠IT

第6回　全文検索を実装したソースコードを読もう倉貫義人松村章弘 TIS株式会社 SonicGarden 2009/9/3 優れたプログラマはコードを書くのと同じくらい、コードを読みこなせなくてはならない。優れたコードを読むことで、自身のスキルも上達するのだ（編集部）いよいよオープンソースの社内SNS「SKIP」を使ったコードリーディングも最終回となりました。Railsの基本的な構成から、テストコードやRSpecの書き方といった内容に加え、前回はOpenIDをRailsで活用する応用編まで、コードとともに学んできました。最終回となる今回は、SKIPの目玉機能の1つである全文検索を扱います。最終回にふさわしく、内容も高度なものになっていますが、ここまでおつきあいいただいた読者の皆さまであれば、十分に理解できる内容だと思います。 SKIPにおける全文検索機能では、任意の検索キーワード

katotaku 2009/09/04

全文検索

リンク

はてなブックマーク全文検索機能の裏側

そろそろ落ち着いて来たころ合いなので、はてなブックマーク全文検索機能の裏側について書いてみることにします。 PFI側は、8月ぐらいからバイトに来てもらっているid:nobu-qと、id:kzkの2人がメインになって進めました(参考: 制作スタッフ)。数学的な所は他のメンバーに色々と助言をしてもらいました。はてな側は主にid:naoyaさんを中心に、こちらの希望や要求を聞いて頂きました。開発期間は大体1〜2か月ぐらいで、9月の上旬に一度id:naoyaさんにオフィスに来て頂いて合宿をしました。その他の開発はSkypeのチャットで連絡を取りながら進めてました。インフラ面ではid:stanakaさん、契約面ではid:jkondoさん、id:kossyさんにお世話になりました。全文検索エンジンSedue 今回の検索エンジンはSedue(セデュー)という製品をベースにして構築しています。Sedu

katotaku 2008/12/22

リンク

Lux: Distributd full-text search engine

Lux is a distributed full-text search engine library. It helps to retrieve large amount of documents efficiently.

katotaku 2008/04/08

全文検索

リンク

10g_tech_overview

このドキュメントは、Oracle Textバージョン10.1.0.2に追加された改良点の技術概要であり、Oracle Textの以前のバージョンを使い慣れている読者を対象としています。 Oracle Textを初めて使用するユーザーは、この概要を読む前に、製品についてよく理解しておいてください。公式なドキュメント、特に『アプリケーション開発者ガイド』は、入門書として適しており、8.1.5、8.1.6、8.1.7、9.0.1および9.2.0用のinterMedia Text技術概要が用意されています（時間を見つけて、これらの概要を1つにまとめた更新版の包括的な技術概要を作成したいと思っています）。この概要の目標は、ドキュメントを次の3つの面で補足することです。新機能のみをすべて1つの概要にまとめています。このため、熟練ユーザーはこの概要を読むだけで最新情報を入手でき、公式ドキュメント全体

katotaku 2007/07/28

リンク

きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

MeCabで形態素解析器を作りたい場合は以下の二つの言語リソースが必要です。 1. 辞書 (単語と品詞のペアの集合) 2. 入力文と、それに対応する正解出力ペア(正解データ) 現在公開している mecab-ipadic は、ipadicとRWCPコーパスという正解データを使っています。ここから分かるとおり、少なくともMeCabを使う場合は、コスト値を丹念にチューニングするといった職人芸は要りません。形態素解析への入力文とそれに対応する(理想)出力があればコスト値を機械学習的なアプローチで構築することができます。さらに、正解データを人手で作る必要は必ずしもありません。すなわち、Yahoo!の形態素解析器の出力結果を「擬似正解」とみなして MeCabの学習プログラムを走らせれば、Yahoo!の出力を高い精度で再現できる MeCab用辞書を作成することが原理的に可能です。ふだんはあま

katotaku 2007/06/23

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

全文検索に関するkatotakuのブックマーク (9)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス