並び順

ブックマーク数

期間指定

  • から
  • まで

201 - 240 件 / 2766件

新着順 人気順

Elasticsearchの検索結果201 - 240 件 / 2766件

  • ElasticSearch, Redis, nginx, Djangoでエロサイトを作った時のTips[ElasticSearch 検索編その2 あいまい検索とkuromojiと正規表現] - Qiita

    ジャポルノレディーズであいまい検索が最も役だったのが名寄せでした。 ジャポルノレディーズでは基本的に動画は全て他のエロサイトへのリンクで提供しているので明日花キララさんの動画を探す上で他のエロサイトから明日花キララさんの動画を探す作業が必須です。 しかし問題は ・エロサイト毎に明日花キララさんのアルファベット表記がバラバラ という事でした。 エロサイトAではasuka_kirara エロサイトBではasuka_kilala エロサイトCではashitaka_kirara ・ ・ ・ という感じ。うちではasuka_kiraraでデータを持っているので、当然asuka_kilalaと名前のついている動画もasuka_kiraraの動画としてデータを保存したい!という訳です。 そこであいまい検索が役立ちます。 まずは普通のmatchクエリでasuka_kilalaを検索します。 # codin

      ElasticSearch, Redis, nginx, Djangoでエロサイトを作った時のTips[ElasticSearch 検索編その2 あいまい検索とkuromojiと正規表現] - Qiita
    • ElasticSearch Serverを読んだ - ✘╹◡╹✘

      高速スケーラブル検索エンジン ElasticSearch Server (アスキー書籍) 作者: Rafal Kuc (lにストローク符号、cにアクサン・テギュ付く),Marek Rogozinski (nにアクサン・テギュ付く)出版社/メーカー: KADOKAWA / アスキー・メディアワークス発売日: 2014/03/25メディア: Kindle版この商品を含むブログを見る 高速スケーラブル検索エンジン ElasticSearch Server という本を読んだ。読んだ理由は、タイミングが良かったから。効率的に学ぶのに丁度いい時機というものがあると思う。何かを学ぶのには動機と情報源が必要。動機が無ければ勉学は長続きしないし、無理矢理覚えようとしても楽しくない。Elasticsearchに対しては何か面白そうという気持ちを最近少しだけ感じていて、こういう気持ちが湧くのは貴重なことだから大

        ElasticSearch Serverを読んだ - ✘╹◡╹✘
      • MySQLテーブルへの更新/削除イベントを逐次取得するFluentdプラグイン「fluent-plugin-mysql-replicator」をリリースしました - Y-Ken Studio

        任意のSQLクエリで取得した結果の差分から、insert/update/deleteイベントを検知するプラグインをリリースしました。イベント検知だけでなく、レコードの内容と共にElasticsearch/Solrへ同期を行う、Outputプラグインも同封しています。 これはあえてバイナリログ(MySQLBinlogAPI)は使わずに、SQLクエリの実行結果の差分を見てinsert/update/deleteイベントを検知します。 そのため、純粋なテーブル同期だけでなく、任意のJOINやVIEWテーブルを元とした差分同期処理が実現できるのが特徴です。 y-ken/fluent-plugin-mysql-replicator https://github.com/y-ken/fluent-plugin-mysql-replicator http://rubygems.org/gems/flue

          MySQLテーブルへの更新/削除イベントを逐次取得するFluentdプラグイン「fluent-plugin-mysql-replicator」をリリースしました - Y-Ken Studio
        • ただのソフトウェアエンジニアが検索エンジニアになるまで - エムスリーテックブログ

          こちらはエムスリー Advent Calendar 2022 Advent Calendar 2022の延長戦31日目の記事です。 エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。検索とGoが好きです。 検索エンジニアってどこで採用できるの? という話を至る所でよく聞きます。僕自身も、自ら検索エンジニアと名乗るエンジニアにほとんど出会ったことがありません。やはり、世の中の検索にまだ魅了されていないエンジニアを情報検索の世界に引き込むしかないので、今回は僕が情報検索にハマった経緯を紹介することで一人でも多くのエンジニアを情報検索の世界に引き込めればと思います。 情報検索との出会い 情報検索の探索 発展 まとめ 情報検索との出会い 僕が最初に情報検索に出会ったのは前職の白ヤギコーポレーションでした。そこではElasticse

            ただのソフトウェアエンジニアが検索エンジニアになるまで - エムスリーテックブログ
          • Logstash: Collect, Parse, Transform Logs | Elastic

            Search and analytics, data ingestion, and visualization – all at your fingertips.

              Logstash: Collect, Parse, Transform Logs | Elastic
            • 検索技術と自然言語処理技術を駆使して話題のトピックをひとまとめ ~はてなブックマークのトピックページの作り方

              はじめに 本稿では、はてなブックマークの10周年記念の第1弾として開発した「トピックページ」の作り方について解説します。トピックページとは、インターネット上で話題となったトピックを閲覧できるページです。 トピックページは、トピックに関連する記事の集合とトピックを表すタイトルから構成されます。 トピックページ生成の流れは以下の通りです。 トピック生成 トピック表すキーワード集合を獲得し、そのキーワードに関連する記事を収集する。 トピックタイトル生成 トピックに関連する記事の情報を利用してトピックを表すタイトルを生成する。 本稿では、Elasticsearchなどの検索技術を活用したトピック生成方法、および、CaboChaなどの自然言語処理技術を活用したトピックタイトル生成方法について説明します。 対象読者 Elasticsearchを利用している/したい方 検索技術、自然言語処理技術に関心の

                検索技術と自然言語処理技術を駆使して話題のトピックをひとまとめ ~はてなブックマークのトピックページの作り方
              • Kibana + ElasticSearch + fluentd を試してみた

                こんにちは。@jedipunkz です。 自動化の流れを検討する中でログ解析も忘れてはいけないということで ElasticSearch を使いたいなぁとぼんやり考えていて Logstash とか Kibana とかいうキーワードも目 に止まるようになってきました。 ElasticSaerch は API で情報を検索出来たりするので自動化にもってこい。バックエ ンドに Logstash を使って… と思ってたのですが最近よく聞くようになった fluentd をそろそろ真面目に使いたい!ということで、今回は Kibana + ElasticSearch + fluentd の組み合わせでログ解析システムを組む方法をメモしておきます。 参考にさせて頂いた URL http://memocra.blogspot.jp/2013/04/kibanakibanaelasticsearchfluent

                  Kibana + ElasticSearch + fluentd を試してみた
                • Elasticスタックではじめるログ解析入門 #osc16ep

                  オープンソースカンファレンス 2016 Enterprise@Osakaでの発表資料

                    Elasticスタックではじめるログ解析入門 #osc16ep
                  • NewRelic / Elasticsearch ではじめるSREに必要な性能監視入門

                    NewRelic / Elasticsearch ではじめるSREに必要な性能監視入門 https://supporterzcolab.com/event/177/ にて話した資料です!

                      NewRelic / Elasticsearch ではじめるSREに必要な性能監視入門
                    • Kibanaを使う理由

                      GoのGenericsを使った効率的なキャッシュの実装 / Effective Generic Cache in Golang

                        Kibanaを使う理由
                      • 『サーバ/インフラエンジニア養成読本 ログ収集~可視化編』出版記念!執筆者が語る大講演会! レポート[パネルディスカッション編] | gihyo.jp

                        鈴木:先のセッションで権限があったから入れましたという話が挙がっていましたが、インフラエンジニアだから入れられるというのは結構あると思います。 道井:インフラエンジニアは基本どこのサーバでもSSHログインできるため、勝手にFluentdを入れて、勝手にログをもってくることができます。 伊藤:待って、この話はあまり一般的でないと思う(会場:笑) 吉田:僕の会社も同じような感じです。2、3年前に、ログ解析やクエリログの収集をしたくなり、トレジャーデータのFluentdが良さそうだというのが分かりました。木曜にメールをして、翌月曜には全台にデプロイが完了していました。 伊藤:それはインフラエンジニアとしての業務にあたっていたんですか? 吉田:趣味です。 伊藤:なぜ、皆さん趣味でやってるんですか(苦笑) 鈴木:僕はもともとはサーバサイドエンジニアで、インフラエンジニアの人にFluentdを入れるか

                          『サーバ/インフラエンジニア養成読本 ログ収集~可視化編』出版記念!執筆者が語る大講演会! レポート[パネルディスカッション編] | gihyo.jp
                        • リクルートを支える横断データ基盤と機械学習の適用事例

                          Data Platform Confference Tokyo 2017 で話した「リクルートを支える横断データ基盤と機械学習の適用事例」ですRead less

                            リクルートを支える横断データ基盤と機械学習の適用事例
                          • ElasticSearchの運用とか (1) - なんかかきたい

                            最近のお仕事的なことですが、ElasticSearchの構築・運用を任されるようになりました。 まかされるというか、実際にはいい感じに全文検索ができる仕組みを作って欲しいといういつもの依頼だったんだけども、全く運用の経験の無いプロダクトだったので色々わからないことだらけ。 最近はKibanaと組み合わせて言い感じのグラフを作るのがWeb屋さんの間で流行っているイメージですが、Kibanaを除いたElasticSearchの細かなところに踏み込んだ情報はあまりない感じで(多分感心があまりないのかも)、結局マニュアルを色々読んでわからないところを補完していった感じです。 同じようにElasticSearchを使って検索機能を作っていきたいような人の参考になればいいなー程度にまとめて行こうと思います。そのうち自分でも見直すことになるだろうし。 一応手元にmarkdownでまとめたものもあるんだけ

                              ElasticSearchの運用とか (1) - なんかかきたい
                            • ElasticBeanstalk x Docker のベストプラクティスっぽいものまとめ - Qiita

                              @j5ik2o と ElasticBenstalk(以下 eb)の話を飲み屋でしてたら、案外共有したほうが良さそうなことがあったのでそのために共有です。 前提知識のために読んできて欲しいドキュメント http://docs.aws.amazon.com/ja_jp/elasticbeanstalk/latest/dg/create_deploy_docker_console.html http://docs.aws.amazon.com/ja_jp/elasticbeanstalk/latest/dg/create_deploy_docker_image.html Source Bundle の作り方 Dockerfile と Dockerrun.aws.json ファイルの両方を提供する場合は、イメージに関する情報を Dockerrun.aws.json ファイルに含めないでください。E

                                ElasticBeanstalk x Docker のベストプラクティスっぽいものまとめ - Qiita
                              • 第8回 Elasticsearchの基礎を学ぶ:聞いたら一生の宝,プログラミングの基礎の基礎 |gihyo.jp … 技術評論社

                                はじめに みなさんこんにちは、teratail開発チームの本橋佑介です。 昨今のWebサービスでは、以前のようにユーザが努力をして興味のあるコンテンツを探すサービスから、キュレーションサービスのようにユーザの興味を分析し配信することが重要とされています。 以前からも、ユーザの動向を分析するために、開発者はさまざまな手段を用いてユーザの興味に合った情報を配信することを実現してきましたが、得られるデータがユーザのサービス内のアクティビティのみだったため、決して精度が高いものとは言えませんでした。 現在では、莫大で多様なデータを取得することが可能になったため、ユーザの興味に近い情報を分析することが可能になりました。そのため、データをそのまま蓄積するだけではなく、各データに属性や情報を付与するなど、高度で柔軟性の高い検索・分析が行える全文検索システムに注目が集まっています。 Luceneという全文

                                  第8回 Elasticsearchの基礎を学ぶ:聞いたら一生の宝,プログラミングの基礎の基礎 |gihyo.jp … 技術評論社
                                • Pythonで検索エンジンを自作する方法 Part.1

                                  2019年9月16、17日、日本最大のPythonの祭典である「PyCon JP 2019」が開催されました。「Python New Era」をキャッチコピーに、日本だけでなく世界各地からPythonエンジニアたちが一堂に会し、さまざまな知見を共有します。プレゼンテーション「入門 自作検索エンジン」に登壇したのは加藤遼氏。講演資料はこちら 検索エンジン自作の入門編 加藤遼 氏:普段はサーバサイドの開発やAPI、検索まわりをやっています。技術的にはPythonやElasticsearchがメインです。このセッションにこんなに人が来ると思っていなかったので、これだけ集まってくれて大変ありがとうございます。 ここに来たということは、みなさん検索に多少なりとも興味がある方だと思います。なのでちょっとだけ宣伝させてください。検索技術勉強会という勉強会のスタッフをやってます。これは特定のライブラリに関

                                    Pythonで検索エンジンを自作する方法 Part.1
                                  • Fluentd+Elasticsearch+Kibana構成で便利な、logstash形式インデックスの粒度をカスタマイズする方法 - Y-Ken Studio

                                    fluent-plugin-elasticsearchやKibanaのデフォルトであるlogstash形式では、年月日毎にインデックスを作成されて使われることを想定されています。 これは扱いやすいのですが万能では無く、次のような状況ではパフォーマンス的な観点で、このインデックスの粒度を変更することを検討すると良いケースがあります。 粒度を細かくしたいケース(時間単位) 日毎のインデックス作成では、elasticsearchに割り当てたメモリ量を超えてしまう 粒度を荒くしたいケース(週単位/月単位/年単位) 日毎のインデックス作成では容量が小さく、日常的に検索する範囲が複数のインデックスに渡るとき Kibanaは年月日以外の粒度(時間・日・週・月・年)にも対応していますので、変更することも容易です。これは次の2つの設定変更で適用できます。 ログ収集を行うElasticsearchへ流し込む、

                                      Fluentd+Elasticsearch+Kibana構成で便利な、logstash形式インデックスの粒度をカスタマイズする方法 - Y-Ken Studio
                                    • Fluentdで各種ログをS3とElasticsearchにまとめる - BitArts Blog

                                      各々のサーバの様々な場所に分散しているWebサーバやその他各種ログファイルをFluentdでまとめてAmazon S3にガシガシ保存。かつ、分析用にコピーを自前のElasticsearchにも保存します。保存したログはKibanaで手軽にビジュアライズ。 Fluentdはとてもシンプルな仕組みで理解しやすい。「ログを集積したい!」と感じたらサクッと導入できる超便利ツールです。 今回は集積用サーバを経由してElasticsearchとS3に保存する構成にします。 Elasticsearchのインストール Fluentdで集積したログは保存するだけならS3で良いのですが、手軽にビジュアライズしたいので、今回はKibanaを使えるようにElasticsearchにも保存するようにします。今回はCentOSに導入するので、公式のyumリポジトリからインストールします。 $ sudo rpm --i

                                        Fluentdで各種ログをS3とElasticsearchにまとめる - BitArts Blog
                                      • [新機能]Amazon Elasticsearch Serviceがリリースされました! | DevelopersIO

                                        はじめに AWS re:Invent 2015前にすごい新サービスが飛び出てきました! New – Amazon Elasticsearch Service Amazon Elasticsearch Service なんと、フルマネージドなElasticsearchです。AWSでの全文検索サービスはCloudSearchがありますが、やはり全文検索システムとしてElasticsearchの人気が高い、ということでしょうね。「ElasticsearchはAWSのサービスではありません」と長年言われ続けていましたが、ついにサービスとして提供されました。 なお、Amazon Elasticsearch Serviceの略称はAmazon ESとのこと。若干ECSと紛らわしい感じもありますが、まぁそのままだと長いですからね。公式に略称が決まっているのは良いことです。 ということで、早速やってみまし

                                          [新機能]Amazon Elasticsearch Serviceがリリースされました! | DevelopersIO
                                        • 転職しました

                                          ということで、転職しました。 どーしてもやりたいことが出てきたので、無理を言って転職することにしてみました。 サムライズムではなく、Elasticsearchにジョインします。(というか、しました。) 初出社 #サムライズム — Jun Ohtani (@johtani) 2014, 7月 1 冗談でツイートしたのですが、その前に英語アカウントのツイートがRTされてしまっていまいちでした。。。 先週、アムステルダムに行っていたのも退職前に休みをいただき、Elasticsearchの全社会議に参加していたためです。 とてもエキサイティングな経験(英語漬けとか)ができ、もっと精進しないとなという気持ちにもなり、ますます頑張らないとなと。 ということで、今後は日本中にElasticsearchやLogstash、Kibanaを広めるべく、いろいろな場所で話をしたいと思います。 興味のある方は、声

                                            転職しました
                                          • Elastic Stackで簡単!Dockerコンテナ監視ダッシュボード作成 - Taste of Tech Topics

                                            こんにちは、CI/CDツールなどを活用し、DevOps推進活動などに携わっている横山です。 本記事は、Docker Advent Calendar 2018 - Qiitaの20日目です。 はじめに Elastic Stackを使うと、簡単にDockerコンテナの監視ダッシュボードが作成できるので、今回はその紹介をしたいと思います。 きっかけとしては、「開発環境で立ち上げている複数コンテナの問題調査を楽にしたい」というのがあります。最近、開発環境に複数のコンテナを立ち上げて開発メンバーに提供していますが、開発メンバーから「重たいので環境を確認してほしい」といった声が上がってきます。その際、どのサーバのどのコンテナに問題が発生しているのか確認したいですが、その都度サーバに入って、docker statsなどのコマンドで確認するのはやや面倒です。 そこで、コンテナの監視ダッシュボードを作って、

                                              Elastic Stackで簡単!Dockerコンテナ監視ダッシュボード作成 - Taste of Tech Topics
                                            • FRILの商品検索をnGramから形態素解析にした話 - mosowave

                                              この記事はElasticsearch Advent Calendar 2015の7日目のエントリです。 こんにちは、ファッションフリマアプリFRILを運営しているFablicでエンジニアをしている@sinamon129です。 FRILの商品検索はElasticsearchを使っていて、最近nGramベースだったものを形態素解析ベースに変更しました。 その経緯やどういう手順で行ったかを書こうと思います。 主にユーザー辞書とsynonym辞書の構築の話がメインです。 どうしてnGramベースから形態素解析ベースに変更することになったか 関係ないものがなるべくひっかからないようにしたい nGramだとファーで検索したときに、ローファーやローリーズファームが引っかかり、本当に検索したかったものが出てこないという問題がありました。 (実際は出ているのだけども、埋もれてしまっている状態) 同じ意味の単

                                                FRILの商品検索をnGramから形態素解析にした話 - mosowave
                                              • 第5回 N-gramのしくみ | gihyo.jp

                                                前回は形態素解析を使う検索エンジンのしくみについて説明しました。今回は、FINDSPOTで使用しているN-gramという検索エンジンのしくみについて説明します。 N-gramによる見出し語の切り出し 前回は、形態素解析による検索エンジンでは、検索可能な最小単位が分かち書きの切り分け単位となる点を説明しました。 一方、N-gramを使った検索エンジンでは、単純に文字の並びを見出し語としてインデックスを作成します。1文字を元にインデックスを作成する方法をユニグラム、2文字の並びを元にインデックスを作成する方法をバイグラム、3文字の並びを元にインデックスを作成する方法をトリグラムと呼んでいます。 1文字:ユニグラム 2文字:バイグラム 3文字:トリグラム N-gramによる見出し語の切り出しは、形態素解析のための文法解析を伴わないため、特定の自然言語に依存しないという特徴があります。 FINDS

                                                  第5回 N-gramのしくみ | gihyo.jp
                                                • リクルート全社検索基盤のアーキテクチャ、採用技術、開発体制はどうなっているのか

                                                  リクルート全社検索基盤のアーキテクチャ、採用技術、開発体制はどうなっているのか:Elasticsearch+Hadoopベースの大規模検索基盤大解剖(1)(1/2 ページ) リクルートの事例を基に、大規模BtoCサービスに求められる検索基盤はどう構築されるものなのか、どんな技術が採用されているのか、運用はどうなっているのかなどについて解説する連載。初回は全体的なアーキテクチャ、採用技術、開発体制について。 連載目次 大規模BtoCサービスで求められる検索基盤は、どうあるべきなのか カスタマー(消費者)が求めるものが日々変わっていく現在において、BtoCの検索基盤はどうあるべきなのでしょうか。 例えば、リクルートで使われている検索基盤の「Qass(Query analyze search system)」は単に全文検索機能を提供するのではなく、以下を軸としています。 サービスごとに最適化され

                                                    リクルート全社検索基盤のアーキテクチャ、採用技術、開発体制はどうなっているのか
                                                  • ElasticsearchとKibanaがオープンソースライセンスに復帰、Elasticが発表。AWSがフォークに投資し、市場の混乱は解決されたと

                                                    ElasticsearchとKibanaがオープンソースライセンスに復帰、Elasticが発表。AWSがフォークに投資し、市場の混乱は解決されたと オランダに本社を置くElasticは、ElasticとKibanaのライセンスにオープンソースライセンスであるAGPLを追加すると発表しました。 3年前の2021年、同社はElasticをマネージドサービスとして提供しているAWSを名指しで非難しつつ、ElasticのライセンスをApache License 2.0から、商用サービス化を制限する「Server Side Public License」(SSPL)と「Elastic License」のデュアルライセンスへ変更しました。 それ以来、ElasticとKibanaはオープンソースではなくなっていました。 同社CEO Shay Banon氏は、今回のオープンソースへの復帰を発表したブログの

                                                      ElasticsearchとKibanaがオープンソースライセンスに復帰、Elasticが発表。AWSがフォークに投資し、市場の混乱は解決されたと
                                                    • ElasticsearchとKibanaを使ってTwitterのトレンドワードを可視化してみた - Qiita

                                                      大久保です。 最近、会社でElasticsearch+Kibana+Fluentdという定番の組み合わせを使ってログ解析する機会があったので、ついでにいろいろ勉強してみました。 触ってみておもしろかったのが、Elasticsearchがログ解析だけじゃなくてちょっとしたKVSのようにも振る舞えることです。 ElasticsearchはKibanaと組み合わせることで、もっといろいろおもしろいことできそう感あります!! 本記事では、その一例としてTwitterのトレンドワードをリアルタイムに集計するプログラムを組んでみました。 完成形:トレンドワードごとのツイート数をグラフ化 #開発環境と各種ミドルウェアのバージョン ローカルで確認できればよかったので開発環境はMacです。 Java ElasticsearchはJava製なのでJavaのバージョンを確認。 $ java -version j

                                                        ElasticsearchとKibanaを使ってTwitterのトレンドワードを可視化してみた - Qiita
                                                      • fluentdのformat(正規表現)の作り方について試行錯誤中 #fluentd - Glide Note

                                                        Fluentdを触るようになって、いろんなログをfluentdに 渡すように試行錯誤している最中。 td-agent.conf、fluent.confを用意するときに任意のjson形式にするために 正規表現を用いてformatを書く必要があるんですが、formatの作り方というかデバック方法について どういう手順に作ると良いのか情報がネット上に見当たらず試行錯誤中。 もっと良い方法を教えてもらいたいので、今やっている方法を晒してみる。 そもそもの疑問、どうやってformatを作るのか たとえばfluentd関連の情報を調べてると、 #fluentd で maillog を読み込んで MongoDB に投入 - 酒日記 はてな支店 format /^(?<date>[^ ]+) (?<host>[^ ]+) (?<process>[^:]+): (?<message>((?<key>[^ :

                                                        • Fluentd 2013年開発・状況まとめ / 2014年に向けて | Post Moratorium

                                                          Fluentd 2013年開発・状況まとめ / 2014年に向けて ワイワイ!Fluentd Advent Calendar 2日目担当の @kzk_mover です。このエントリでは2013年 Fluentd の開発・コミュニティの状況まとめをお届けします。 2013年開発まとめFluentdコア自体は2013年、191 commit (そのうち @repeatedly が 84 commit)。ドキュメントの方は326 commitあります。コア以外にも、2012年年末に約70だったプラグイン数は、2013年12月1日現在に約3倍の206個となっています。 Fluentdのコア自体は10回リリースされ、td-agentは6回リリースされています。大体Fluentdが月1回、td-agentが月に2回の計算になります。また、@repeatedlyがTD社に入社し、td-agentのメンテ

                                                          • ElasticsearchとBERTを組み合わせて類似文書検索 - Ahogrammer

                                                            本記事ではElasticsearchとBERTを組み合わせて類似文書検索を行う方法について紹介します。Elasticsearchでは最近、ベクトルに対する類似文書検索の機能が実装されました。一方、BERTを使うことでテキストを固定長のベクトルに変換することができます。つまり、BERTを使ってテキストをベクトルに変換すれば、Elasticsearchを使って類似文書検索ができるということになります。 本記事では以下のアーキテクチャでElasticsearchとBERTを組み合わせた検索システムを実現します。Dockerを使ってアプリケーション、BERT、Elasticsearchのコンテナを分けることでそれぞれをスケールしやすくする狙いがあります。記事中では重要な部分のみ提示しますが、システム全体はdocker-composeのファイルとして記述しこちらのリポジトリに置いてるので、参照してく

                                                              ElasticsearchとBERTを組み合わせて類似文書検索 - Ahogrammer
                                                            • Elasticsearchで分散表現を使った類似文書検索

                                                              概要 Elasticseachに分散表現のベクトルに対する類似文書検索が実装されたということで、以下のElasticのブログ記事を参考に類似文書検索を試してみました。 Text similarity search in Elasticsearch using vector fields | Elastic Blog 類似文書検索とは、与えられたクエリの文書と似ている文書を文書集合内から検索する技術です。この際に必要となるのが「似ている」という概念で、計算機上でどうやって2つの文書間の類似度を数値として表現するかがポイントになります。例えば、互いの文書に出現する単語の一致度や重複度合いを測ったり、TF-IDFやBM25などで文書をベクトル化して比較する方法があります。ただしこれらの方法では、言い換え表現や表記の違いにより同じ意味の単語が異なる単語だと判定されたり、文書の中では重要でない単語に

                                                                Elasticsearchで分散表現を使った類似文書検索
                                                              • Fulltext search with Node.js and elasticsearch

                                                                今日のスライド http://swdyh.github.com ブラウザ拡張開発 AutoPagerize ページの自動継ぎ足し http://autopagerize.net JavaScriptやRuby、Goに興味 システム開発に検索はつきもの 小規模なら全件走査 LIKE '%query%' それで間に合わなくなってくると全文検索エンジン あらかじめindexを作る。本の最後にあるindex Namazu, Hyper Estraier, Senna, Tritonn, Groonga, Sphinx, Lucene, Solr, elasticsearch

                                                                • 機械学習を利用したちょっとリッチな検索

                                                                  検索対象のデータに機械学習を利用して情報を増やし、それをナビゲーションの軸として使ったり集計や可視化で利用すると面白いよ、という話。

                                                                    機械学習を利用したちょっとリッチな検索
                                                                  • Logstash を使って MySQL データを Elasticsearch にインデックスする(基本編)

                                                                    リレーショナルデータベースで管理しているデータを Elasticsearch で検索・分析したい場合、Logstash が便利です。 Logstash とは?Logstash はオープンソースのサーバーサイドデータ処理パイプラインです。様々な数のソースからデータを取り込み、変換し、指定された任意のストア先にデータを格納することができます。 処理の内容はシンプルで、Input ステージでソース元の接続先情報を管理し、Filter ステージで変換をし、Output ステージで格納先接続先情報を定義します。Input 及び Output プラグインはデフォルトで様々なソースをサポートしています。そのため、Logstash を使えば、プログラミングレスで MySQL のデータを取り込み、変換し、Elasticsearch へインデックスすることができるのです。 事前準備MySQL と Elasti

                                                                      Logstash を使って MySQL データを Elasticsearch にインデックスする(基本編)
                                                                    • neologd/mecab-ipadic-neologd: Neologism dictionary based on the language resources on the Web for mecab-ipadic

                                                                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                        neologd/mecab-ipadic-neologd: Neologism dictionary based on the language resources on the Web for mecab-ipadic
                                                                      • MySQLユーザ視点での小さく始めるElasticsearch

                                                                        Elastic Stackの紹介とOpenStackでの活用事例(Searchlightなど) - OpenStack最新情報セミナー 2016年5月VirtualTech Japan Inc.

                                                                          MySQLユーザ視点での小さく始めるElasticsearch
                                                                        • Elasticsearch 日本語で全文検索 その2

                                                                          Elasticsearch では、すでに日本語で全文検索する為のトークナイザーやノーマライズなどの加工処理で使用するフィルターなどがビルトインまたは、サードパーティ製のプラグインとして多数存在します。 ここでは、日本語全文検索で使用しそうなトークナイザーやフィルターなどを説明します。 主要モジュールNGram Tokenizer N-グラムを提供するトークナイザーです。Elasticsearch にバンドルされています。Japanese (kuromoji) Analysis for Elasticsearch 日本語形態素解析を提供するプラグインです。各種 Analyzer、Tokenizer、TokenFilterが含まれます。cjk_width Token Filter 半角・全角などを統一するためのフィルターです。Elasticsearch にバンドルされています。Lowercas

                                                                            Elasticsearch 日本語で全文検索 その2
                                                                          • Elasticsearchを用いた日本語検索システムの理論と設定

                                                                            本連載は、対話インターフェースを利用して新しい形の検索システムを体験してもらうことを目的としています。今回は日本語検索システムでよく用いられるElasticsearchを紹介します。Elasticsearchは大規模なデータに対しても適用可能な検索機能を提供している全文検索エンジンです。特徴としてスケーラブル、検索速度の速さ、検索結果の分析のしやすさ、開発者にとって使いやすいRESTfulなAPIが挙げられます。今回の記事はElasticsearchを用いた日本語検索システムの仕組みから設定の部分までを記述し、次回の記事で実際に動作させてもらいます。 本連載の内容 本連載で紹介予定の内容は次のとおりです。 Step1:Elasticsearchを用いた日本語検索システム 対話型の検索システムを作成するためのStep1として、Elasticsearchを用いた日本語検索システムの構築方法を紹

                                                                              Elasticsearchを用いた日本語検索システムの理論と設定
                                                                            • Node.jsで書かれたIRC bouncer、homura を作りました - はこべにっき ♨

                                                                              いわゆる IRC proxy や IRC bouncer はIRCサーバに常時つないでおいてログをとったり、チャンネルを維持したりするのに、大変便利なソフトウェアです。ZNCやtiarraなんかが有名ですね。 その IRC bouncer をNode.jsでのネットワークプログラミングの手習いに書いてみました。homuraというソフトウェアです。はじめてつかったIRC bouncerがmadokaという名前だったのを思い出して名づけました。 homuraにはIRC bouncerとして最低限の機能がそろっています。同時に複数のサーバへの接続、複数のクライアントから接続の受付が可能で、サーバークライアントの両方でTLS接続に対応しています。チャンネルごとにログを記録したり、クライアントからの接続がなくなった時に自動でawayになるといった、機能を備えます。(READMEのmodulesの項を

                                                                                Node.jsで書かれたIRC bouncer、homura を作りました - はこべにっき ♨
                                                                              • 「Hatena Engineer Seminar #2」を東京で11/25(月)に開催します! - Hatena Developer Blog

                                                                                11月21日14:00追記 締切日時となりましたので、応募を締め切りました。 多数のご応募ありがとうございました。 お申込みいただいた方へは別途メールにてご連絡させていただきます。 こんにちは、はてなCTOの id:stanaka です。 このたび「Hatena Engineer Seminar #2」と題し、株式会社はてな主催のエンジニアを対象としたセミナーを11月25日(月)に東京で開催します。 はてなブックマークやはてなブログの開発チームのエンジニアスタッフが、サービス開発の具体的な手法や取組みを紹介する予定です。 セミナー後は、ささやかですが懇親会も予定しています! みなさまのご参加をお待ちしています。 プログラム 18:30 受付開始 19:00 開会の挨拶 stanaka 19:10 Vagrant と Chef でつくるはてなブックマークの開発環境 aereal 19:30

                                                                                  「Hatena Engineer Seminar #2」を東京で11/25(月)に開催します! - Hatena Developer Blog
                                                                                • 物理サーバを選定する際のポイント – Eureka Engineering – Medium

                                                                                  Eureka EngineeringLearn about Eureka’s engineering efforts, product developments and more.

                                                                                    物理サーバを選定する際のポイント – Eureka Engineering – Medium