タグ

algorithmと文章に関するtyosuke2011のブックマーク (2)

  • Pythonで検索エンジンを自作する方法 Part.1 | ログミーBusiness

    2019年9月16、17日、日最大のPythonの祭典である「PyCon JP 2019」が開催されました。「Python New Era」をキャッチコピーに、日だけでなく世界各地からPythonエンジニアたちが一堂に会し、さまざまな知見を共有します。プレゼンテーション「入門 自作検索エンジン」に登壇したのは加藤遼氏。講演資料はこちら 検索エンジン自作の入門編 加藤遼 氏:普段はサーバサイドの開発やAPI、検索まわりをやっています。技術的にはPythonやElasticsearchがメインです。このセッションにこんなに人が来ると思っていなかったので、これだけ集まってくれて大変ありがとうございます。 ここに来たということは、みなさん検索に多少なりとも興味がある方だと思います。なのでちょっとだけ宣伝させてください。検索技術勉強会という勉強会のスタッフをやってます。これは特定のライブラリに関

    Pythonで検索エンジンを自作する方法 Part.1 | ログミーBusiness
  • 検索エンジンの作り方 3つの仕組み、アルゴリズムを公開

    表1.転置ファイル例 このような形式で転置インデックスを保存しておく事により、インデッキシングの際や、文章の検索の際に、二分木探索のアルゴリズムや、その他のアルゴリズムを用いる事によって、高速に文章を検索する事が可能になります。 次に、「では実際どのように、文章中の単語を抽出すればいいんだ?」という疑問が湧いてきたと思うので、以下、文字列抽出の方法について詳しく見ていく事にします。 1.n-gram法 「Nグラム法」等と呼ばれる、単純ですがパワフルな文字列分割アルゴリズムで、Nで指定した単語の長さに、先頭から1文字ずつ文字列を分割します。 例)N=2の時、「情報検索」という文字列に対して、N-gramを実行した例 情報 報検 検索 索 このように、文字列を分割する事で、「情報」と「検索」の単語が正しく抽出されるため、単語の抽出の取りこぼしを防げます。 しかしながら、この方法では、「報検」等

    検索エンジンの作り方 3つの仕組み、アルゴリズムを公開
  • 1