タグ

2012年2月22日のブックマーク (7件)

  • N-gramによる見出し語の切り出し2 - indexを作ってみたよ - Ponsuke’s Hobby Programming

    Python | 12:26 | def ngram(index, id, string, span): u""" >>> index = {} >>> index = ngram(index, 1, u'わがはいは、ねこである', 2) >>> index == {u'わが': [{1: 1}], ... u'がは': [{1: 2}], ... u'はい': [{1: 3}], ... u'いは': [{1: 4}], ... u'は、': [{1: 5}], ... u'、ね': [{1: 6}], ... u'ねこ': [{1: 7}], ... u'こで': [{1: 8}], ... u'であ': [{1: 9}], ... u'ある': [{1: 10}], ... u'る' : [{1: 11}]} True >>> index = {} >>> index = ngra

  • Python純正の全文検索ライブラリ、Whooshを使ってみた - そこはかとなく書くよ。

    当はPython Mini Hack-a-thonでやろうと思ってたネタだったのですが、その前にちょっと準備しておくかーと思ってたらいつのまにか結構やっちゃってたんでまとめておきます。 Whooshとは whooshはPython純正の全文検索エンジンのライブラリです。Javaで書かれた全文検索エンジンであるLuceneの影響をかなり受けています。というか、はっきり言ってLuceneとほぼ同じです。 今回はこのwhooshを使って手元のMLを検索してみる、全文検索ツールを試しに作ってみました。 schemeの作成 Whooshでは検索するためにIndexを作成しますが、それにはまずSchemeを定義します。 Indexにはtitleとかurlとか、ドキュメントそのもの以外の情報も格納できます。Schemeとは、Index中のドキュメントに格納されてるフィールドの定義です。どんなフィールド

    Python純正の全文検索ライブラリ、Whooshを使ってみた - そこはかとなく書くよ。
  • MetaMoJi-jp(メタモジ) - アプリケーション開発研修生募集

    株式会社MetaMoJiは、ダイナミックに変革を続けるクラウド時代における知的アプリケーションを開発し、 革新的なコミュニケーション手段によって人々に喜びと感動を与えたいと願っています。 若い柔軟な発想と最先端の技術への情熱に期待しています。 人 数:学生若干名 時 期:随時 勤務地:東京、大阪、徳島、福岡 勤務時間:ご相談に応じます 給 与:時給 1,600円〜2,500円 能力、成果等に応じて優遇します。 内 容:タブレット端末、スマートフォンなどのアプリケーション開発をおこなっていただきます。 備 考:●月〜金の間で週2回以上出勤できる方。 ●プログラム経験のある方。 ●短期ではなく継続して勤務できる方。 ●採用に当たっては、面接による簡単な審査を行ないます。 連絡先:jinji@metamoji.com に履歴書、職務経歴書をお送りください。 社所在地:〒106-0032 東京都

    bluele
    bluele 2012/02/22
  • ジャストシステム、企業内検索ConceptBaseの文書検索強化

    11月28日、ジャストシステムは、企業内検索システムの新バージョン「ConceptBase Enterprise Search 2.1」を発表した。発売は2012年1月16日で、価格は200万円から。 ConceptBase Enterprise Searchは、ジャストシステムが独自開発した検索方式「NL-Vgram」をベースに、検索もれとノイズが少ない高い検索精度と、「ATOK」や「一太郎」で磨きをかけたというユーザービリティの高いインターフェイスが特徴のシステムだ。新バージョンでは、ファイルサーバーに散在する膨大なデータの中から素早く目的のフォルダやファイルを見つけ出す「フォルダーナビゲーター」、スマートフォン専用のユーザーインターフェイスが追加されている。 フォルダーナビゲーターは、Active Directoryと連携して、検索対象に指定したファイルサーバーの中から、ユーザーがア

    ジャストシステム、企業内検索ConceptBaseの文書検索強化
  • 検索エンジンの自動学習アルゴリズムがSEOの未来を変える? » SEO Japan

    世界各地で定期的に起こるSEOが終わったかどうかの議論ですが日でも再燃している最近のようで楽しいです。さて今回はそんな議論のさなか、あえてロシアのNo.1検索エンジン「ヤンデックス」に注目。開発者の2人が検索エンジンのアルゴリズムに関する興味深い話をしています。サイト側が行うSEOが死んだかどうかはともかく、検索エンジンのアルゴリズムは日々進化し続けているようです! — SEO Japan 多くのSEOコンサルタント、そして、SEO業者が、テクノロジーを用いて自動的にSEOを実行したいと願っている。検索エンジンもまたやはり同じような考えを持っているようだ。Yandex(ヤンデックス)のCTO、Ilya Segalovich氏は、モスクワのヤンデックス社を私が訪問した際、検索エンジンの構築が容易になり、開発者達が容易に利用できる“オープンソース”スタイルのソフトウェアを主に用いたテクノロジ

    検索エンジンの自動学習アルゴリズムがSEOの未来を変える? » SEO Japan
  • 欲しい情報をピンポイントに検索する技術

    より高度な索引型検索「NL-Vgram」 第2回では、エンタープライズサーチプラットホーム(ESP)を利用してファイルサーバーを徹底活用するために必要となる、全文検索の基礎知識として「走査型(grep型)」と「索引型(インデックス型)」、そして索引型を構成するN-gram方式と自然言語処理(NLP:Natural Language Processing)方式について紹介しました。 これらの検索技術には、それぞれメリット、デメリットがあります。例えば走査型は索引型に比べ検索時間はかかりますが多言語に対応でき、索引型は検索は高速ですが検索する言語ごとにチューニングが必要です。また、N-gram方式は検索漏れはありませんがノイズが多く、自然言語処理(NLP)方式はノイズは少ないものの辞書を作成する必要があり、辞書の更新時にはインデックスを更新しなければなりません。 これを解消するために、例えばジ

  • http://web2py.com/