タグ

2016年1月1日のブックマーク (2件)

  • GeoJSON フォーマット仕様

    1. 導入 GeoJSON は様々な地理的データ構造をエンコードするためのフォーマットです。 GeoJSON オブジェクトはジオメトリ、フィーチャー、もしくはフィーチャーのコレクションを表現します。 GeoJSON は Point, LineString, Polygon, MultiPoint, MultiLineString, MultiPolygon, そして GeometryCollection というジオメトリタイプをサポートします。 GeoJSON のフィーチャーはジオメトリオブジェクトと追加属性、 それからフィーチャーのリストを表現するフィーチャーコレクションを含みます。 完全な GeoJSON のデータ構造はいつも (JSONの用語でいう) オブジェクトです。 GeoJSON では、オブジェクトは名前と値の組 (メンバーとも呼びます) の集合で構成されます。 メンバーの名前

  • [NLP] 日本語WikipediaからSolr用の類義語辞書を自動作成する - 株式会社ロンウイット

    Wikipediaなどの「辞書型コーパス」からLucene/Solr用の類義語辞書を自動作成するシステムを開発しましたので、簡単にご紹介します。 参考資料(SlideShare) 辞書型コーパスからの類義語知識の自動獲得(SlideShare) Lucene/Solrと類義語検索 Lucene/SolrではSynonymFilterを使って類義語検索を簡単に実現することができます。たとえば次のような内容のsynonyms.txtを用意し: 自動車損害賠償責任保険, 自賠責保険 Solrのschema.xmlファイルに次のようなフィールド型を定義すれば: <fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="solr.Japane

    [NLP] 日本語WikipediaからSolr用の類義語辞書を自動作成する - 株式会社ロンウイット