タグ

2012年12月3日のブックマーク (8件)

  • AnalyzersTokenizersTokenFilters - Solr - Apache Software Foundation

    This page exists for the Solr Community to share Tips, Tricks, and Advice about Analyzers, Tokenizers and Filters. Reference material previously located on this page has been migrated to the Official Solr Reference Guide. If you need help, please consult the Reference Guide for the version of Solr you are using. The sections below will point to corresponding sections of the Reference Guide for eac

  • Solrの日本語対応 -新しく追加されたトークナイザ・トークンフィルタ- 株式会社ロンウイット

    先日、Lucene/Solrのbranch_3x(3.6)とtrunk(4.0)にコミットされた日語向けのトークナイザ・トークンフィルタをご紹介します。 LuceneのJIRAのチケット LUCENE-3305 にて、日形態素解析器Kuromojiが導入されました。 これにより、日語ドキュメントに対して形態素解析に基づく単語分割が可能になります。 従来、Lucene/Solrで日語対応をする場合は、lucene-gosenやSenを使用する方法などをとってきましたが、今回の対応であらかじめLucene/Solrに組み込まれたものを使用するということが可能になります。 また一方で、LUCENE-2906にて、CJK文字に関するトークンフィルタも追加されました。 記事では、これらのトークナイザ・トークンフィルタに関して、2012/2/23時点のソースに基づいて調査したものを解説いた

    Solrの日本語対応 -新しく追加されたトークナイザ・トークンフィルタ- 株式会社ロンウイット
  • 第5回 N-gramのしくみ | gihyo.jp

    前回は形態素解析を使う検索エンジンのしくみについて説明しました。今回は、FINDSPOTで使用しているN-gramという検索エンジンのしくみについて説明します。 N-gramによる見出し語の切り出し 前回は、形態素解析による検索エンジンでは、検索可能な最小単位が分かち書きの切り分け単位となる点を説明しました。 一方、N-gramを使った検索エンジンでは、単純に文字の並びを見出し語としてインデックスを作成します。1文字を元にインデックスを作成する方法をユニグラム、2文字の並びを元にインデックスを作成する方法をバイグラム、3文字の並びを元にインデックスを作成する方法をトリグラムと呼んでいます。 1文字:ユニグラム 2文字:バイグラム 3文字:トリグラム N-gramによる見出し語の切り出しは、形態素解析のための文法解析を伴わないため、特定の自然言語に依存しないという特徴があります。 FINDS

    第5回 N-gramのしくみ | gihyo.jp
  • 就労ビザ 【SFアドベントカレンダー2012】 - As a Futurist...

    最新の状況はご自身の目で確認するようにして下さい!!! ビザ? 何はなくともビザの話が必要ですね。そもそも海外旅行とかもあんまりしたことないので、僕はビザが何なのかも分かってなかったですね。外国に移動するにはパスポートが必要だというのは何となくみんな知ってると思うのですが、それとは別に入国する国が発行する「あなた入国してもいいよ」という感じのものがビザです(多分)。これがないとアメリカに入国することができません。 日からアメリカの場合、観光等で 90 日以内ならビザが不要でパスポートだけで行けますが(最近は ESTA の事前申請も必要。これについては後日書きます)、それ以上の滞在の場合はなにがしかのビザを取得しないといけません。というわけで長期に働くためにはそれ相応のビザを取得することから始める必要があります。 ビザの種類 ビザの取得をサポートしている会社のページを見てみます。 ビザ解説

    就労ビザ 【SFアドベントカレンダー2012】 - As a Futurist...
    rokujyouhitoma
    rokujyouhitoma 2012/12/03
    ピザの話しも欲しい。本場アメリカの。
  • BLOGOS サービス終了のお知らせ

    平素は株式会社ライブドアのサービスを ご利用いただきありがとうございます。 提言型ニュースサイト「BLOGOS」は、 2022年5月31日をもちまして、 サービスの提供を終了いたしました。 一部のオリジナル記事につきましては、 livedoorニュース内の 「BLOGOSの記事一覧」からご覧いただけます。 長らくご利用いただき、ありがとうございました。 サービス終了に関するお問い合わせは、 下記までお願いいたします。 お問い合わせ

    BLOGOS サービス終了のお知らせ
    rokujyouhitoma
    rokujyouhitoma 2012/12/03
    ほほぅ...
  • K のこと -- steps to phantasien t(2007-11-03)

    友人の話をしよう. 先達に敬意を表し, 仮に彼を K と呼ぶ. (イニシャルは便宜的なものだ; 向上心云々と罵ったこともないし, 恋人を寝取ってもいない.) ある時期, 私は K と一緒に働いていた. 今は違う会社にいるけれど, 互いに暇なのか, このごろもよく二人で管を巻いている. 1 K は優秀なプログラマだ. いつも敵わないと思う. 一緒に仕事をしていたこともあり, プログラマとしての私は K から強い影響をうけている. たとえば私が自動テストを始めた発端には K がいる. コードレビューもそう. この日記に出てくる話も K の影響は色濃い. 私は K のあとを追いかけるようにプログラマを続けている. K と働いてはじめて, ああ, 物事とはこう改善していくものなのかと知った. 何か問題を感じると K は試行錯誤を始める. 問題は私が諦めていたものもあるし, そもそも気付かないものも

  • SVMを実装してみた - xyz600の日記

    授業でSVMについて習ったけど、実際に実装したことなかったからやってみた。簡単って言われてるけど、制約付き2次計画問題の実装が結構大変だった(収束しないケースとかたくさんあったり、制約条件を遵守したり) 参考にしたのは、以下のやらページやら http://www.amazon.co.jp/%E3%82%B5%E3%83%9D%E3%83%BC%E3%83%88%E3%83%99%E3%82%AF%E3%82%BF%E3%83%BC%E3%83%9E%E3%82%B7%E3%83%B3%E5%85%A5%E9%96%80-%E3%83%8D%E3%83%AD-%E3%82%AF%E3%83%AA%E3%82%B9%E3%83%86%E3%82%A3%E3%82%A2%E3%83%8B%E3%83%BC%E3%83%8B/dp/4320121341/ref=sr_1_1?ie=UTF8&qi

    SVMを実装してみた - xyz600の日記
  • 株式会社ドワンゴを退職しました - つきあたりを右に

    ニコニコ静画(電子書籍)と niconico for Windows 8 をよろしく / VoQn さんのイラスト - ニコニコ静画 (イラスト) 上の左の娘はiOS擬人化キャラがコモディティとして存在してないっぽいのでGUIのカラースキームから適当にでっち上げた娘です。ニコニコ静画(電子書籍)、niconico for Windows 8 をどうぞご贔屓に 去る、11月30日をもって株式会社ドワンゴを退職しました12月からはまた新しい別の前線で戦う事になります。 えらく濃い日々を過ごさせてもらいました。公に自分の仕事が世に出たのはニコニコ静画(電子書籍)と Windows Store App の niconico for Windows 8 の2つくらいしかないのですが、どちらもかなりのバリューのあるプロダクトに根っこから関わらせていただいて、その経験は得難いものだと思っています。 (他

    株式会社ドワンゴを退職しました - つきあたりを右に
    rokujyouhitoma
    rokujyouhitoma 2012/12/03
    お疲れ様でした。