② 民事・刑事の訴訟で、当事者または訴訟関係人が裁判所に対し、法律上の主張あるいは事実に関する事項を口頭または書面などで述べること。 ③ 国語学で、構文論の基礎的な概念の一つ。主語・述語などの関係にある連語を、一つのまとまった文として成り立たせる作用で、言語主体の何らかの判断の態度がこれに反映する。ただし、語形の上に表われるとは限らないので、その内容にはいろいろの考え方ができる。もと、山田孝雄の用語。
Overview Tokyo Dystopia is a full-text search system. You can search lots of records for some records including specified patterns. The characteristic of Tokyo Dystopia is the following. High performance of search High scalability of target documents Perfect recall ratio by character N-gram method Phrase matching, prefix matching, suffix matching, and token matching Multilingualism with Unicode La
これからはSolrを使って全文検索サービスの時代だということで、Solrをダウンロードしてきてサンプルアプリケーションで日本語が扱えるようにしました。 調べつつやっているのでもしかしたら間違っていることを言ってるかもしれません。 Apache Solr 3.3.0のダウンロード〜解凍 http://lucene.apache.org/solr/ の左側のメニューから【Resources】->【Download】と辿り、最新版(3.3.0)をダウンロードします。 今回は apache-solr-3.3.0.tgz をダウンロードしました。 $ wget http://ftp.kddilabs.jp/infosystems/apache//lucene/solr/3.3.0/apache-solr-3.3.0.tgz $ tar xvf apache-solr-3.3.0.tgz $ # 適当
概要 Javaの有名な形態素解析器でありながら、長らく「公式サイトどこ?」な状況だったSenとGoSenですが、最近はlucene-gosenなるGoSenベースのライブラリがちゃんと管理された状態で公開されてるとか。 lucene-gosen http://code.google.com/p/lucene-gosen/ しかもこの子は辞書内包なのでjarを落とすだけで使えて、Lucene用AnalyzerやSolr用Toknizerも付いていて、日本語の検索用インデックスを貼る時に便利な各種フィルタも用意されているという、至れり尽くせりな構成になっているとか。 これは触ってみねばということで、とりあえず簡単な形態素解析、辞書の追加、Luceneでの利用、Solrでの利用を試してみました。 ちなみに上のURLでCommiterのところに名前が出ているKoji SekiguchiさんはSol
IgoはJavaで作られた形態素解析エンジンです。 JavaはJVMという閉じた空間で動作する分、Cなどのネイティブアプリと連携する際の安定性や性能がイマイチ。 そのため形態素解析をしたい場合もMeCabを使わずにJava製のものを利用するケースが目立ちます。IgoはJavaで形態素解析をする場合に選択肢の1つとして挙げられます。 @Date 2010/12/18 @Env Igo0.4.2/Fedora14 IgoはMeCabの辞書を利用することができ、ほぼMeCabと同じ解析結果を返すことを意識して作られているそうです(詳細は公式サイト参照)。 Igo - Java形態素解析器 http://igo.sourceforge.jp/ 下記ページによると、実行速度もMeCabと比べてそれほど大きく劣ることはないようです。 Igo : MeCabと形態素解析速度比較 http://d.hat
Presented by Christian Moen, Founder and CEO Atilika Inc - See conference video - http://www.lucidimagination.com/devzone/events/conferences/lucene-revolution-2012 This talk gives an introduction to searching Japanese text and an overview of the new Japanese search features available out-of-the-box in Lucene and Solr. Atilika developed a new Japanese morphological analyzer (Kuromoji) in 2010 when
概要 Javaの比較的新しい形態素解析器、Kuromoji。 lucene-gosenやGomokuのように辞書内包で、jarを落とせばその場で利用でき、Unidicに対応していて、ソースがLuceneのtrunkにコミットされているという、何かと気になる特徴の持ち主。 複数のモードを持っているようで、Searchモードを使うと「日本経済新聞」を「日本 | 経済 | 新聞」のように検索で利用しやすい形にばらして解析してくれたり、Extendedモードを使うと未知語をuni-gramにしてくれたりもするらしい。 今日はそんなKuromojiさんの導入から簡易な使い方までをさらっと追いかけてみた。 導入 まずは下記ページからダウンロード。今回はkuromoji-0.7.5.tar.gzを利用。 Downloads - atilika/kuromoji https://github.com/at
MapReduceの勉強と練習をかねてRubyでそれらしいことを書いてみます。 間違ったことをしてるかもしれないので、詳しい人がツッコミを入れてくれると嬉しいです。 ruby 1.8.7で動作を確認しています。 テーマ Apacheのログっぽいデータを分析して、それぞれのファイルへのアクセス数を算出します。 入力データはこんな感じ。 # Apacheのログっぽいデータの集合 input_data = [ '[04/01 00:00:00] "GET index.html HTTP/1.1" 200', '[04/01 00:00:00] "GET index.html HTTP/1.1" 200', '[04/01 00:00:00] "GET reduce.html HTTP/1.1" 200', '[04/01 00:00:00] "GET reduce.html HTTP/1.1"
自分がまだ習得していない語に絞った英単語帳を作成して、効率的に語彙力を強化することができるツールを作ってみた。難易度別の英単語が次々に表示されるので、意味を確認しつつ、苦手なものにマークをつけて行く。マークをつけたもの一覧を印刷すれば、あなたの苦手な語に絞った英単語帳のできあがり。 背景 英語で書かれた新聞や雑誌やWebサイトを読みこなすために、最低限覚えておかなければならない語彙の水準がある。上級者は毎日それらのコンテンツを読むことで語彙の維持と強化ができるのだが、中級者以下だとそうはいかない。楽しく英文を読めるという段階にまだ達していない我々は、単語集を使って最低限の語彙セットを身につける作業と、実力に見合った英文を読む作業を並行して行なっていくのが一般的だろう。 単語集を使うと必要な語彙を網羅的に記憶していけるが、それだけだと様々な文脈に合わせた実際の使い方を習得することができない。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く