incepのブックマーク / 2012年8月15日

incep id:incep

2012年8月15日のブックマーク (11件)

陳述(ちんじゅつ)とは？意味や使い方 - コトバンク
② 民事・刑事の訴訟で、当事者または訴訟関係人が裁判所に対し、法律上の主張あるいは事実に関する事項を口頭または書面などで述べること。 ③ 国語学で、構文論の基礎的な概念の一つ。主語・述語などの関係にある連語を、一つのまとまった文として成り立たせる作用で、言語主体の何らかの判断の態度がこれに反映する。ただし、語形の上に表われるとは限らないので、その内容にはいろいろの考え方ができる。もと、山田孝雄の用語。
incep 2012/08/15
linguistics
リンク
PyCharm: the Python IDE for data science and web development
The Python IDE for data science and web development with intelligent code completion, on-the-fly error checking, quick-fixes, and much more.
incep 2012/08/15
python

ide
リンク
http://www.web2py.com/
incep 2012/08/15
python
リンク
Tokyo Dystopia: a full-text search system
Overview Tokyo Dystopia is a full-text search system. You can search lots of records for some records including specified patterns. The characteristic of Tokyo Dystopia is the following. High performance of search High scalability of target documents Perfect recall ratio by character N-gram method Phrase matching, prefix matching, suffix matching, and token matching Multilingualism with Unicode La
incep 2012/08/15
search
リンク
Apache Solr 3.3.0 で日本語検索できるようになるまでにしたこと - 働かないプログラマのメモ帳
これからはSolrを使って全文検索サービスの時代だということで、Solrをダウンロードしてきてサンプルアプリケーションで日本語が扱えるようにしました。調べつつやっているのでもしかしたら間違っていることを言ってるかもしれません。 Apache Solr 3.3.0のダウンロード〜解凍 http://lucene.apache.org/solr/ の左側のメニューから【Resources】->【Download】と辿り、最新版（3.3.0）をダウンロードします。今回は apache-solr-3.3.0.tgz をダウンロードしました。 $ wget http://ftp.kddilabs.jp/infosystems/apache//lucene/solr/3.3.0/apache-solr-3.3.0.tgz $ tar xvf apache-solr-3.3.0.tgz $ # 適当
incep 2012/08/15
Solr

lucene
リンク
Java製形態素解析ライブラリ「lucene-gosen」を試してみる
概要 Javaの有名な形態素解析器でありながら、長らく「公式サイトどこ？」な状況だったSenとGoSenですが、最近はlucene-gosenなるGoSenベースのライブラリがちゃんと管理された状態で公開されてるとか。 lucene-gosen http://code.google.com/p/lucene-gosen/ しかもこの子は辞書内包なのでjarを落とすだけで使えて、Lucene用AnalyzerやSolr用Toknizerも付いていて、日本語の検索用インデックスを貼る時に便利な各種フィルタも用意されているという、至れり尽くせりな構成になっているとか。これは触ってみねばということで、とりあえず簡単な形態素解析、辞書の追加、Luceneでの利用、Solrでの利用を試してみました。ちなみに上のURLでCommiterのところに名前が出ているKoji SekiguchiさんはSol
incep 2012/08/15
java

solr

lucene

morphological_analysis
リンク
Java製形態素解析エンジン「Igo」を試してみる
IgoはJavaで作られた形態素解析エンジンです。 JavaはJVMという閉じた空間で動作する分、Cなどのネイティブアプリと連携する際の安定性や性能がイマイチ。そのため形態素解析をしたい場合もMeCabを使わずにJava製のものを利用するケースが目立ちます。IgoはJavaで形態素解析をする場合に選択肢の1つとして挙げられます。 @Date 2010/12/18 @Env Igo0.4.2/Fedora14 IgoはMeCabの辞書を利用することができ、ほぼMeCabと同じ解析結果を返すことを意識して作られているそうです（詳細は公式サイト参照）。 Igo - Java 形態素解析器 http://igo.sourceforge.jp/ 下記ページによると、実行速度もMeCabと比べてそれほど大きく劣ることはないようです。 Igo : MeCabと形態素解析速度比較 http://d.hat
incep 2012/08/15
morphological_analysis

Java

nlp

lucene
リンク
Japanese Linguistics in Lucene and Solr
Presented by Christian Moen, Founder and CEO Atilika Inc - See conference video - http://www.lucidimagination.com/devzone/events/conferences/lucene-revolution-2012 This talk gives an introduction to searching Japanese text and an overview of the new Japanese search features available out-of-the-box in Lucene and Solr. Atilika developed a new Japanese morphological analyzer (Kuromoji) in 2010 when
incep 2012/08/15
kuromoji

Solr

lucene
リンク
Java製形態素解析器「Kuromoji」を試してみる
概要 Javaの比較的新しい形態素解析器、Kuromoji。 lucene-gosenやGomokuのように辞書内包で、jarを落とせばその場で利用でき、Unidicに対応していて、ソースがLuceneのtrunkにコミットされているという、何かと気になる特徴の持ち主。複数のモードを持っているようで、Searchモードを使うと「日本経済新聞」を「日本 | 経済 | 新聞」のように検索で利用しやすい形にばらして解析してくれたり、Extendedモードを使うと未知語をuni-gramにしてくれたりもするらしい。今日はそんなKuromojiさんの導入から簡易な使い方までをさらっと追いかけてみた。導入まずは下記ページからダウンロード。今回はkuromoji-0.7.5.tar.gzを利用。 Downloads - atilika/kuromoji https://github.com/at
incep 2012/08/15
kuromoji

java

Lucene

morphological_analysis
リンク
Rubyで理解するMapReduce - 働かないプログラマのメモ帳
MapReduceの勉強と練習をかねてRubyでそれらしいことを書いてみます。間違ったことをしてるかもしれないので、詳しい人がツッコミを入れてくれると嬉しいです。 ruby 1.8.7で動作を確認しています。テーマ Apacheのログっぽいデータを分析して、それぞれのファイルへのアクセス数を算出します。入力データはこんな感じ。 # Apacheのログっぽいデータの集合 input_data = [ '[04/01 00:00:00] "GET index.html HTTP/1.1" 200', '[04/01 00:00:00] "GET index.html HTTP/1.1" 200', '[04/01 00:00:00] "GET reduce.html HTTP/1.1" 200', '[04/01 00:00:00] "GET reduce.html HTTP/1.1"
incep 2012/08/15
group_byがはさまる。

Ruby

map

shuffle

reduce
リンク
開発メモ: オリジナル英単語帳を作って語彙学習を効率化するツール
自分がまだ習得していない語に絞った英単語帳を作成して、効率的に語彙力を強化することができるツールを作ってみた。難易度別の英単語が次々に表示されるので、意味を確認しつつ、苦手なものにマークをつけて行く。マークをつけたもの一覧を印刷すれば、あなたの苦手な語に絞った英単語帳のできあがり。背景英語で書かれた新聞や雑誌やWebサイトを読みこなすために、最低限覚えておかなければならない語彙の水準がある。上級者は毎日それらのコンテンツを読むことで語彙の維持と強化ができるのだが、中級者以下だとそうはいかない。楽しく英文を読めるという段階にまだ達していない我々は、単語集を使って最低限の語彙セットを身につける作業と、実力に見合った英文を読む作業を並行して行なっていくのが一般的だろう。単語集を使うと必要な語彙を網羅的に記憶していけるが、それだけだと様々な文脈に合わせた実際の使い方を習得することができない。
incep 2012/08/15
english

web

tool

language
リンク
- 2012年8月16日
- 2012年8月15日
- 2012年8月14日