kaolynのブックマーク / 2015年3月16日

kaolyn id:kaolyn

2015年3月16日のブックマーク (4件)

Elasticsearch 日本語形態素解析のための文字列正規化の重要性
日本語の文章を形態素解析するときは、トークナイズする前に文字列の正規化を済ませて検索精度を向上させよう！この記事は、Elasticsearch Advent Calendar 2014 の１８日目のエントリーです。即席で申し訳ないですが、なんとかまとめましたので是非最後までお付き合いください。今回は、日本語形態素解析における文字列正規化のお話です。それでは早速本題に。非正規化された日本語の文章を形態素解析を使って、なるべく意図したようにトークナイズするためには、全角英数字を半角英数字に正規化したり、半角カタカナを全角カタカナに正規化したり、不要な文字を除外したり、単語ではなく、文字単位での正規化が重要になってきます。 Japanese (kuromoji) Analysis Plugin のページでも紹介されているように、全角英数字や半角カタカナの正規化には、CJK Width F
kaolyn 2015/03/16
あとで読む

形態素解析

日本語
リンク
Elasticsearch 日本語形態素解析のための文字列正規化の重要性
日本語の文章を形態素解析するときは、トークナイズする前に文字列の正規化を済ませて検索精度を向上させよう！この記事は、Elasticsearch Advent Calendar 2014 の１８日目のエントリーです。即席で申し訳ないですが、なんとかまとめましたので是非最後までお付き合いください。今回は、日本語形態素解析における文字列正規化のお話です。それでは早速本題に。非正規化された日本語の文章を形態素解析を使って、なるべく意図したようにトークナイズするためには、全角英数字を半角英数字に正規化したり、半角カタカナを全角カタカナに正規化したり、不要な文字を除外したり、単語ではなく、文字単位での正規化が重要になってきます。 Japanese (kuromoji) Analysis Plugin のページでも紹介されているように、全角英数字や半角カタカナの正規化には、CJK Width F
kaolyn 2015/03/16
あとで読む

形態素解析

日本語
リンク
『某』企業公式アカウント凍結から現在までの流れ
（ﾟωﾟ)ﾉ @o_oTxT 最近話題の肖像権について。 Twitterの規約も改定されましたね。全世界で使われているツールだからこそ、相応のルールは必要しょう。年末年始に起きたとある友人の話がまさにそれ。しかも企業の対応がこんなでしたよ、と…広く世間に知っていただく見本には丁度いいかもしれません。 2015-03-15 02:27:05 （ﾟωﾟ)ﾉ @o_oTxT 『本当に今時の企業ですか？』と、相談を受けた弁護士の先生に問われるほど、実話なのにネタっぽい。非常識か否かを、肖像権とは…を、ユーザーの視点でまとめます。企業の名前は国語でいう特定しない意味で「某」とします。文字数削減のため、『某』のみで表記します 2015-03-15 02:33:18 （ﾟωﾟ)ﾉ @o_oTxT 『某が行ったイベント会場において、無断で撮影を行った顔の判別がつくる写真を加工なしでTwitter上に掲
kaolyn 2015/03/16
リンク
欧美亚洲色欲色一欲WWW - 欧美大片欧美激情免费看 - 欧美特黄特色三级视频在线观看
kaolyn 2015/03/16
atom

エディタ

プログラミング
リンク
- 2015年3月17日
- 2015年3月16日
- 2015年3月15日