Kpedia(ケイペディア)は、韓国語の読み方・発音、ハングル文字、韓国語文法、挨拶、数字、若者言葉、俗語、流行語、慣用句、連語、フレーズ、韓国語能力試験によく出る表現等をまとめた韓国語辞書です。
昨年11/29に全文検索エンジンGroongaを囲む夕べ4を開催しました。発表資料へのリンクもまとめています。隔週連載Groongaも参考になりますよ。 イベントレポートも昨年末に「全文検索エンジンGroongaを囲む夕べ 4」レポートとして公開されましたね。 はじめに オープンソースのカラムストア機能付き全文検索エンジンGroongaを公開しています。この記事を書いているときの最新のバージョンは2013年12月29日にリリースした3.1.1です。 今回は、全文検索エンジンGroongaで中国語のトークナイザーを使う方法を紹介します。 Groongaでの中国語サポート状況 全文検索エンジンであるGroongaでは、エンコーディングとしてはUTF-8をサポートしているので全文検索できなくはないのですが、そこには検索の精度の問題があります。 単純にバイグラムでトークナイズするのであれば漏れはな
VGG16はILSVRCのコンペ用に学習されたニューラルネットなのでImageNetの1000クラスを認識できる。しかし、前の記事(2017/1/4)で実験したように「ひまわり」のようなImageNetに存在しないクラスはそのままでは認識できない。 この問題を解決するためVGG16の高い認識能力を継承しつつ、新しい独自のクラス(今回は犬か猫かの2クラス)を認識できるように少量のデータでニューラルネットの重みを再調整することをFine-tuningという*1。「少量のデータで」というところがすごく重要。もし大量データでないとダメだったらAWSの利用料で破産するのでこの記事は書けない(^^;; 今回は、Keras Blogの - Building powerful image classification models using very little dat を参考に犬と猫の2クラス認識を
MecabやChasenなどのによる形態素解析が、日本語のテキストの分かち書きには不可欠だと多くの人が考えていますが、必ずしもそうではないようです。このことを知ったのは、quantedaのトークン化の関数を調べている時で、日本語のテキストをこの関数に渡してみると、単語が Mecabと同じように、きれいに単語に分かれたからです。 > txt_jp <- "政治とは社会に対して全体的な影響を及ぼし、社会で生きるひとりひとりの人の人生にも様々な影響を及ぼす複雑な領域である。" > quanteda::tokens(txt_jp) tokens from 1 document. Component 1 : [1] "政治" "と" "は" "社会" "に対して" "全体" "的" "な" [9] "影響" "を" "及" "ぼ" "し" "、" "社会" "で" [17] "生きる" "ひとりひと
RDRPOSTagger A Rule-based Part-of-Speech and Morphological Tagging Toolkit https://github.com/datquocnguyen/RDRPOSTagger 1. Introduction 2. Train RDRPOSTagger on a gold standard training corpus 3. Use pre-trained POS and morphological tagging models 4. Combine RDRPOSTagger with an external initial tagger 5. Speed up tagging process with an implementation in Java References News: · 22/06/2019: Port
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く