こんにちは。最近GINZA SIXで本当のスタバ*1を知ってしまった福田です。 私たちの身の周りは、様々なデータで溢れています。 ある2つの異なるデータ集合を互いに紐付けたいこともよくあります。 どのように紐付けられるでしょうか。 一方のデータ集合から分類器をつくることができれば、分類結果を媒介として他のデータ集合とのマッチングができるかもしれません。 では、どうやって分類できるでしょう。 ここではSparkとHBaseを使って実装がシンプルで、文書分類でよく使われるナイーブベイズの分類器を実装してみます。 材料と調理器具 材料 特許の要約と分類のデータ 簡単のため以下のように正規化されたテーブル構造のデータがあるとします。 特許出願(appln)を親として、要約テキスト(appln_abstr)と、分類コード(appln_ipc)がぶら下がっています。今回使うのは右側の2つのデータのみで
