Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
#結論 頒布義務があるようです。形態素解析用の単語辞書をご提供いただき、ありがとうございました。 #考察 キュレーションサービス(ニュースアプリ。Webコンテンツを集めてユーザーにオススメするサービス)は、Webコンテンツを分類する為に内部で辞書を持っています。その辞書をもとにコンテンツの文章を単語に分け、その単語群からそのコンテンツの特徴を把握します。この辞書はキュレーションサービスにとって、ビジネスの要であると言えます。なぜならば、正確に単語を分ける事ができるのならば、後は定番の機械学習アルゴリズム(ex.Complement Naive Bayes)にかけるだけである程度の精度の分類は行えるからです。先の辞書は秘伝のタレに比喩される事も多いです。 さて、その辞書ですが、世の中で最も多く使われているのはWikipediaのデータセットを元にしたものです。Wikipediaの記事のタイト
require 'csv' def output(title, type) title_length = title.length return nil unless title_length > 3 score = [-36000.0, -400 * (title_length ** 1.5)].max.to_i [title, nil, nil, score, '名詞', '一般', '*', '*', '*', '*', title, '*', '*', type] end CSV.open("user.csv", 'w') do |csv| # niconico Dir::foreach('./niconico') do |f| next unless f =~ /^head[0-9]{4}\.csv$/ open("./niconico/#{f}").each do |line|
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く