タグ

2016年11月10日のブックマーク (4件)

  • 特徴抽出と TF-IDF - Qiita

    今日は TF-IDF についてざっくりとまとめます。 特徴量と特徴抽出 TF-IDF は情報検索や文書推薦などで幅広く利用される特徴量の指標です。 特徴量 - 対象の特徴を表現する値 特徴抽出 - 対象から特徴量を取り出す 日語の特徴抽出 英語の場合はホワイトスペースで分割してから記号などを取り除くだけで特徴抽出できます。 日語の場合は形態素解析または N-Gram などの索引文字列抽出方法を利用します。 索引語頻度 TF (Term Frequency) ある文書 d の中に出現する索引語 t の頻度です。文書中にその単語が何回現れたかをあらわします。 単語 回数

    特徴抽出と TF-IDF - Qiita
  • tf-idf - Wikipedia

    情報検索の分野において、tf–idf (または、 TF*IDF、TFIDF、TF–IDF、Tf–idf)は、term frequency–inverse document frequencyの略であり、コーパスや収集された文書群において、ある単語がいかに重要なのかを反映させることを意図した統計量(数値)である[1]。また、tf-idfは情報検索や、テキストマイニング、ユーザーモデリング(英語版)における重み係数(英語版)にもよく用いられる。ある単語のtf-idfの値は文書内におけるその単語の出現回数に比例して増加し、また、その単語を含むコーパス内の文書数によってその増加が相殺される。この性質は、一般にいくつかの単語はより出現しやすいという事実をうまく調整することに役立っている。今日、tf-idfはもっとも有名な語の重みづけ(term-weighting)手法である。2015年に行われた研究

  • 『非モテの品格 男にとって弱さとは何か』ルサンチマンを超えた先にあるもの - HONZ

    タイトルを見て思わず手に取った。面白そうだと思ったのではない。憤慨したのだ。 はっきり言って私はモテない。メディアに出れば、ネットの掲示板には「ブス」という心無い言葉が流れる。だから、モテないことには一家言もっている。 だが、このタイトルには全く同調できなかった。 男はたとえ生まれ持った容姿に恵まれなくとも、筋肉をつけ、身なりに気を使い、学歴や財力、権力、そして小粋なトークでもできれば、間違いなくモテるようになれるだろう。これら全ては後天的な努力で手にすることができるものばかりだ。努力が足りないだけなのに「弱さ」とは一体何事かと憤りながらページをめくった私は、後頭部を殴られるような衝撃を受けた。 「ふと、自殺した友人や知人たちの顔を、今でも思い出すことがある。」という書き出しから始まる冒頭には、社会の期待するマッチョな男性像に絡め取られ、声を上げることもできないまま死を選んでしまう男性たち

    『非モテの品格 男にとって弱さとは何か』ルサンチマンを超えた先にあるもの - HONZ
  • 中国とロシアは、なぜ「トランプ支持」なのか

    米大統領選挙でのゲームのルールは非常に簡単だ。既存の秩序が維持されたほうがいいと思う人はクリントン候補を支持。秩序が変わったほうがいいと思う人はトランプ候補支持だ。特に、「自分たちは社会に虐げられている」と考えている製造業従事者や米国中・南部で白人がトランプ候補を支持した。 世界各国で見ると日やEU、韓国はクリントン候補が大統領になればいいと思っている。一方、ロシア中国北朝鮮トランプ候補になればと思っている。 「トランプ嫌い」では質は見えてこない 私が日国内での米大統領選の見方でとても気になるのは、二重の意味での大きな偏見があることだ。一つは、米国のエスタブリッシュメントの見解が入ってくること。そして、「トランプは嫌だ」という短絡的な思いから、トランプ候補がカリカチュア化(人物の性格や特徴を際立たせるため、グロテスクに誇張したり歪曲を施したりすること)されすぎていることだ。それ

    中国とロシアは、なぜ「トランプ支持」なのか
    yasomi
    yasomi 2016/11/10