[B! NLP] shun9167のブックマーク

カイ二乗値を用いた特徴選択 - 人工知能に関する断創録

相互情報量を用いた特徴選択（2010/6/19）のつづきです。今回は、相互情報量ではなく、カイ二乗値を用いて特徴語を抽出してみます。カイ二乗検定は独立性の検定によく使いますけど、特徴語の抽出にも応用できるってのははじめて知りました。結局のところ相互情報量もカイ二乗値もカテゴリと単語がどれくらい依存しているかを表す尺度なのでアプローチは似ている感じがします。IIRの13.5を参考にして実装します。カイ二乗値カイ二乗値の定義は、です。NやEが出てきますが、下のようなクロス表を用いて計算します。たとえば、単語「iPhone」とカテゴリ「IT」のカイ二乗値を求めたいとき、クロス表は下のようになります。たとえば、カテゴリがITで単語iPhoneを含む文書はデータ中にN11個あるなどと解釈します。カテゴリがITであるカテゴリがITでない計単語iPhoneを含む N11 (E11) N10

shun9167 2015/09/14

リンク

係り受け解析メモ - Negative/Positive Thinking

はじめに今年の目標にしていた係り受け解析関係の資料について雑多にメモしておく。リンク集。拾いきれていない、最新の論文まで追えていないので、あとで追加・整理し直す。 Wikipedia http://en.wikipedia.org/wiki/Dependency_grammar 文節単位がよいか、単語単位がよいかの議論 http://togetter.com/li/164400 https://plus.google.com/107334123935896432800/posts/KHoDsDssycf http://plata.ar.media.kyoto-u.ac.jp/mori/research/public/flannery-NLP12.pdf 解析処理について説明している日本語資料海野, 統計的係り受け解析入門 http://www.slideshare.net/unnon

shun9167 2015/09/14

NLP

リンク

EntityLinkingメモ - Negative/Positive Thinking

はじめに WSDM2014(WWW2013,YSS2013,SIGIR2013)のチュートリアルで「EntityLinking」といタスクが紹介されていたので、ちょっと調べてメモしておく。次元圧縮！ Entity Linkingとはテキストに出てくるエンティティ(実体)を識別・決定するタスク固有名詞抽出は「固有名詞を識別して取り出す」タスクなので、異なる雑にいうと、KnowledgeBaseと呼ばれる(識別された)エンティティ集合からテキストにでてくるエンティティを決定すること KBにない新しい固有名詞を発見することも含まれたりする(「NIL」として取り扱う) 実際の例テキスト「東京タワーに行った」固有名詞抽出「東京タワー」を取り出す Entity Linking 「東京タワー」が以下のreference(ここではWikipediaのページ)と対応することを決定する http

shun9167 2015/09/14

NLP

リンク

scikit-learnとgensimでニュース記事を分類する - Qiita

こんにちは、初心者です。適当なニュース記事があったとして、ニュースのカテゴリを推測するみたいな、よくあるやつをやってみました。Python3.3を使いました。何をやるの？データセットはlivedoorニュースコーパスを使いました。 http://www.rondhuit.com/download.html#ldcc クリエイティブ・コモンズライセンスが適用されるニュース記事だけを集めてるそうです。トピックニュース、Sports Watch、ITライフハック、家電チャンネル、MOVIE ENTER、独女通信、エスマックス、livedoor HOMME、Peachy というクラスがあります。データは、1記事1テキストファイルの形式で、クラス別のディレクトリにいっぱい入っています。これを学習して、未知の文章に対して、お前は独女通信っぽい、お前は家電チャンネルっぽい、みたいに、分類が

shun9167 2015/09/13

リンク

Java で統計とか機械学習とか自然言語処理とかをやりたいときに役立つライブラリ達

BizReach 社にお邪魔して発表したときのスライドです。

shun9167 2015/09/13

リンク

DSIRNLP#1 ランキング学習ことはじめ

2. 自己紹介 • 数原良彦 (すはらよしひこ) – @sleepy_yoshi – http://d.hatena.ne.jp/sleepy_yoshi/ • 情報検索の研究開発ぽい仕事など – 情報検索とか機械学習とか • 特にランキング学習 • 三浦半島在住 – マグロを食べる頻度が減った  – 三浦半島で地震に怯える日々  2 4. 本発表のねらい • ねらい – ランキング学習の認知度を高める – ランキング学習をざっくり伝える – なにか实装できるようになっていただく • 理論的妥当性の説明はほとんど無し • アルゴリズムを可能な限り紹介 • おねがい? – 質問は適宜お気軽にどうぞ – 手法をたくさん紹介するのはイメージづけのため • 完全に理解する必要ありません • イメージがつけば後で詳細を追える(ハズ) 4

shun9167 2015/09/13

リンク

Learning to rank for IR

5. Googleでのランクづけ ● Googleが重視している項目 ○ 200個のパラメータでランクを決めている? ○ 2009年当時 ○ http://www.searchenginejournal.com/200-parameters-in-google- algorithm/15457/#ixzz1Io4iBrJI 6. Googleでのランクづけ例 ● Visitorプロファイル ○ Visitor数 ● ドメイン関係 ○ Visitor統計(性別とか) ○ ドメイン取得日 ● ペナルティ ○ ドメイン取得からの期間 ○ 過去のペナルティ ● サーバ ○ 重複コンテンツ ○ 稼働時間 ○ 過去のハッカーによる攻撃 ○ 設置場所(国とか？) ● 設計 ○ URL構造 ○ HTML構造 ● コンテンツ ○ 言語 ○ ユニーク性 ○ コンテンツ量(text vs HTML) ● 内部

shun9167 2015/09/13

リンク

相互情報量を用いた特徴選択 - 人工知能に関する断創録

20 Newsgroupsで分類精度を評価（2010/6/18）のつづきです。今回は、特徴選択に挑戦してみようと思います。テキスト分類における特徴とは基本的に単語のことです。特徴選択前回、ナイーブベイズの出力結果で documents: 11269, vocabularies: 53852, categories: 20 accuracy: 0.802265156562となってました。documentsは訓練データの総文書数、categoriesは訓練データのカテゴリ数、vocabulariesは訓練データの総単語数を表します。テキスト分類において53852個の単語を考慮していることを意味します。しかし、この単語の中には分類に寄与しないばかりかノイズになって逆に性能を悪化させるような単語が含まれていることがあります。たとえば、the, in, toなどのストップワードがその一例です。そ

shun9167 2015/09/13

リンク

文書分類メモ - Negative/Positive Thinking

はじめに文書分類マスターを目指して修行の旅に出るために必要そうな知識を、ざっとメモしておく。(かなり雑だけど・・・) 文書分類とはテキスト分類、Text Classification あらかじめ決められたカテゴリ集合に基づき、与えられた文書に適切なカテゴリを付与する事排他的分類 : 1つのテキストにカテゴリを1つだけ付与される場合マルチラベル分類 : 1つのテキストに複数のカテゴリ付与を許す場合基本的には、目的の分類をどのような分類手法に落とし込むか？を考えることになる主なアプローチとして、以下のような流れで処理する(教師あり分類) 学習データから素性(なんらかの特徴)を抽出し、それらの規則を見つけだす規則に基づく分類モデルを作成未知の文書に対して素性を抽出したものにモデルを適用し、分類結果を返す利用例内容に関する分類ニュースジャンル分類 SPAMフィルタ属性に関す

shun9167 2015/09/13

リンク

自然言語処理を自習したくなったら参考になりそうなサイトなど - 鴨川にあこがれる日々

雑にですが，知ってるサイトやチュートリアルをまとめたくなったのでまとめてみました．夏ですし．適宜更新しています．最終更新 2018年02月03日チュートリアル言語処理100本ノック言語処理100本ノック 2015 東工大の岡崎先生が作られたチュートリアルです．他大学の研究室でも利用されています．簡単な内容からはじまるので，プログラミングの導入としてもいいと思います． NLPプログラミングチュートリアル Graham Neubig's Teaching Carnegie Mellon UniversityのGraham Neubig先生のチュートリアルです． Githubにサンプルコードが公開されています．各チュートリアルにはテストがついているので，実装が正しいかを確かめることができます．扱っているトピックが広いので，かなり勉強になると思います．ソフト形態素解析器日本

shun9167 2015/08/07

NLP

リンク

Pythonで実装する類似度計算 - Screaming Loud

A = {"みかん":5,"りんご":8,"ぶどう":2} B = {"みかん":5,"なし":8,"ぶどう":2,"もも":1} 辞書の要素は{単語:その出現頻度}という構成です．この2つのベクトルの類似度を計算する尺度を紹介する． PMIなど共起についての尺度は使わず，単純なベクトルの比較を行うものです．コサイン類似度 (cosine similarity) 頻度を考慮した類似度計算．よく使われる． import math def dotProduct(dicX,dicY): '''return a dot product.''' sum = 0 for key in dicX: if key in dicY: sum += float(dicX[key])*float(dicY[key]) return sum def root_squareSum(vector): """th

shun9167 2015/04/02

Python
NLP

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

NLPに関するshun9167のブックマーク (11)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス