[B! gensim] zmsgnkのブックマーク

自然言語処理による文書分類の基礎の基礎、トピックモデルを学ぶ - Qiita

自然言語においても、最近は生ビールを頼む感覚で「とりあえずディープラーニング」となることが多いです。実際ディープラーニングは高精度を記録できることが多いですが、実はその精度は基礎的なモデルでも記録できたり、あげく負けるようなこともあったりします。研究機関として名高いDeepMindの発表した論文でも、こうした事態がありました。文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-よりまた、最近はベースラインとして良く利用されているモデルでも最高精度を達成できるといった論文もありました。このように、ベースラインとして足蹴にされているモデルでも存外隅には置けないのです。今回は自然言語処理における基本的な手法の一種であるトピックモデルを取り上げてみます。これは文書分類などに使用されるモデルですが、文書分類の際に著者の存在を仮定するなど(オーサートピ

zmsgnk 2019/01/10

リンク

scikit-learnとgensimでニュース記事を分類する - Qiita

こんにちは、初心者です。適当なニュース記事があったとして、ニュースのカテゴリを推測するみたいな、よくあるやつをやってみました。Python3.3を使いました。何をやるの？データセットはlivedoorニュースコーパスを使いました。 http://www.rondhuit.com/download.html#ldcc クリエイティブ・コモンズライセンスが適用されるニュース記事だけを集めてるそうです。トピックニュース、Sports Watch、ITライフハック、家電チャンネル、MOVIE ENTER、独女通信、エスマックス、livedoor HOMME、Peachy というクラスがあります。データは、1記事1テキストファイルの形式で、クラス別のディレクトリにいっぱい入っています。これを学習して、未知の文章に対して、お前は独女通信っぽい、お前は家電チャンネルっぽい、みたいに、分類が

zmsgnk 2016/10/07

gensim

リンク

tfidf, lsi, ldaを使ったツイッターユーザーの類似度計算

tfidf, lsi, ldaを使ったツイッターユーザーの類似度計算メモ。 tfidf, lsi, ldaを使ったツイッターユーザーの類似度計算ツイッターの@ts_3156のフォロー情報を使って、ツイッターユーザーの類似度計算を行いました。結論だけ先に書いておくと、プロフィール情報だけを使って類似度計算を行なっても、全然いい結果にはならないです(^^) その理由あれこれは下の方に書いてあります。「じゃあ、正確なツイッターユーザーの類似度計算はどうやればいいの？」についても下の方に書いておきました(^^) 今回書いたプログラムは、ツイッタープロフィールだけでなく文章集合の類似度計算全般に使えるので、よかったら各自で何かしら使ってみてください(^^) サンプルコードの動作環境 python2.7(2系なら何でもOKかも) もしない場合は、「yum install python27」でイン

zmsgnk 2016/10/07

gensim

リンク

tfidf、LSI、LDAの違いについて調べてみた

tfidf、LSI、LDAの意味、違いを調べるために、それぞれの形式のコーパスの中身を調べてみた。そのメモ。前回のおさらい前回の記事では、もっとも基本的なコーパスの中身を確認してみました。その結果、「コーパスとは、文章集合をベクトル空間に変換したもの」いうことが分かりました。今回は、基本的なコーパス以外の複数のコーパス、特に、tfidf、LSI、LDAで用いるコーパスについて、基本的なコーパスとは何が違うのかを調べます。その結果分かったコーパスの違いから、各モデルの違いを理解することを目標とします。 gensimに実装されたtfidfのコーパスの中身を見てみました今回は、「Topics and Transf ormations」を参考に進めていきます。 >>> import logging >>> logging.basicConfig(format='%(asctime)s : %

zmsgnk 2016/10/07

gensim

リンク

コーパスの意味について調べてみた【ら、ベクトル空間だということが分かった】

コーパスが何なのか分からなかったので、コーパスの意味を調べてみた。そのメモ。コーパスとは？の疑問に答えられるようになることがこの記事の最終目標です。 gensimに実装されたコーパスの中身を見てみましたコーパスの意味を知るには、コーパスをprintしてみて実際のデータ構造を見るのが手っ取り早そうです。そのために、gensimに実装されたコーパスの中身を見てみることにしました。 gensimのチュートリアル通りに進みます。今回見るのは、「Corpora and Vector Spaces」です。実際のコードを追っていきます。 >>> import logging >>> logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) # フォーマットしたprintの

zmsgnk 2016/10/07

gensim

リンク

http://blog.yuku-t.com/entry/20110623/1308810518

zmsgnk 2014/10/10

リンク

PythonでBag of WordsとSVMを使ったタイトルのカテゴリ分類 - stMind

cc licensed ( BY ) flickr photo shared by Loco Steve 週末に試そうのコーナー。ちょうど良いチュートリアルがあったので、データセットを用意してやってみました。問題 How can I get a computer to tell me what an article is about (provided methods such as bribery and asking politely do not work)? ある記事が何について書かれているのか、コンピュータに理解させるにはどうすれば良いか? チュートリアルでは手動で作ったデータを使って犬もしくはサンドイッチの2クラス分類をしています。ここでは、Google NewsでiPadのニュース、ソチ五輪のニュースとカテゴリ分けされている記事のタイトルを使って、あるタイトルがiPa

zmsgnk 2014/10/01

リンク

はてなブックマーク

タグ

関連タグで絞り込む (10)

gensimに関するzmsgnkのブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス