rishidaのブックマーク - はてなブックマーク

集合とかベクトルの類似度の計算のメモ - 唯物是真 @Scaled_Wurm

Pythonで実装する類似度計算 - Screaming Loud #1283. 共起性の計算法 ↑この辺りの記事を見て、集合とかベクトルの類似度の計算の記事を下書きのまま放置していたことを思い出したので書き上げた。類似度の計算のコードを書いたのでそれを載せるだけにしようかと思ったのですが、知っている人にしか伝わりそうにないので自然言語処理でよく使う話の概要だけでも書いときます。導入自然言語処理の分野では単語の意味を比較するときに、ある単語の周り(文脈)に出てきた単語のベクトル(文脈ベクトル)の類似度を計算することがある。これは「ある単語の意味はその周囲に出現する単語によって特徴づけられている」という仮説に基づいていて、文脈ベクトルが似ていれば似たような意味、似たような状況で使われる単語が多いということが言えるからである。 Distributional semantics - Wi

rishida 2015/07/22

リンク

論文紹介 “Discriminative Learning with Natural Annotations: Word Segmentation as a Case Study” (ACL 2013) - 唯物是真 @Scaled_Wurm

"Discriminative Learning with Natural Annotations: Word Segmentation as a Case Study" (pdf) 研究室で論文紹介したので以下に資料を貼っておきます。図表は論文中から引用しています何故か研究室での論文紹介は、資料が英語で口頭説明が日本語なので、以下では日本語の説明を加えました。英語が間違っている部分があると思いますが、コメントで指摘なりスルーするなりしてください。スライドはこうした方がいいとかもあったらぜひ。論文紹介概要中国語の単語分割がこの論文のタスク。中国語や日本語などの言語では、単語の区切りに空白を入れていないため、文字列を単語に分解する処理が必要になる。これらのタスクでは人手による教師ありデータが必要になることが多いが、そのようなデータの構築や更新には大きなコストがかかるこの研

rishida 2015/07/22

教師データ作成なし（Webのタグを使った）の中国語の単語分割がこの論文のタスク。

リンク

日本語形態素解析器のイメージ - 唯物是真 @Scaled_Wurm

前にこんなツイートをしたけどもうちょっとちゃんとメモっておくゆるふわカジュアル勢()なので内容に間違ってる点があったら教えてくださると嬉しいです勝手なイメージだと、MeCab →一番使われてる。速い。辞書を弄くるのが簡単。いろいろ移植されてる。Juman→出力が詳しい。代表表記に正規化できる。KNPを使うときはこれ。KyTea→新しくていろいろ更新されてる。読みの推定ができる。部分的タグ付けによるドメイン適応ができる。— 無限猿(id:sucrose)@12月病 (@Scaled_Wurm) October 22, 2014 大雑把に言うと形態素解析では文章を単語+品詞の列に分解するいわゆる学校でならった文法とは違う文法を使っているので注意が必要ただし形態素解析器によって品詞体系や辞書に載っている単語が異なる形態素解析器では単語や品詞の列にコストが計算できるようになっていて、そ

rishida 2014/12/26

リンク

Python用のトピックモデルのライブラリgensim の使い方(主に日本語のテキストの読み込み) - 唯物是真 @Scaled_Wurm

gensimは前に以下の記事でも使ったPython用のトピックモデルなどの機能があるライブラリです。小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm 以前紹介した以下の論文でもgensimが使われていました論文紹介 “Representing Topics Using Images” (NAACL 2013) - 唯物是真 @Scaled_Wurm deep learningで話題になったword2vecの機能も取り入れてたりして面白いライブラリです Radim Řehůřek : Deep learning with word2vec and gensim 入力の作り方がすこしわかりにくいかなぁと思ったので、メモっておきます。コーパスの作り方以下の公式の例で説明しますこの例ではリスト内のそれぞれの要素が1つの文書となります

rishida 2013/11/05

2013-10-29 Python用のトピックモデルのライブラリgensim の使い方(主に日本語のテキストの読み込み) 自然言語処理 gensimは前に以下の記事でも使ったPython用のトピックモデルなどの機能があるライブラリです。小説家になろうの

リンク

Python で疎行列(SciPy) - 唯物是真 @Scaled_Wurm

疎行列とは疎行列は成分のほとんどがゼロである行列のことです。たとえば、文書に登場する単語の頻度を数えたりするとこういった行列になります。他にも疎なグラフの隣接行列は疎行列になります。こういった行列は通常の行列(密行列)を使うよりも、少ないメモリで処理できたり、高速に処理できたりすることがあります。疎行列 - Wikipedia 例えば簡単な例として上の行列を考えます。この時すべての成分を保存するには個分の数値のメモリが必要になります。しかし上の行列では非ゼロの要素は3個だけです。この3個について、以下のように行と列の位置と値だけを覚えておけばとなりすべての成分を記憶しておくよりも効率的なことがわかると思います。疎行列の種類上では単純な例を示しましたが、実際の疎行列はそれぞれ特徴の異なる様々な表現手法が用いられていて、SciPyにも以下のような種類の疎行列が実装されていま

rishida 2013/06/04

疎行列の扱い方

python

リンク

pythonの機械学習ライブラリscikit-learnの紹介 - 唯物是真 @Scaled_Wurm

scikit-learn(sklearn)の日本語の入門記事があんまりないなーと思って書きました。どちらかっていうとよく使う機能の紹介的な感じです。英語が読める方は公式のチュートリアルがおすすめです。 scikit-learnとは？ scikit-learnはオープンソースの機械学習ライブラリで、分類や回帰、クラスタリングなどの機能が実装されています。また様々な評価尺度やクロスバリデーション、パラメータのグリッドサーチなどの痒いところに手が届く機能もあります。インストール scikit-learnの他にもnumpyとかscipyとかが必要です。 Windows 64 bit版の人は以下のURLに色々なインストーラーがおいてあるのでおすすめ Python Extension Packages for Windows - Christoph Gohlke その他の人は以下のURLを見て

rishida 2013/05/25

scikit-learn(sklearn)の日本語の入門記事があんまりないなーと思って書きました。どちらかっていうとよく使う機能の紹介的な感じです。英語が読める方は公式のチュートリアルがおすすめです。 scikit-learnとは？ scikit-learnは

リンク

小説家になろうのランキングをトピックモデルで解析(gensim) - 唯物是真 @Scaled_Wurm

小説家になろうというWeb小説投稿サイトがあります。いわゆるライトノベル的な作品が多いのですが、近年書籍化される作品が多く出ていて注目を集めています。続々と「小説家になろう」から書籍化作品が登場！ - フラン☆Skin はてな支店小説を読もう！ || 小説ランキング[累計]の上位100件を解析して、どんな作品が多いのか調べてみました。解析手法トピックモデルというものを用います。これは文書が何のトピックを含むかを推定してくれるモデルで、他にもトピックの代表的な単語などもわかります。 Pythonでトピックモデルを使えるライブラリの一つであるgensim: Topic modelling for humansを使います。 gensim gensimはLDAやLSIなど複数のトピックモデルを実装しています。今回はLDA(Latent Dirichlet Allocation)という

rishida 2013/04/28

このテキストの描画方法を知りたい

python

リンク

はてなブックマーク

タグ

ブックマーク / sucrose.hatenablog.com (7)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス