[B! 自然言語処理] katryoのブックマーク

katryo id:katryo

自然言語処理に関するkatryoのブックマーク (31)

提供
githubで公開しています自動的に転送します
katryo 2014/03/18
looks すごく便利

C++

自然言語処理
リンク
教師なしLDAでTwitterのスパム判別をしてみる(予備実験編) - 病みつきエンジニアブログ
※普通は「教師なしLDA」という言い方はしないですモチベーション元々は、TwitterからURLつきのツイートを取りたかった。某ニュースアプリがTwitter上で(？)話題になっているニュース記事を(法的な是非があるとはいえ)配信しており、そんな感じのマイニングがしたかった。ただ、普通に「http,https」でTwitter上で検索すると、量が膨大だった。加えて、ほとんどがスパム。なーにが「このサイトすごすぎｗｗｗｗｗ」じゃ。ということで、検索の段階でスパミーなキーワードを取り除き、純度の高いURL投稿マイニングをしたいわけだが、キーワードは既知なものには限らない。例えば「無料」とか「アフィリエイト」とかがスパムなのはそうなんだけど、「パズドラ」とか「魔法石」とか、未知のキーワードとか出てきた時に対応できない。そこで、教師なし学習のアプローチを使って、スパムなキーワードを抽出す
katryo 2014/02/20
よい知見

LDA

機械学習

自然言語処理
リンク
意見（評価表現）抽出ツール
目次意見（評価表現）抽出ツールとは高度言語情報融合フォーラム（ALAGIN）で公開されているモデルデータと辞書データについて新着事項ご利用にあたっての注意事項ダウンロードツールの実行環境意見（評価表現）抽出ツールの動作確認方法モデルデータの生成このパッケージに含まれているディレクトリ・ファイル解析精度参考文献著作権＆ライセンス付録意見（評価表現）抽出ツールとは本ツールは、国立研究開発法人情報通信研究機構旧知識処理グループ情報信頼性プロジェクトによって開発されたもので、1行につき1文が書かれたテキストファイルを入力として、機械学習を使って何らかの事象に対する意見や評判および評価（以下、これらをまとめて「評価情報」と呼びます）がテキスト中のそれぞれの文に存在するかどうかの判定を行い、その文に評価情報が存在すると認められた場合、以下の情報を出力するツールです。
katryo 2014/02/19
機械学習

自然言語処理

テキストマイニング
リンク
Hiroya's homepage
CV - 研究計算言語学．自然言語処理, 特に機械学習の応用．文書分類，多義語の曖昧性解消，文書要約，テキストの感情情報処理など。著書：「言語処理のための機械学習入門」，コロナ社．サポートページ - 論文・発表・外部予算 (English) - 講義計算言語学（前期木曜日3-4時限開講G311） (※ 現在は開講しておりません) 2014年度講義ページ 2015年度講義ページ 2015年度講義ページ 2016年度講義ページ 2017年度講義ページ Back to the homepage of Okumura-Takamura lab. 高村大也〒226-8503 神奈川県横浜市緑区長津田町4259 東京工業大学科学技術創成研究院未来産業技術研究所奥村高村研究室 phone & fax 045-924-5295 E-Mail : takamura
katryo 2014/02/19
高村先生、大学教授らしからぬ顔立ちしてる

自然言語処理
リンク
評判辞書の中身を覗いてみた - nokunoの日記
先日のにこにこテキストマイニング勉強会で、東工大の高村大也先生の「単語感情極性対応表」が話題になりました。PN Tableそこでこの辞書（仮に評判辞書と呼びます）を覗いてみます。wget http://www.lr.pi.titech.ac.jp/~takamura/pubs/pn_en.dicwget http://www.lr.pi.titech.ac.jp/~takamura/pubs/pn_ja.dicwc pn_ja.dic 55125 59133 1723987 pn_ja.dicwc pn_en.dic 88015 88015 1931411 pn_en.dicnkf -w pn_ja.dic > utf8.dicまず、辞書の上位を見てみると「優れる」を筆頭にポジティブな単語が並んでいます。less pn_ja.dic優れる:すぐれる:動詞:1良い:よい:形容詞:0.9999
katryo 2014/02/19
テキストマイニング

自然言語処理
リンク
overlasting.net
overlasting.net 2019 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy
katryo 2014/02/19
自然言語処理

テキストマイニング
リンク
PPDB:Japanese - 日本語言い換えデータベース
The Paraphrase Database : Japaneseは日英対訳コーパスから学習された日本語の言い換えデータ集です。ダウンロード最新版：PPDB:Japanese 0.0.1 仕様情報一行につき一つの言い換えを示す。 SOURCE:j ||| TARGET:j' ||| (FEATURE=VALUE)* ||| ALIGNMENT フレーズは形態素ごとに半角スペースで区切られ、また言い換え確率もそれぞれP(j'|j)とP(j|j')が半角スペース区切りで与えられます。翻訳された ||| 翻訳 ||| 0.0125435775455 0.00034585476357 ||| 37435 2 56 論文情報以下の情報をご利用ください。水上雅博，Graham Neubig，Sakriani Sakti，戸田智基，中村哲. 日本語言い換えデータベースの構築と
katryo 2014/02/04
これ使えるのでは。ALAGINの上位下位データベースと組み合わせでだいぶ遊べそう

NAIST

自然言語処理

コーパス

データベース
リンク
日本語評価極性辞書 - Open Resources/Japanese Sentiment Polarity Dictionary - 東北大学乾・岡﨑研究室
日本語評価極性辞書（名詞編） † 評価極性を持つ（複合）名詞，約8千5百表現に対して評価極性情報を付与した，人手によるチェック済みのデータ．名詞の評価極性は概ね以下の基準に従う（東山, 2008）．〜である・になる（評価・感情）主観：「○○が〜である・〜になる」ことは，○○をP/Nと評価しているか？ポジティブ：誠実，安寧，親切，中立，名手，英雄，第一人者，幸せネガティブ：弱気，鬱〜である・になる（状態）客観：「〜（という状態）になる」ことは良いことか悪いことか？ポジティブ：合格者，快晴ネガティブ：ガン〜い（評価・感情）主観：「〜い」は良いか悪いか？ポジティブ：美しさネガティブ：弱さ〜する（感情）主観：「〜する」は良い感情か，悪い感情か？ポジティブ：感嘆ネガティブ：失望〜する（出来事）：「〜する」ことは嬉しいことか嫌なことか？ポジティブ：善戦，成就，合格
katryo 2014/01/24
データ

自然言語処理

辞書
リンク
MeCab で UniDic 辞書を使ってみる / 桃缶食べたい。
MeCab で UniDic 辞書を使ってみる MeCab で使える形態素解析用の辞書は、IPA 辞書の他にもいくつか公開されています。そのひとつであるUniDic は、IPA 辞書よりも個々の単語を詳細に分類したもので、分割した形態素が文中で果たす役割をより精密に検出することができます。UniDic はメンテナンスが頻繁に行われているようで、最新版は 1 ヶ月ほど前の 2013/3/14 にリリースされた 2.1.2 になります。ライセンス形態は GPL、LGPL、BSD License のトリプルライセンスとなっていて、その点でも、エンジニアにとっても採用しやすい辞書となっています。今回はこの UniDic を実際にビルドし、MeCab から使ってみることと、辞書の再学習までを試してみました。 MeCab で UniDic を使うUniDic はバイナリ辞書も配布されていますが、ここ
katryo 2014/01/02
mecab

UniDic

自然言語処理

辞書
リンク
UniDic プロジェクト日本語トップページ - OSDN
UniDicとはUniDicは日本語テキストを単語に分割し，形態論情報を付与するための電子化辞書です。 unidic-mecabは形態素解析器MeCabの辞書として利用できます。 UniDicは国立国語研究所の現代日本語書き言葉均衡コーパスにも利用されています。 UniDicの特長国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されています。語彙素・語形・書字形・発音形の階層構造を持ち，表記の揺れや語形の変異にかかわらず同一の見出しを与えることができます。語種をはじめとする言語研究に有用な情報を付与することができます。ライセンス形態素解析辞書としてのUniDicは、Ver.2.0.1以降、完全なフリーソフトウェアになりました。 GPL/LGPL/BSD Licenseのトリプルライセンスです。
katryo 2014/01/02
mecab

UniDec

形態素解析

自然言語処理
リンク
https://alaginrc.nict.go.jp/resources/nictmastar/li-resource-info/li-resource-outline.html
katryo 2013/12/17
自然言語処理

コーパス

言語資源
リンク
Pythonによる文中の単語の共起頻度計算プログラム - be a ninja engineer
先日に引き続き、今回はCvs形式で分割された文中の単語の共起頻度を計算しています。この単語の関連度の抽出には、シンプソン係数を用いています。プログラムはこんな感じ。 # encoding: utf-8 ''' Created on 2010/01/30 ''' import sys import os import re import codecs def main(): '''target = sys.argv[1] if os.path.isdir(target): for root, dirs, files in os.walk(sys.argv[1]): for file in files: file = open(file, 'r') else: file = codecs.open(target, 'r', 'utf-8') ''' freqwords = {} freqp
katryo 2013/12/17
python

自然言語処理

共起度
リンク
Takuya Kitazawa
👋 Hi, I'm Takuya Takuya Kitazawa is a freelance software developer, previously working at a Big Tech and Silicon Valley-based start-up company where he wore multiple hats as a full-stack software developer, machine learning engineer, data scientist, and product manager. At the intersection of techno logical and social aspects of data-driven applications, he is passionate about promoting the ethica
katryo 2013/12/16
自然言語処理

はてなキーワード

形態素解析

igo

igo-ruby
リンク
機械学習ライブラリ scikit-learn で簡単ツイート分類 | ぱろすけのメモ帳
皆様こんにちは。今日も元気に自分を見つめ直していますか？自分を見つめ直す手段として、過去の自分の発言を見返すことは有用だと考えられます。たとえば、Twitter を使っている方ならば、その過去ログを用いることが考えられるでしょう。Twitter の過去ログはライフログとして機能し、それを用いることにより、過去の出来事のみならず、考え方、感じ方、ふとした着想、などなどを読み取ることができます。しかしながら、過去のツイートを全部見返すのは非常に面倒ですね。たとえば僕のアカウントはトータルで4万ツイート以上あります。これは非常にめんどい。Twitter は情報量多くてだるいよね問題については、従来「再生核 Hilbert 空間を用い、脱ベイズ確率主義に立脚したあまりだるくないツイッター」などの試みが行われてきましたが、今なおその面倒さを軽減する手段については十分とはいえません。本記事では、過去の
katryo 2013/11/15
そういえば全ツイートダウンロードやってなかった

python

プログラミング

自然言語処理

機械学習
リンク
論文紹介 “Representing Topics Using Images” (NAACL 2013) - 唯物是真 @Scaled_Wurm
“Representing Topics Using Images", Nikolaos Aletras and Mark Stevenson 研究室で論文紹介したので適当に以下に資料を貼っておく。論文を読んだ後で気づいたけど、NAACL 2013はまだやっていないので、preprintバージョン(？)っぽい。何故か研究室での論文紹介は、資料が英語で口頭説明が日本語なので、以下では日本語の説明を加えておいた。英語が間違っている部分があると思いますが、コメントで指摘なりスルーするなりしてください。スライドはこうした方がいいとかもあったらぜひ。後から読むと説明の流れが変かな？ってところもありますね。論文中の図表ってどの程度載せていいんでしょうか……？やっぱりまったく載せないほうがいいんですかね。論文紹介概要自然言語処理ではトピックモデルというものがよく用いられている。トピ
katryo 2013/11/04
へーすごい。単語と画像で同トピック画像検索したらけっこう高い性能になる

自然言語処理

機械学習

LDA

人工知能
リンク
Negative/Positive Thinking
はじめに焼きなまし法について、問題へ適用する際のメモ。焼きなまし法とは Simulated Annealing, SA 物理現象の焼きなましのコンセプトを組み合わせ最適化問題の探索過程に導入した、確率的近似解法の一つ現在の解の近傍から良い解に移動することを繰り返す「局所探索」に対して、悪くなる解への移動を繰り返し回数や悪化の度合いに依存する確率で許すことで、局所最適解から脱出することがポイント以前のメモ http://d.hatena.ne.jp/jetbead/20111014/1318598381 http://d.hatena.ne.jp/jetbead/20120623/1340419446 疑似コード x:=初期解, T:=初期温度, R:=初期イテレーション回数 while 終了条件 do begin for i:=1 to R do begin y:=近傍解の一つ(y
katryo 2013/10/31
このブログためになる気がする

自然言語処理

機械学習

NLP
リンク
Graham Neubig's Teaching
Classes Spring 2024: Advanced NLP (CS11-711 @ CMU) Fall 2022: Advanced NLP (CS11-711 @ CMU) Spring 2022: Multilingual NLP (CS11-737 @ CMU) Fall 2021: Advanced NLP (CS11-711 @ CMU) Spring 2021: Neural Networks for NLP (CS11-747 @ CMU) Fall 2020: Multilingual NLP (CS11-737 @ CMU) Spring 2020: Neural Networks for NLP (CS11-747 @ CMU) Fall 2019: Machine Translation and Sequence-to-sequence Models (CS1
katryo 2013/10/29
グラム・ニュービッグさんすごい

自然言語処理

機械学習

チュートリアル
リンク
帯2：日本語テキストの難易度推定
難易度の規準には、小中高大の教科書127冊から抽出した1478サンプル、約100万字のコーパス（教科書コーパス）を用いています。プログラムは、まず、それぞれの難易度に対する尤度を、連続する２文字の生起確率（文字bigram）に基づいて計算します。得られた尤度のうち、最大の尤度をとる難易度が、求める難易度となります。実際の難易度の計算は、もう少し複雑です。あるテキストに対して、文字の生起確率から計算された13個の尤度を難易度順にプロットしたのが、下のグラフの点線です。理想的には、なめらかな曲線を描くはずですが、実際には、そうはなりません。そこで、これら13個の値に対して、スムージングを適用します。スムージングによって得られた結果を、青線（４次多項式）および赤線（２次多項式）で示しています。スムージングを適用した結果に対しても、最大の尤度をとる難易度を求めます。こうして、難易
katryo 2013/10/28
unix

プログラミング言語

自然言語処理
リンク
PythonでCaboChaを美味しくいただく
#!/usr/bin/python # -*- coding: utf-8 -*- import CaboCha # c = CaboCha.Parser(""); c = CaboCha.Parser() sentence = "太郎はこの本を二郎を見た女性に渡した。" print c.parseToString(sentence) tree = c.parse(sentence) print tree.toString(CaboCha.FORMAT_TREE) print tree.toString(CaboCha.FORMAT_LATTICE) <PERSON>太郎</PERSON>は-----------D この-D | 本を---D | 二郎を-D | 見た-D | 女性に-D 渡した。 EOS <PERSON>太郎</PERSON>は-----------D この-D | 本を
katryo 2013/10/10
CaboCha

自然言語処理

形態素解析
リンク
上位下位関係抽出ツールを使ってみる - 重要なお知らせ
上位下位関係抽出ツールは Wikipedia のデータから上位下位関係をとってきてデータにしてくれるものなのだが使うのに少し苦労した。ダウンロードして解凍し、フォルダに移動。まず使うとshのエラーが出たので script/ex_hyponymy.sh の一行目を #!/bin/sh から #!/bin/bash に変更。その後実行すると数時間動き続けるのだが、デフォルトの分類器の pecco の、すでにないオプションを指定して結果が出力されずに終わる。上位下位関係抽出ツール自体2010年が最終更新なので pecco のずっと前のバージョンをインストールするか、もしくは動作は遅いが TinySVM のオプションがあるので、こちらを使うのもいい。ただ、公式サイトに書いてあるとおり TinySVM と data3 (大規模な学習データを使って生成)を使おうとすると pecco の5倍以上
katryo 2013/09/09
]

上位下位関係抽出ツー

類語

自然言語処理

研究

ツール
リンク
1 2 次のページ