githubで公開しています 自動的に転送します
※普通は「教師なしLDA」という言い方はしないです モチベーション 元々は、TwitterからURLつきのツイートを取りたかった。某ニュースアプリがTwitter上で(?)話題になっているニュース記事を(法的な是非があるとはいえ)配信しており、そんな感じのマイニングがしたかった。 ただ、普通に「http,https」でTwitter上で検索すると、量が膨大だった。加えて、ほとんどがスパム。なーにが「このサイトすごすぎwwwww」じゃ。 ということで、検索の段階でスパミーなキーワードを取り除き、純度の高いURL投稿マイニングをしたいわけだが、キーワードは既知なものには限らない。例えば「無料」とか「アフィリエイト」とかがスパムなのはそうなんだけど、「パズドラ」とか「魔法石」とか、未知のキーワードとか出てきた時に対応できない。 そこで、教師なし学習のアプローチを使って、スパムなキーワードを抽出す
目次 意見(評価表現)抽出ツールとは 高度言語情報融合フォーラム(ALAGIN)で公開されているモデルデータと辞書データについて 新着事項 ご利用にあたっての注意事項 ダウンロード ツールの実行環境 意見(評価表現)抽出ツールの動作確認方法 モデルデータの生成 このパッケージに含まれているディレクトリ・ファイル 解析精度 参考文献 著作権&ライセンス 付録 意見(評価表現)抽出ツールとは 本ツールは、国立研究開発法人情報通信研究機構 旧知識処理グループ 情報信頼性プロジェクトによって開発されたもので、1行につき1文が書かれたテキストファイルを入力として、機械学習を使って何らかの事象に対する意見や評判および評価(以下、これらをまとめて「評価情報」と呼びます)がテキスト中のそれぞれの文に存在するかどうかの判定を行い、その文に評価情報が存在すると認められた場合、以下の情報を出力するツールです。
CV - 研究 計算言語学. 自然言語処理, 特に機械学習の応用. 文書分類,多義語の曖昧性解消,文書要約, テキストの感情情報処理など。 著書:「言語処理のための機械学習入門」,コロナ社.サポートページ - 論文・発表・外部予算 (English) - 講義 計算言語学 (前期木曜日3-4時限開講G311) (※ 現在は開講しておりません) 2014年度講義ページ 2015年度講義ページ 2015年度講義ページ 2016年度講義ページ 2017年度講義ページ Back to the homepage of Okumura-Takamura lab. 高村大也 〒226-8503 神奈川県横浜市緑区長津田町4259 東京工業大学 科学技術創成研究院 未来産業技術研究所 奥村高村研究室 phone & fax 045-924-5295 E-Mail : takamura
先日のにこにこテキストマイニング勉強会で、東工大の高村大也先生の「単語感情極性対応表」が話題になりました。PN Tableそこでこの辞書(仮に評判辞書と呼びます)を覗いてみます。wget http://www.lr.pi.titech.ac.jp/~takamura/pubs/pn_en.dicwget http://www.lr.pi.titech.ac.jp/~takamura/pubs/pn_ja.dicwc pn_ja.dic 55125 59133 1723987 pn_ja.dicwc pn_en.dic 88015 88015 1931411 pn_en.dicnkf -w pn_ja.dic > utf8.dicまず、辞書の上位を見てみると「優れる」を筆頭にポジティブな単語が並んでいます。less pn_ja.dic優れる:すぐれる:動詞:1良い:よい:形容詞:0.9999
overlasting.net 2019 Copyright. All Rights Reserved. The Sponsored Listings displayed above are served automatically by a third party. Neither the service provider nor the domain owner maintain any relationship with the advertisers. In case of trademark issues please contact the domain owner directly (contact information can be found in whois). Privacy Policy
The Paraphrase Database : Japaneseは日英対訳コーパスから学習された日本語の言い換えデータ集です。 ダウンロード 最新版:PPDB:Japanese 0.0.1 仕様情報 一行につき一つの言い換えを示す。 SOURCE:j ||| TARGET:j' ||| (FEATURE=VALUE)* ||| ALIGNMENT フレーズは形態素ごとに半角スペースで区切られ、また言い換え確率もそれぞれP(j'|j)とP(j|j')が半角スペース区切りで与えられます。 翻訳 さ れ た ||| 翻訳 ||| 0.0125435775455 0.00034585476357 ||| 37435 2 56 論文情報 以下の情報をご利用ください。 水上 雅博,Graham Neubig,Sakriani Sakti,戸田 智基,中村 哲. 日本語言い換えデータベースの構築と
日本語評価極性辞書(名詞編) † 評価極性を持つ(複合)名詞,約8千5百表現に対して評価極性情報を付与した,人手によるチェック済みのデータ.名詞の評価極性は概ね以下の基準に従う(東山, 2008). 〜である・になる(評価・感情)主観: 「○○が〜である・〜になる」ことは,○○をP/Nと評価しているか? ポジティブ:誠実,安寧,親切,中立,名手,英雄,第一人者,幸せ ネガティブ:弱気,鬱 〜である・になる(状態)客観: 「〜(という状態)になる」ことは良いことか悪いことか? ポジティブ:合格者,快晴 ネガティブ:ガン 〜い(評価・感情)主観: 「〜い」は良いか悪いか? ポジティブ:美しさ ネガティブ:弱さ 〜する(感情)主観: 「〜する」は良い感情か,悪い感情か? ポジティブ:感嘆 ネガティブ:失望 〜する(出来事): 「〜する」ことは嬉しいことか嫌なことか? ポジティブ:善戦,成就,合格
MeCab で UniDic 辞書を使ってみる MeCab で使える形態素解析用の辞書は、IPA 辞書の他にもいくつか公開されています。そのひとつであるUniDic は、IPA 辞書よりも個々の単語を詳細に分類したもので、分割した形態素が文中で果たす役割をより精密に検出することができます。UniDic はメンテナンスが頻繁に行われているようで、最新版は 1 ヶ月ほど前の 2013/3/14 にリリースされた 2.1.2 になります。ライセンス形態は GPL、LGPL、BSD License のトリプルライセンスとなっていて、その点でも、エンジニアにとっても採用しやすい辞書となっています。 今回はこの UniDic を実際にビルドし、MeCab から使ってみることと、辞書の再学習までを試してみました。 MeCab で UniDic を使うUniDic はバイナリ辞書も配布されていますが、ここ
UniDicとはUniDicは日本語テキストを単語に分割し,形態論情報を付与するための電子化辞書です。 unidic-mecabは形態素解析器MeCabの辞書として利用できます。 UniDicは国立国語研究所の現代日本語書き言葉均衡コーパスにも利用されています。 UniDicの特長国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されています。 語彙素・語形・書字形・発音形の階層構造を持ち,表記の揺れや語形の変異にかかわらず同一の見出しを与えることができます。 語種をはじめとする言語研究に有用な情報を付与することができます。 ライセンス形態素解析辞書としてのUniDicは、Ver.2.0.1以降、完全なフリーソフトウェアになりました。 GPL/LGPL/BSD Licenseのトリプルライセンスです。
先日に引き続き、今回はCvs形式で分割された文中の単語の共起頻度を計算しています。 この単語の関連度の抽出には、シンプソン係数を用いています。 プログラムはこんな感じ。 # encoding: utf-8 ''' Created on 2010/01/30 ''' import sys import os import re import codecs def main(): '''target = sys.argv[1] if os.path.isdir(target): for root, dirs, files in os.walk(sys.argv[1]): for file in files: file = open(file, 'r') else: file = codecs.open(target, 'r', 'utf-8') ''' freqwords = {} freqp
👋 Hi, I'm Takuya Takuya Kitazawa is a freelance software developer, previously working at a Big Tech and Silicon Valley-based start-up company where he wore multiple hats as a full-stack software developer, machine learning engineer, data scientist, and product manager. At the intersection of technological and social aspects of data-driven applications, he is passionate about promoting the ethica
皆様こんにちは。今日も元気に自分を見つめ直していますか?自分を見つめ直す手段として、過去の自分の発言を見返すことは有用だと考えられます。たとえば、Twitter を使っている方ならば、その過去ログを用いることが考えられるでしょう。Twitter の過去ログはライフログとして機能し、それを用いることにより、過去の出来事のみならず、考え方、感じ方、ふとした着想、などなどを読み取ることができます。しかしながら、過去のツイートを全部見返すのは非常に面倒ですね。たとえば僕のアカウントはトータルで4万ツイート以上あります。これは非常にめんどい。Twitter は情報量多くてだるいよね問題については、従来「再生核 Hilbert 空間を用い、脱ベイズ確率主義に立脚したあまりだるくないツイッター」などの試みが行われてきましたが、今なおその面倒さを軽減する手段については十分とはいえません。本記事では、過去の
“Representing Topics Using Images", Nikolaos Aletras and Mark Stevenson 研究室で論文紹介したので適当に以下に資料を貼っておく。 論文を読んだ後で気づいたけど、NAACL 2013はまだやっていないので、preprintバージョン(?)っぽい。 何故か研究室での論文紹介は、資料が英語で口頭説明が日本語なので、以下では日本語の説明を加えておいた。 英語が間違っている部分があると思いますが、コメントで指摘なりスルーするなりしてください。 スライドはこうした方がいいとかもあったらぜひ。 後から読むと説明の流れが変かな?ってところもありますね。 論文中の図表ってどの程度載せていいんでしょうか……? やっぱりまったく載せないほうがいいんですかね。 論文紹介 概要 自然言語処理ではトピックモデルというものがよく用いられている。 トピ
はじめに 焼きなまし法について、問題へ適用する際のメモ。 焼きなまし法とは Simulated Annealing, SA 物理現象の焼きなましのコンセプトを組み合わせ最適化問題の探索過程に導入した、確率的近似解法の一つ 現在の解の近傍から良い解に移動することを繰り返す「局所探索」に対して、悪くなる解への移動を繰り返し回数や悪化の度合いに依存する確率で許すことで、局所最適解から脱出することがポイント 以前のメモ http://d.hatena.ne.jp/jetbead/20111014/1318598381 http://d.hatena.ne.jp/jetbead/20120623/1340419446 疑似コード x:=初期解, T:=初期温度, R:=初期イテレーション回数 while 終了条件 do begin for i:=1 to R do begin y:=近傍解の一つ(y
Classes Spring 2024: Advanced NLP (CS11-711 @ CMU) Fall 2022: Advanced NLP (CS11-711 @ CMU) Spring 2022: Multilingual NLP (CS11-737 @ CMU) Fall 2021: Advanced NLP (CS11-711 @ CMU) Spring 2021: Neural Networks for NLP (CS11-747 @ CMU) Fall 2020: Multilingual NLP (CS11-737 @ CMU) Spring 2020: Neural Networks for NLP (CS11-747 @ CMU) Fall 2019: Machine Translation and Sequence-to-sequence Models (CS1
難易度の規準には、小中高大の教科書127冊から抽出した1478サンプル、約100万字のコーパス(教科書コーパス)を用いています。 プログラムは、まず、それぞれの難易度に対する尤度を、連続する2文字の生起確率(文字bigram)に基づいて計算します。 得られた尤度のうち、最大の尤度をとる難易度が、求める難易度となります。 実際の難易度の計算は、もう少し複雑です。 あるテキストに対して、文字の生起確率から計算された13個の尤度を難易度順にプロットしたのが、下のグラフの点線です。 理想的には、なめらかな曲線を描くはずですが、実際には、そうはなりません。 そこで、これら13個の値に対して、スムージングを適用します。 スムージングによって得られた結果を、青線(4次多項式)および赤線(2次多項式)で示しています。 スムージングを適用した結果に対しても、最大の尤度をとる難易度を求めます。 こうして、難易
#!/usr/bin/python # -*- coding: utf-8 -*- import CaboCha # c = CaboCha.Parser(""); c = CaboCha.Parser() sentence = "太郎はこの本を二郎を見た女性に渡した。" print c.parseToString(sentence) tree = c.parse(sentence) print tree.toString(CaboCha.FORMAT_TREE) print tree.toString(CaboCha.FORMAT_LATTICE) <PERSON>太郎</PERSON>は-----------D この-D | 本を---D | 二郎を-D | 見た-D | 女性に-D 渡した。 EOS <PERSON>太郎</PERSON>は-----------D この-D | 本を
上位下位関係抽出ツールは Wikipedia のデータから上位下位関係をとってきてデータにしてくれるものなのだが使うのに少し苦労した。 ダウンロードして解凍し、フォルダに移動。 まず使うとshのエラーが出たので script/ex_hyponymy.sh の一行目を #!/bin/sh から #!/bin/bash に変更。 その後実行すると数時間動き続けるのだが、デフォルトの分類器の pecco の、すでにないオプションを指定して結果が出力されずに終わる。 上位下位関係抽出ツール自体2010年が最終更新なので pecco のずっと前のバージョンをインストールするか、もしくは動作は遅いが TinySVM のオプションがあるので、こちらを使うのもいい。ただ、公式サイトに書いてあるとおり TinySVM と data3 (大規模な学習データを使って生成)を使おうとすると pecco の5倍以上
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く