[B! NLP] r_onodrのブックマーク

PythonでMeCabの制約付き解析を使う - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? MeCabには制約付き解析という機能がありますが、これについて説明している記事がほとんどなかったので手探りで試してみました。 MeCab 0.996 Python 3.4 mecab-python3 0.7 制約付き解析とは入力文の一部の形態素情報が既知である、あるいは境界がわかっているときに、それを満たすように解析する機能です。たとえば、「にわにはにわにわとりがいる。」という文に対して、「はにわ」の部分が名詞であるとか、「にわとり」の部分が一つの形態素であるというように指定した上で解析することができます。このとき、制約に反する4

r_onodr 2015/01/13

リンク

RakutenMAによる形態素解析入門 - あんちべ！

概要本稿はRakutenMAというJavaScriptだけで動く学習器付きの形態素解析器を利用する入門記事です。本記事を読了すると、形態素解析の実行と形態素解析のモデルを作成・更新出来るようになります。また、本稿ははてな×PC工房との連動企画の補足をするべく書きました。「あんちべさんと一緒に Rakuten MA で形態素解析」はてなニュース連動企画第二弾！ : パソコン工房パソコン工房のPCで遊ぼう第2弾！あんちべさんと一緒に Rakuten MA で形態素解析 - はてなニュース RakutenMAを利用したエディタ判定器デモエディタ判定器 :パソコン工房【やじうまWatch】Emacs派とVim派の対立を煽る「エディタ判定器」が面白いと評判 -INTERNET Watch はじめに近年、twitterやFacebookなどのSNSやAmazonのレビューなどから得ら

r_onodr 2015/01/08

リンク

感情辞書 - PukiWiki

単語の感情値：0~1の値単語の感情値が1に近い場合，単語の感情が「楽しい」「うれしい」「のどか」に寄る．（例：「初受賞」「勝つ」「ひなまつり」）単語の感情値が0に近い場合，単語の感情が「悲しい」「怒り」「緊迫」に寄る．（例：「偽装」「死刑」「拘束する」） ↑ 構築原理 † 「ある感情を有する単語はその感情を表現する感情語群と共起しやすく，逆の感情を表現する感情語群とは共起しにくい」という仮定のもと，新聞記事データを用いて，ある単語と対比的な感情を有する2 つの感情語群との共起の仕方を調べ，数値化したものを，その単語の感情値として感情辞書に登録する． ↑ 感情軸の設定 † 任意の感情軸を構成できるが，代表的なものとして3軸の感情辞書と4軸の感情辞書があげられる． 3軸の設定：　楽しい⇔悲しい，うれしい⇔怒り，のどか⇔緊迫感情特性を多変量解析手法を用いて分析することにより，感情語

r_onodr 2014/11/30

NLP
感情

リンク

GitHub - saffsd/langid.py: Stand-alone language identification system

langid.py is a standalone Language Identification (LangID) tool. The design principles are as follows: Fast Pre-trained over a large number of languages (currently 97) Not sensitive to domain-specific features (e.g. HTML/XML markup) Single .py file with minimal dependencies Deployable as a web service All that is required to run langid.py is >= Python 2.7 and numpy. The main script langid/langid.p

r_onodr 2014/11/28

リンク

TokyoWebmining - TokyoWebmining カテゴリ別発表資料

Simple GAによる広告出稿最適化(@takenotabiさん) 30分でわかる広告配信エンジンの作り方(BTからコンテキスト広告まで)(@yamazさん) 安全にスケールするログ解析システム構築の勘所(@yamazさん) お金をかけず広告配信のログ分析システムを作った話(@karubiさん) エンジニアのためのアドテクノロジー再入門：アドテクの基礎からRealTimeBiddingまで(@jazzyslideさん) Optimizing for conversion in display advertising campaigns(@tsubosakaさん) リアルタイム広告システム最前線(@yamazさん) 広告クリエイティブの最適化の実際(@kan_yukikoさん) LT: インターネット広告代理店の現場におけるデータ分析探訪 (@hokagawaさん) LT: ビジネスレベル

r_onodr 2014/06/02

リンク

NLP 100 Drill Exercises - 東北大学乾研究室 / Inui Lab, Tohoku University

言語処理100本ノックについて † 言語処理100本ノックは，言語処理を志す人を対象とした，プログラミングのトレーニング問題集です．乾・岡崎研の新人研修勉強会の一つであるLearning Programmingで使われています．このトレーニングは，以下の点に配慮してデザインされています．自然言語処理の研究を進める上で，一度は書いておいた方がよいプログラム統計，機械学習，データベースなどの便利な概念・ツールを体験する実用的で，かつワクワクするようなデータを題材とする研究を進めるうえで重要なプログラミングのルール・作法を身につけるモジュール性や組み合わせを考慮しつつ，短くてシンプルなプログラムを書くプログラムの動作を確認（デバッグ）しながらコーディングする労力を節約する（既存のツール／プログラム／モジュールが使えるときは流用する）計算資源（メモリ・実行時間）を無駄にしない方

r_onodr 2014/05/24

リンク

はてなID

はてなIDは、はてなの様々なサービスで使用するアカウントです。

r_onodr 2014/05/14

R
NLP

リンク

言論マッププロジェクト東北大学乾・岡崎研究室

言論マップ生成課題：着目言論を論理空間に位置づけるウェブ上には大量のテキスト情報が存在し、そこでは様々なトピックに関して多角的な意見が述べられている。情報検索技術の発展により、あるトピックに関連する文書集合を容易に入手できるようになった。しかしながら、これらの文書に記述されている情報は、そのすべてが真実というわけではなく、不正確な記述、偏りのある意見、陳腐化した情報などが混在している可能性が非常に高い。そのため、あるトピックに対する言論の集合を俯瞰するためには、ユーザは、個々の言論の信憑性や有効性を適切に判断する作業を繰り返すことを強いられる。しかし、限られた時間で各言論の信憑性を判断し、言論間の構造を把握することは容易ではない。これらの作業の実行に関してユーザを支援するシステムが必要である。このような背景により我々は、ユーザが着目したある言明に関するトピックの文書集合か

r_onodr 2014/05/10

NLP

リンク

社内輪読会で「Topical Keyphrase Extraction from Twitter」を紹介した - skozawa's blog

会社で最近始まった論文の輪講で担当だったので、発表をした。論文はできるだけ自分の分野のトップカンファレンスから選ぶということだったので、自然言語処理の国際会議のACLから論文を選んで紹介した。今回紹介したのは、少し古いけど、ACL2011からTopical Keyphrase Extraction from Twitter 参加してる人はそれぞれ分野が違うので、どの部分をどの程度説明すればいいかが難しい。内容内容はTwitterからトピックのキーフレーズを抽出する手法の提案で、提案は主に以下の2点 Context-sensitive Topical PageRank によるキーワードスコアリング relevanceとinterestingnessを用いたキーフレーズスコアリング紹介したものを少し修正したものをアップした。感想 1つ目はスコアリングの際にトピックを考慮することによ

r_onodr 2014/05/07

twitter
NLP

リンク

NLTKのplotで日本語を使う方法 - Qiita

出力結果概要 NLTK(自然言語処理用ライブラリ)のplot機能(グラフ出力)で、日本語が使えるようにする。オライリー本「入門自然言語処理」（->英語版[無料]）のPython による日本語自然言語処理の章で、 "ただし、 matplotlib では、標準では日本語が文字化けしてしまうことに注意。"とあるが、対処法が見当たらないので、自前で対処した。前提知識 -> Python による日本語自然言語処理環境 LinuxMint13(Ubuntu12.04) コード # !/usr/bin/env python # -*- coding: utf-8 -*- import sys reload(sys) sys.setdefaultencoding('UTF-8') import MeCab import nltk from numpy import * from nltk.co

r_onodr 2014/05/04

nltk
NLP

リンク

Negative/Positive Thinking

はじめに焼きなまし法について、問題へ適用する際のメモ。焼きなまし法とは Simulated Annealing, SA 物理現象の焼きなましのコンセプトを組み合わせ最適化問題の探索過程に導入した、確率的近似解法の一つ現在の解の近傍から良い解に移動することを繰り返す「局所探索」に対して、悪くなる解への移動を繰り返し回数や悪化の度合いに依存する確率で許すことで、局所最適解から脱出することがポイント以前のメモ http://d.hatena.ne.jp/jetbead/20111014/1318598381 http://d.hatena.ne.jp/jetbead/20120623/1340419446 疑似コード x:=初期解, T:=初期温度, R:=初期イテレーション回数 while 終了条件 do begin for i:=1 to R do begin y:=近傍解の一つ(y

r_onodr 2014/04/29

リンク

単語の数学的表現メモ - Negative/Positive Thinking

はじめに単語をベクトルや確率分布などの数学的表現で扱いたい場合があったりする。しかし、「どのようなベクトル・確率分布にすべきか？」などはタスクに依存したりして、自明じゃない。たくさんあって、派生や新しいものもどんどんでていると思うので、どんなものがあるか調べたかぎりメモ。 One hot表現各次元が「その単語か否か」を表すベクトルで表現次元の大きさ＝ボキャブラリ数例: スカイツリー = (「船」か否か, 「スカイツリー」か否か, ... ) = (0,1,0,...) 素性のどれか1つしか1にならなくてスパースネスの問題がでる未知語はゼロベクトルになってしまう文字nグラムによる表現単語の表層から得られる情報を利用単語に出現している文字nグラムを利用カタカナ語とか有効そう例: スカイツリー = (「スカ」の出現回数, 「カイ」の出現回数, 「イツ」の出現回数, 「アア

r_onodr 2014/04/29

NLP

リンク

簡単で効率的♪ Pythonをつかって、Nグラム表をささっと作成する - Men talking over coffee with smoking Ark Royal.

前回に引き続き、Nグラムの話です。タイトルをクックパッドぽくしてみました。nグラム表を作って、そこからフレーズを取り出してみます。以下の文献を参考にしました。長尾眞, 森信介, 1993, 「大規模日本語テキストのnグラム統計の作り方と語句の自動抽出」, 情報処理学会研究報告. 自然言語処理研究会報告 93(61), 1-8 1993年の文献だけあって、「処理能力が向上」、「64MBのメモリ」などなど懐かしさこみあげる文言が踊っています。それだけあって、いかに効率的にやるかという点に焦点があてられています。やはり、人の営為を研ぎ澄ませるのはいつでも制約条件ですね。まずは下ごしらえです。L文字の文章資源を、i=1,2..文字目からL文字目までのL本の文字列にして、それを辞書順にソート、前後の文字列が何文字目まで同一かを調べます。 from collections import defau