タグ

NLPに関するr_onodrのブックマーク (15)

  • PythonでMeCabの制約付き解析を使う - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? MeCabには制約付き解析という機能がありますが、これについて説明している記事がほとんどなかったので手探りで試してみました。 MeCab 0.996 Python 3.4 mecab-python3 0.7 制約付き解析とは 入力文の一部の形態素情報が既知である、あるいは境界がわかっているときに、 それを満たすように解析する機能です。 たとえば、「にわにはにわにわとりがいる。」という文に対して、「はにわ」の部分が名詞であるとか、「にわとり」の部分が一つの形態素であるというように指定した上で解析することができます。このとき、制約に反する4

    PythonでMeCabの制約付き解析を使う - Qiita
  • RakutenMAによる形態素解析入門 - あんちべ!

    概要 稿はRakutenMAというJavaScriptだけで動く学習器付きの形態素解析器を利用する入門記事です。記事を読了すると、形態素解析の実行と形態素解析のモデルを作成・更新出来るようになります。 また、稿ははてな×PC工房との連動企画の補足をするべく書きました。 「あんちべさんと一緒に Rakuten MA で形態素解析はてなニュース連動企画 第二弾! : パソコン工房 パソコン工房のPCで遊ぼう第2弾! あんちべさんと一緒に Rakuten MA で形態素解析 - はてなニュース RakutenMAを利用したエディタ判定器デモ エディタ判定器 :パソコン工房 【やじうまWatch】Emacs派とVim派の対立を煽る「エディタ判定器」が面白いと評判 -INTERNET Watch はじめに 近年、twitterやFacebookなどのSNSAmazonのレビューなどから得ら

    RakutenMAによる形態素解析入門 - あんちべ!
  • 感情辞書 - PukiWiki

    単語の感情値:0~1の値 単語の感情値が1に近い場合,単語の感情が「楽しい」「うれしい」「のどか」に寄る.(例:「初受賞」「勝つ」「ひなまつり」) 単語の感情値が0に近い場合,単語の感情が「悲しい」「怒り」「緊迫」に寄る.(例:「偽装」「死刑」「拘束する」) ↑ 構築原理 † 「ある感情を有する単語はその感情を表現する感情語群と共起しやすく,逆の感情を表現する感情語群とは共起しにくい」という仮定のもと, 新聞記事データを用いて,ある単語と対比的な感情を有する2 つの感情語群との共起の仕方を調べ,数値化したものを,その単語の感情値として感情辞書に登録する. ↑ 感情軸の設定 † 任意の感情軸を構成できるが,代表的なものとして3軸の感情辞書と4軸の感情辞書があげられる. 3軸の設定: 楽しい⇔悲しい,うれしい⇔怒り,のどか⇔緊迫 感情特性を多変量解析手法を用いて分析することにより,感情語

  • GitHub - saffsd/langid.py: Stand-alone language identification system

    langid.py is a standalone Language Identification (LangID) tool. The design principles are as follows: Fast Pre-trained over a large number of languages (currently 97) Not sensitive to domain-specific features (e.g. HTML/XML markup) Single .py file with minimal dependencies Deployable as a web service All that is required to run langid.py is >= Python 2.7 and numpy. The main script langid/langid.p

    GitHub - saffsd/langid.py: Stand-alone language identification system
  • TokyoWebmining - TokyoWebmining カテゴリ別発表資料

    Simple GAによる広告出稿最適化(@takenotabiさん) 30分でわかる広告配信エンジンの作り方(BTからコンテキスト広告まで)(@yamazさん) 安全にスケールするログ解析システム構築の勘所(@yamazさん) お金をかけず広告配信のログ分析システムを作った話(@karubiさん) エンジニアのためのアドテクノロジー再入門:アドテクの基礎からRealTimeBiddingまで(@jazzyslideさん) Optimizing for conversion in display advertising campaigns(@tsubosakaさん) リアルタイム広告システム最前線(@yamazさん) 広告クリエイティブの最適化の実際(@kan_yukikoさん) LT: インターネット広告代理店の現場におけるデータ分析探訪 (@hokagawaさん) LT: ビジネスレベル

  • NLP 100 Drill Exercises - 東北大学 乾研究室 / Inui Lab, Tohoku University

    言語処理100ノックについて † 言語処理100ノックは,言語処理を志す人を対象とした,プログラミングのトレーニング問題集です. 乾・岡崎研の新人研修勉強会の一つであるLearning Programmingで使われています. このトレーニングは,以下の点に配慮してデザインされています. 自然言語処理の研究を進める上で,一度は書いておいた方がよいプログラム 統計,機械学習,データベースなどの便利な概念・ツールを体験する 実用的で,かつワクワクするようなデータを題材とする 研究を進めるうえで重要なプログラミングのルール・作法を身につける モジュール性や組み合わせを考慮しつつ,短くてシンプルなプログラムを書く プログラムの動作を確認(デバッグ)しながらコーディングする 労力を節約する(既存のツール/プログラム/モジュールが使えるときは流用する) 計算資源(メモリ・実行時間)を無駄にしない方

  • はてなID

    はてなIDは、はてなの様々なサービスで使用するアカウントです。

    はてなID
    r_onodr
    r_onodr 2014/05/14
  • 言論マッププロジェクト 東北大学乾・岡崎研究室

    言論マップ生成課題:着目言論を論理空間に位置づける ウェブ上には大量のテキスト情報が存在し、そこでは様々なトピックに関して多角的な意見が述べられている。 情報検索技術の発展により、あるトピックに関連する文書集合を容易に入手できるようになった。 しかしながら、これらの文書に記述されている情報は、そのすべてが真実というわけではなく、不正確な記述、 偏りのある意見、陳腐化した情報などが混在している可能性が非常に高い。 そのため、あるトピックに対する言論の集合を俯瞰するためには、ユーザは、個々の言論の信憑性や有効性を 適切に判断する作業を繰り返すことを強いられる。 しかし、限られた時間で各言論の信憑性を判断し、言論間の構造を把握することは容易ではない。 これらの作業の実行に関してユーザを支援するシステムが必要である。 このような背景により我々は、ユーザが着目したある言明に関するトピックの文書集合か

    r_onodr
    r_onodr 2014/05/10
  • 社内輪読会で「Topical Keyphrase Extraction from Twitter」を紹介した - skozawa's blog

    会社で最近始まった論文の輪講で担当だったので、発表をした。 論文はできるだけ自分の分野のトップカンファレンスから選ぶということだったので、自然言語処理の国際会議のACLから論文を選んで紹介した。 今回紹介したのは、少し古いけど、ACL2011からTopical Keyphrase Extraction from Twitter 参加してる人はそれぞれ分野が違うので、どの部分をどの程度説明すればいいかが難しい。 内容 内容はTwitterからトピックのキーフレーズを抽出する手法の提案で、提案は主に以下の2点 Context-sensitive Topical PageRank によるキーワードスコアリング relevanceとinterestingnessを用いたキーフレーズスコアリング 紹介したものを少し修正したものをアップした。 感想 1つ目はスコアリングの際にトピックを考慮することによ

    社内輪読会で「Topical Keyphrase Extraction from Twitter」を紹介した - skozawa's blog
  • NLTKのplotで日本語を使う方法 - Qiita

    出力結果 概要 NLTK(自然言語処理用ライブラリ)のplot機能(グラフ出力)で、日語が使えるようにする。 オライリー「入門 自然言語処理」(->英語版[無料])のPython による日語自然言語処理の章で、 "ただし、 matplotlib では、標準では日語が文字化けしてしまうことに注意。"とあるが、 対処法が見当たらないので、自前で対処した。 前提知識 -> Python による日語自然言語処理 環境 LinuxMint13(Ubuntu12.04) コード # !/usr/bin/env python # -*- coding: utf-8 -*- import sys reload(sys) sys.setdefaultencoding('UTF-8') import MeCab import nltk from numpy import * from nltk.co

    NLTKのplotで日本語を使う方法 - Qiita
  • Negative/Positive Thinking

    はじめに 焼きなまし法について、問題へ適用する際のメモ。 焼きなまし法とは Simulated Annealing, SA 物理現象の焼きなましのコンセプトを組み合わせ最適化問題の探索過程に導入した、確率的近似解法の一つ 現在の解の近傍から良い解に移動することを繰り返す「局所探索」に対して、悪くなる解への移動を繰り返し回数や悪化の度合いに依存する確率で許すことで、局所最適解から脱出することがポイント 以前のメモ http://d.hatena.ne.jp/jetbead/20111014/1318598381 http://d.hatena.ne.jp/jetbead/20120623/1340419446 疑似コード x:=初期解, T:=初期温度, R:=初期イテレーション回数 while 終了条件 do begin for i:=1 to R do begin y:=近傍解の一つ(y

    Negative/Positive Thinking
  • 単語の数学的表現メモ - Negative/Positive Thinking

    はじめに 単語をベクトルや確率分布などの数学的表現で扱いたい場合があったりする。 しかし、「どのようなベクトル・確率分布にすべきか?」などはタスクに依存したりして、自明じゃない。 たくさんあって、派生や新しいものもどんどんでていると思うので、どんなものがあるか調べたかぎりメモ。 One hot表現 各次元が「その単語か否か」を表すベクトルで表現 次元の大きさ=ボキャブラリ数 例: スカイツリー = (「船」か否か, 「スカイツリー」か否か, ... ) = (0,1,0,...) 素性のどれか1つしか1にならなくてスパースネスの問題がでる 未知語はゼロベクトルになってしまう 文字nグラムによる表現 単語の表層から得られる情報を利用 単語に出現している文字nグラムを利用 カタカナ語とか有効そう 例: スカイツリー = (「スカ」の出現回数, 「カイ」の出現回数, 「イツ」の出現回数, 「アア

    単語の数学的表現メモ - Negative/Positive Thinking
    r_onodr
    r_onodr 2014/04/29
  • 簡単で効率的♪ Pythonをつかって、Nグラム表をささっと作成する - Men talking over coffee with smoking Ark Royal.

    前回に引き続き、Nグラムの話です。タイトルをクックパッドぽくしてみました。nグラム表を作って、そこからフレーズを取り出してみます。以下の文献を参考にしました。 長尾眞, 森信介, 1993, 「大規模日語テキストのnグラム統計の作り方と語句の自動抽出」, 情報処理学会研究報告. 自然言語処理研究会報告 93(61), 1-8 1993年の文献だけあって、「処理能力が向上」、「64MBのメモリ」などなど懐かしさこみあげる文言が踊っています。それだけあって、いかに効率的にやるかという点に焦点があてられています。やはり、人の営為を研ぎ澄ませるのはいつでも制約条件ですね。 まずは下ごしらえです。L文字の文章資源を、i=1,2..文字目からL文字目までのLの文字列にして、それを辞書順にソート、前後の文字列が何文字目まで同一かを調べます。 from collections import defau

    簡単で効率的♪ Pythonをつかって、Nグラム表をささっと作成する - Men talking over coffee with smoking Ark Royal.
  • 大規模日本語テキストのnグラム統計の作り方と語句の自動抽出 | CiNii Research

  • http://plata.ar.media.kyoto-u.ac.jp/mori/research/public/IPSJ98Jul.pdf

    r_onodr
    r_onodr 2014/04/21
    nグラム統計によるコーパスからの未知語抽出 - 京都大学
  • 1