サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
Wikipedia
r-onodr.hatenadiary.org
n-gramsってどう使うのかよく分かんないなー、どうしてGoogle IMEは「灼眼のシャナ」とか「やはり俺の青春ラブコメはまちがっている。」とかをひとつのフレーズとして認識しているのだろう・・・とググっていたら、こんな論文をみつけた。 森信介, 長尾眞, 1998, 「nグラム統計によるコーパスからの未知語抽出」, 『情報処理学会論文誌』, 39:7, 2093-2100. 「品詞ごとに、前後にくる文字にはパターンがある」という仮定に基いて未知語を探すらしい。 名詞の場合、コーパスを分析すると「ご<名詞>の」とか「、<名詞>し」とかいうパターンが多かった、みたいな。 この論文だと、このパターンの辞書を各品詞について作成したあとに、各単語についても同様のパターンを作成して、なんだか最適化問題を解いているのだけど、まず、各単語についてそれぞれ辞書をつくるほどコストを掛けていたら朝になってし
※重回帰モデルについての、小暮厚之先生の講義ノート(2012年)を基にした覚書です。 この記事は、「変数をとりあえず全部入れて回帰分析をして、これとそれが有意だったので、意味のある影響を持つ変数はこれとそれで〜」のような分析を駆逐したいという強い思いから書きました。 赤池先生の情報量基準を使って変数選択をして、真のモデルにできるだけ近づけたモデルから議論をしましょう! 回帰の診断:回帰モデルを推定した後に・・・ 異常な観測値はないか?(外れ値の検出)←前回の内容 変数はすべて適切か?(説明変数の選択[AIC, BIC]、多重共線性)←今回はここをやります。 使用したデータなどは、前回(【重回帰モデル】回帰の診断(1)――異常な観測値はないか?)を参照してください。 AICとその修正版――回帰分析における変数選択の基準 ※R2乗、自由度調整済みR2乗は基準足りえる根拠がない。 AIC(BIC
Freud, S., 1921, Massenpsychologie und Ich-Analyse, (藤野寛訳「集団心理学と自我分析」, 『フロイト全集 17』, 岩波書店, 129-133, 2006年) I 緒言 II ル・ボンによる集団の心の叙述 III ル・ボン以外の集合的な心の生活の評価・検討 IV 暗示とリビード V 二つの人為的な集団 教会と軍隊 VI これに続く課題と仕事の方向性 VII 同一化 VIII 恋着と催眠状態 IX 群棲欲動 ※2011年のはじめにノートにまとめたものをデジタル化してみました。頁数は全集のものです。 I 緒言 「両親や兄弟姉妹、愛する人や友人、教師、医師に対する関係においては、個人が経験するのは、 いつもただ一人の、あるいは、きわめて少数の人間からの影響にすぎない。」130 →「それらの人たちの各々が個人にとって重大な意義を獲得している。」1
Google App Engine上のDjangoでのチュートリアル、「Using Django with Appengine」邦訳 - WebOS Goodiesをやろうとしたところ、チュートリアルで使われているDjangoとGAEのバージョンが古くそのままでは動きませんでした。 色々なサイトを参考にしながら動くところまでこぎつけたので、そのメモです。 ※どのディレクトリのファイルか分かりづらかったのでパスも書きました。 参考サイト GAE - GoogleAppEngine/PythonでDjangoを使う方法 - Qiita まず、GAEに付属しているDjango1.5のあるディレクトリにパスを通します。 $ vim ~/.bash_profile PYTHONPATH = "/usr/local/google_appengine/lib/django-1.5:$PYTHONPATH
「R二乗値なんて神話・信仰の類ですよ!」と先生が仰るものだから、われわれは啓蒙されなければならない、と思い、ちょっと覚書を残しておこうと思います。 本当は、重回帰モデルの診断の話まで書きたかったのですが、それはまた後日…。 (修正済み)R二乗値だけを見て「こんな小さいR二乗値じゃ、駄目だよ」と言う人はたくさんいるらしい。 しかし、そうではない、R二乗値がいくつであれば回帰モデルは妥当か?を、F統計量から判断する、という話です。 これは、R二乗値をF統計量に変換し、それが有意か調べるという方法をとります。 使用するソフトはRです。 F統計量は定数項以外の係数が全て0という帰無仮説のもとで分子の自由度がn-1、分母の自由度がn-KのF分布に従う。 nがKに対して大きいとき、F分布の期待値はほぼ1。 今回、この重回帰モデルを例にみてみます。 修正済みR二乗値が0.335です。なんか小さい気がする
MecabとNLTKを使って最瀕語と共起関係を出力するコードを書きました。 Mecabのインストールについては、Windowsなら結構難なく行くようですが、Mac OSX Lionだととても躓きました。 その辺りの経緯は、mecab-pythonをMac OSX 10.7 Lion、Python2.7にインストールする - Men talking over coffee with smoking Ark Royal.を参考にしてください。 まず、このMeCabで形態素解析を行うコードですが、以前、『入門ソーシャルデータ』勉強会で、Kenji Koshikawa (Kshi_Kshi)さんに頂いた、mecab_library.pyを元にしています(元のリンクが見つけられませんでした、申し訳ございません)。 mecab_library.py # -*- coding: utf-8 -*- im
Twitter感情分析所 さんを利用しようとしたら、結構重たくて、大量の処理を実行するのは申し訳ない…。と思い、じゃあ自分でコードを書いてしまえ、と思い、調べていたところ、東山昌彦, 乾健太郎, 松本裕治, 述語の選択選好性に着目した名詞評価極性の獲得, 言語処理学会第14回年次大会論文集, pp.584-587, 2008.(日本語評価極性辞書)がありました。 日本語評価極性辞書(名詞編)ver.1.0(2008年12月版)pn.csv.m3.120408.trim.gz をダウンロード→解凍し、拡張子に.txtを設定し、適当なエディタで開きます。 Python標準モジュールのcsvで読み込ませるときに、タブ区切りが上手く読み込めなかったので、\tを,に置換して、保存します(Mac OSXの場合、\はoption+\でバックスラッシュを入力)。 また、以下のサイトを参考に、Yahoo!の
入門 自然言語処理 作者: Steven Bird,Ewan Klein,Edward Loper,萩原正人,中山敬広,水野貴明出版社/メーカー: オライリージャパン発売日: 2010/11/11メディア: 大型本購入: 20人 クリック: 639回この商品を含むブログ (44件) を見る苦節一月半、mecab-pythonをMac OSX 10.7 Lion, Python2.7にインストールできました。 時系列で載せます。 まず、Homebrewでmecabと辞書をインストールした(後にアンインストールした)。 以下、mecab-python-0.991との戦いの記録 mecab-python-0.991 r_onodr$ ARCHFLAGS='-arch i386 -arch x86_64' python setup.py build lipo: can't figure out t
追記(2012/09/17):macab-pythonをMac OSX 10.7 Lion, Python2.7にインストールする。 入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック 作者: Matthew A. Russell,奥野陽(監訳),佐藤敏紀(監訳),瀬戸口光宏(監訳),原川浩一(監訳),水野貴明(監訳),長尾高弘出版社/メーカー: オライリージャパン発売日: 2011/11/26メディア: 大型本購入: 18人 クリック: 779回この商品を含むブログ (42件) を見るオライリーの『入門 ソーシャルデータ』を購入したが、p.8で躓いた。 本書の内容だけでは、「英語は文章が単語ごとにスペースで区切られているが、日本語はそうではない」という特性を処理できないのです。 まずぶちあたった問題はMac 0S X 10.6のコンソールでのPython対話型インタプリ
このページを最初にブックマークしてみませんか?
『Men talking over coffee with smoking Ark Royal.』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く