意外と知られていないようなので、NLTK BookのSegmentationの節にある教師なし形態素解析(単語分割)について紹介してみます。 この手法では、テキストを「単語の辞書」と「単語IDの列」で表したときにその合計サイズが最小になるように単語分割の位置を最適化します。言い換えれば、単語の出現確率に一様分布を仮定して圧縮したときに、その圧縮効率を最大とするように単語を分割します。持橋さんの研究よりはるかに単純なモデルですが、原理としては近いものになります。最適化にはシミュレーテッドアニーリング(焼きなまし法)を使っていて、適当に初期化してからランダムに単語分割位置を変えて、評価関数にかけて良い結果になったら採用する、という操作を繰り返し行うものです。 NLTK Bookでは、英語のテキストからスペースを取り除いたものを用いて単語を抽出しています。これはかなり恣意的に選ばれたテキストで、
nltkをインポートする import nltk from nltk.book import * ある単語がどのような文脈で使われているか text1.concordance("monstrous") ある単語と同じ文脈で使われる単語にはどんなものがあるか text1.similar("monstrous") 2以上の単語で共通に使われる文脈 text2.common_contexts(["monstrous", "very"]) テキスト中の単語の出現回数や出現場所をプロットする text4.dispersion_plot(["citizens", "democracy", "freedom", "duties", "America"]) テキストのスタイルを元に出鱈目なテキストを生成する text3.generate() 重複を排除する set(text) 頻度分布を取得する fdis
tweetclass.py �� }$V B }$V #!/usr/bin/env python2.6 # coding: utf-8 # Twitter import twitter CONSUMER_KEY = '' CONSUMER_SECRET = '' ACCESS_TOKEN_KEY = '' ACCESS_TOKEN_SECRET = '' def get_twitter_api(): api = twitter.Api(consumer_key=CONSUMER_KEY, consumer_secret=CONSUMER_SECRET, access_token_key=ACCESS_TOKEN_KEY, access_token_secret=ACCESS_TOKEN_SECRET) #api.VerifyCredentials() return api def get_
“I’m always very nervous on stage. A friend gave me the advice: Just think; what would Freddie Mercury do?” Hilarious talk by Aaron Patterson.
能書き 前エントリを書いてからいろいろと調べていて驚いたんだけど、日本語のwebsiteで、それなりにまともにRFC822(RFC2822,RFC5322)に準拠した(もしくはきちんと意図的に準拠していない部分を選択している)正規表現はPerlだろうがPHPだろうがRubyだろうが軽くぐぐった程度では見当たらない。PerlのモジュールのEmail::AddressもEmail::Validも程度の差はあれ問題を抱えている。そこらへんの既存の出回ってる正規表現にどういった問題があるかなんてことは次回エントリにて。 というわけで、Perl、PHP、RubyでRFC5322準拠なメールアドレス(addr-spec)の正規表現を以下に示します。尚、addr-specの最終的な正規表現のみならずそれを作成するに至る部分も併記してあります。これは、最終的な正規表現だけでは難解すぎてとても理解できないか
転職を考える経緯は、現職への不満が起因している事がほとんどです。 「上司や経営陣と考えが合わない」 「個人で実績を出しても、会社の業績が良くないので給料が低い」 「毎日終電が当たり前の長時間労働」 などが代表的な転職理由と言えるでしょう。 ただ、多くの事柄には裏表があります。 上記で言えば、上司や経営陣なりの考え方もあると思いますし、事業領域的に、どうしても個人実績に連動した給料を支払いづらい会社もあります。また、長時間労働で成長出来る人や成果を出してきた会社もあります。 やむを得ないと思われていた退職理由が、見方を変えると、所属している会社の合理的考えを表している場合があります。 それを踏まえた上で転職理由を話さないと、採用する側の企業も、 「当社も状況に合わせて考え方を変えていくので、『朝令暮改』『考えに軸がない』と不満を持ちそう」 「自分のことばかり考えて、会社側の視点がなさそう」
機種固有の問題 まず software.opensuse.org: openSUSE 11.4 のダウンロードから KDE 版ライブ CD をダウンロード、CD-RW に焼き付け、USB 接続の光学ディスクドライブから起動してみました。無線 LAN もすんなりつながり、11.3 ではできなかった Fn+↑・↓でのバックライトの調整も機能します。ハードウェア的には特に問題ない感じです。 次にインストール DVD を焼き、インストールを行ないました。今回はアップグレードではなく、空きパーティションへ新規インストールしました。するとライブ CD では何ともなく使えた無線 LAN デバイスがネットワークインターフェイスとして認識されない感じです。そこで、11.3 の時と同じように packman のリポジトリから broadcom-wl をインストールすると、以前と同じように使えるようになりました
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く