タグ

2015年5月4日のブックマーク (6件)

  • 【正規表現】以外と知らない特定の文字列を含まない正規表現 - 俺のIT

    正規表現と言えば、特定の文字列と一致するものを抽出するものと考えている人が多いだろう。 また、特定の文字列を一致する=特定の文字列を含むという考えの人も多いと思う。 実は、正規表現は、特定の文字列を含まない文字列を抽出することが出来る。 ^(?!.*abc).*$ ?!は、特定の文字列を含まないことを表す正規表現だ。 .*で任意の文字列を表しているため、上記の正規表現は、任意の文字列のあとにabcを含まない文字列となる。 ・一致 ab abz xyz ・不一致 abc abcabc abcz 1abc 他の正規表現と組み合わせてaで始まり、xyzを含まず9で終わるなども表現できる。 ^a(?!.*xyz).*9$

  • フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st

    フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st 2014年12月20日の勉強会「第41回 データマイニング+WEB @東京 (#TokyoWebmining 41st )」で発表させていただく内容です。 KH Coderとはテキストマイニング(内容分析)のためのフリーソフトウェアです。内部では茶筌・MeCab+MySQL+Rを利用しており、これらのツールの機能を統合するためにPerlを使っています。 当日はアンケート自由回答の分析事例を通じて、KH Coderの分析機能をご紹介します。また、非常に手軽なマウス操作でそうした分析が可能なことを、実際にソフトを動かしてのデモからご覧いただきます。加えて、ごくわずかなPerlとRのコードを書くことで、新たな分析機能を追加したり、分析を自

    フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st
    fclout
    fclout 2015/05/04
    これは便利そうだなー。
  • 自然言語(日本語)処理

    トップページ→研究分野と周辺→ 英語、日語のように人間が自然発生的に使って来た言語を自然言語という。これに対し、プログラミング言語等の規則に基づく人工言語を形式言語と呼んで区別する。 日語をコンピュータで処理する場合、その最も基形態素解析がある。 形態素解析→構文解析→意味解析→文脈解析といった、解析の連鎖(解析精度は左から右に移るに連れて下がる)を経て、ようやく自然言語の意味をコンピュータが処理出来るようになる。勿論、国語辞典や文法の知識、一般常識等をデータベース化しておく必要がある(機械処理の日語文法)。 しかし、自然言語は生き物のように変化し、常に新しい言葉、新しい用法も生まれ、一つの言葉が多数の意味を持ったり、その意味が変化したりしている。 人間も実は、言語情報を完全に処理している訳ではなく、多数の解釈の中から最も「妥当な」解釈を判断していると言われる。その「妥当性」をコ

    fclout
    fclout 2015/05/04
    形態素解析はmecabとかのツール使えば一発だけど、構文解析って同じような便利ツールあるのかな。
  • 統計的テキスト解析(3)~形態素と構文解析~

    テキストの計量分析は、研究の視点によって用いる単位が異なる。音韻の視点で計量を行う場合は、音素(Phoneme)、音節(Syllable)などになり、語彙、意味、文体の視点で計量を行う場合は、語(Word)、句 (Phrase)、文(Sentence)、段落(Paragraph)などになる。テキストを計量的に分析するためには、まず何を単位に計量するかを決める必要がある。 日語や中国語のような言語は、英語韓国語のようにテキストが単語や句に分かれず、句読点によって区切られているだけである。したがって、語、文節などを計量するためには、テキストを語や文節などを単位として分割(分かち書き)し、関連の情報を付与しておくことが必要である。 日語においては、意味情報を抽出ためには文字単位より、単語、文節を単位にした方がよいのは周知のことである。 単語について、広辞苑では「文法上の意味・職能を有する、

    fclout
    fclout 2015/05/04
    なるほどね。いろんなツールが出てるのね。
  • 社会人3年目を迎えて、今の自分の境遇を考えてみる - ふくろうのブログ。

    GWは暇ということもあって、何気なくはてブを徘徊していて、以下の記事を読んだ。 GWちょー暇という非リア充にオススメする7つの名スライドbibourock.hatenablog.jp 最近、あまりinputをしてなかった自分にとっては、結構衝撃的な内容。 しょーじき、大学を卒業してから開発をしたい、何かものづくりをしたいと思ってたのに 入社した会社では、開発部門があるにも関わらずそちらには配属されず(人事担当や重役達には散々言ったんだけど・・・) 基盤系の仕事DBの設計とか構築とか)の仕事をさせられてから早2年・・・。 誰も知り合いがいない遠い金沢の地に飛ばされ、(北陸新幹線は通ったけどね!( ー`дー´)キリッ) 車も持っていないので、休日どこかに出かけるということもなく ただ家でゲームばっかり。 この1年間で何のPS3のタイトルをクリアしたことか。 平日は朝から夜中までやりたくもな

    社会人3年目を迎えて、今の自分の境遇を考えてみる - ふくろうのブログ。
    fclout
    fclout 2015/05/04
    衝動的に書いてみた。
  • おカネがないからやりたいことができないと言い訳してたのは、29歳のぼくだった - あしたはもっと遠くへいこう

    「やりたいことがおカネがないからできない」って言いますけど、実はそれ、みっともなく言い訳してるように見えませんか? こんにちは。ワーキングホリデーを終えて、日に帰国してきたまえちゃん@Maechan0502です。 ここ1年間で海外に行きたいと相談されたり、働いている会社の愚痴を聞くことが増えました。当にそういう時に他人から見ると、人って言い訳ばっかり並べてるんだなって思いますよね。 ヨーロッパのとある国に留学に行きたいと語りながら、おカネや会社を理由するして先延ばしにする人を見て、「早く行けばいいのに」と思ってました。 大学生でワーホリする行動力がある女の子が「3年後に海外行きたいけど、まず日で就活します」というのを見て、「そんなん意味ないからやりたいことをやるべきだよ」と心の中でつぶやいてました。 「いやー、ウチの会社、マジでブラックだからうつ病になりそうだよ」という友達を見て、「