タグ

2013年7月17日のブックマーク (11件)

  • Rubyで形態素解析 - ほげほげにゃ

    最近そこそこに忙しくてなかなか自由時間がとれないのでコード書きたい欲が大分溜まっています。 そんなところに大学の自然言語処理を扱う授業の輪講の順番が回ってきたので、スライドを作るついでにデモプログラムを書くことにしました。 どうも自然言語処理の分野ではPythonが強くRubyにはあまりライブラリが充実していないらしいのですが、父親から授けられた「まつもとゆきひろ コードの世界」が棚からオーラを放っていたのでRubyで書いてみることに。 やっていること 形態素解析。辞書データをもとに文章をばらばらにします。 NAIST辞書 http://sourceforge.jp/projects/naist-jdic/ から単語のデータをいただいて、見出し語と単語コストだけ抜き出して辞書ファイルを作りました。 それをHashに読み込んで使っています。 以下メソッドの説明。 longestMatch(

    Rubyで形態素解析 - ほげほげにゃ
  • MeCabのコマンドライン引数一覧とその実行例 | mwSoft

    -r --rcfile 使用するリソースファイルを指定する リソースファイルとは、辞書ディレクトリに入っている「dicrc」ファイルを指します。 試しにシステム辞書の「dicrc」ファイルをコピーして、「dicrc2」というファイルを作り、その中の「; simple」の「EOS」を「eos」に書き換えます。するとこんな風になります。 // リソースを指定せずに実行 $ echo テスト | mecab -O simple テスト 名詞-サ変接続 EOS // リソースを改変したdic2に指定して実行 $ echo テスト | mecab -r dicrc2 -O simple -d /usr/local/lib/mecab/dic/naist-jdic テスト 名詞-サ変接続 eos 我が家の環境では、システム辞書ディレクトリをカレントディレクトリとした状態にするか、「-d」でシステム辞書

  • MeCab + Ruby で形態素解析(わかち書き) - (゚∀゚)o彡 sasata299's blog

    2009年09月21日01:32 Ruby MeCab + Ruby形態素解析(わかち書き) 形態素解析という技術をご存知でしょうか。日語を最小単位で単語ごとに分割し、それぞれの単語が名詞なのか動詞なのかを判定してくれるものです。例えば「今日は良い天気ですね」を形態素解析するとこのような結果が得られます。 今日 名詞,副詞可能,*,*,*,*,今日,キョウ,キョー は 助詞,係助詞,*,*,*,*,は,ハ,ワ 良い 形容詞,自立,*,*,形容詞・アウオ段,基形,良い,ヨイ,ヨイ 天気 名詞,一般,*,*,*,*,天気,テンキ,テンキ です 助動詞,*,*,*,特殊・デス,基形,です,デス,デス ね 助詞,終助詞,*,*,*,*,ね,ネ,ネ EOS さらに、文章を単語ごとにスペース区切りにする処理をわかち書きといいます。こんな感じです。 今日 は 良い 天気 です ね この処理は日

  • ベイジアンフィルターで日本語を分類する。 - ザリガニが見ていた...。

    ベイジアンフィルターで日語を取り扱う時に問題になってくるのが、文章を品詞レベルに分解する処理。英語の場合は、文章はスペースで区切られた品詞の集合で構成されるため、余分なことをせずに簡単に処理できる。例えば、'How do I set up an AirPort wireless network?'という文章の場合、ベイジアンフィルターは、スペースで区切られた単語を、分類するための判断材料として自動的に取り込んでくれる。 ところが、日語の場合は、「エアポートの無線ネットワークはどうやって設定しますか?」という文章を、「エアポート の 無線 ネットワーク は どう やっ て 設定 し ます か ? 」のように、品詞をスペースで区切った文章に変換して、ベイジアンフィルターに渡してあげる必要があるらしい。これはすごく高度な作業だ。自分のレベルではどうやっても出来ない。 そこで、この高度な作業を

    ベイジアンフィルターで日本語を分類する。 - ザリガニが見ていた...。
  • Rubyで形態素解析してみた - unnecessary words

    昨日の晩あたりから、形態素解析したい気分だったのでやってみました。 形態素解析というのは以下のようなもの。 対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付きの単語リスト)を情報源として用い、自然言語で書かれた文を形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの品詞を判別する作業を指す。 形態素解析 - Wikipedia 圧縮新聞にも使われているそうです。 「圧縮新聞」を作った - phaの日記 今回は、MeCab(和布蕪)という形態素解析エンジン利用させて頂きました。 Ubuntu環境で実験しましたが、大抵同じような作業で動くと思います。文字コードの指定のみ適時読み替えてください。 ファイルの取得 MeCab体(mecab-0.97.tar.gz)、辞書ファイル(mecab-ipadic-2.7.0-20070801.

    Rubyで形態素解析してみた - unnecessary words
  • テキストマイニングの初歩 Rubyで形態素解析を行う〜ruby-mecab | | Scimpr Blog

    環境 ubuntu server 12.04 英語は単語を空白で区切るのでコンピュータでの解析に向いているが、日語は助詞などを続けて書くのが通常で、さらに続く語によって活用が変化するのでコンピュータでの解析は難しい そこで日語の文章を構成する要素を解析するソフトが必要になる こういうのを形態素解析というらしい 実例を見たほうが早い $ mecab すもももももももものうち すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ の 助詞,連体化,*,*,*,*,の,ノ,ノ うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ EOS

    テキストマイニングの初歩 Rubyで形態素解析を行う〜ruby-mecab | | Scimpr Blog
  • frequently used words picker

  • Rubyチュートリアル ─ 英文小説の最頻出ワードを見つけよう! ─

    4年ほど前にプログラミング初学者だった僕が、無謀にも全17回に渡るRubyの初学者向けチュートリアル記事を書いたことがありました。この記事は当然に難産でしたが(まあ、いつもそうですが…)、記事を書くことを通して僕はRubyについて多くのことを学びました。今この記事を読み返すと、当時の自分の実力以上にがんばって書いているなという印象と共に、その頃からあまり成長していない今の自分に気付かされるのでした。 記事はちょっとユニークな小説風仕立ての序章から始まり、Rubyの特徴を数回を使って簡単に説明して、残りの章で英文小説から最頻出ワードを抽出し出力するチュートリアルを延々と続けていくという構成のものでした。ご存知かも知れませんが、Rubyで最頻出ワードを抽出するコードを書くのは造作ありません。しかしこのチュートリアルでは、最初にできたコードを壊し、これでもかこれでもか、というくらいに改良、時には

  • Free Dynamic DNS(DDNS) by POP3,IMAP4,FTP,HTTP-BASIC for Home Server, VPS | MyDNS.JP

    www.uetyi.mydns.jp is not accessible... Sorry. I do not know why this site is not working. If you know Administrator of this site, please contact directly. You may be able to see it in Google cache. For administrator ... MyDNS.JP did not received IP address from you over One week. Please check your notify system. If you restart notification of IP address, MyDNS.JP will apply your IP address to DNS

  • 【LINE】福岡社屋建設計画に関するお知らせ

    LINE株式会社(社:東京都渋谷区、代表取締役社長:森川 亮)は、この度、福岡社屋を建設することとなりましたので、お知らせいたします。 LINE株式会社では、「LINE」「NAVER」「livedoor」の3ブランドにおいてウェブサービス事業を運営・提供しており、その機軸事業である、無料通話・無料メールスマートフォンアプリ「LINE」は、現在、登録ユーザー数が世界1億9,000万人を突破(2013年7月11日現在)するなど、国内外で急速な成長を続けています。今後、サービス成長をさらに加速させていくため、東京渋谷に構える社に加え、国内第二の拠点として、福岡社屋を建設することとなりました。 福岡社屋では、LINEおよびLINE周辺サービスの開発ラボとしての役割や、アジア地域などへのアクセスの良さを生かしグローバル展開をさらに加速させる役割を担っていく予定です。これに伴い、新規人材採用が不可

    【LINE】福岡社屋建設計画に関するお知らせ
  • 年に一度のLINEイベント「Hello, Friends in Tokyo 2013」を今年も開催!世界同時生中継&ユーザー招待も実施! | LINE公式ブログ

    LINEがこの世に生まれてから約2年が経ち、今では日や世界でたくさんの方にご利用いただいています。すべては、いつもLINEを使ってくださっている皆さんのおかげです。LINEスタッフ一同、心から感謝をしています。ありがとうございます! 約1年前の夏、私たちは「Hello, Friends in Tokyo 2012」というイベントで、LINEの1年目の成果と2年目の目標を発表させていただきました。そして、この夏も昨年に続き、LINEに関わるすべての皆さんにむけたイベント「Hello, Friends in Tokyo 2013」を8月21日に開催します!

    年に一度のLINEイベント「Hello, Friends in Tokyo 2013」を今年も開催!世界同時生中継&ユーザー招待も実施! | LINE公式ブログ