タグ

nlpに関するsfujiwaraのブックマーク (14)

  • ネコでもテキスト分類器のRubyライブラリが生成できる便利ツールを作った - デー

    あまり細かいことは気にせずテキスト分類器のRubyライブラリを1コマンドで自動生成する便利ツールを作りました。 いろいろ迷走している間に。 gem install nekoneko_genでインストールできます。 なにをするものなのか、ちょっと分かりにくいので、例で説明します。 2ちゃんねるの投稿からどのスレッドの投稿か判定するライブラリを生成する 例として、2ちゃんねるに投稿されたデータから、投稿(レス)がどのスレッドのレスか判定するライブラリを生成してみます。 準備 まず gem install nekoneko_genでインストールします。 Ruby 1.8.7でも1.9.2でも動きますが1.9.2のほうが5倍くらい速いので1.9.2以降がおすすめです。 環境は、ここではUbuntuを想定しますが、Windowsでも使えます。(WindowsXP, ruby 1.9.3p0で確認)

    ネコでもテキスト分類器のRubyライブラリが生成できる便利ツールを作った - デー
  • はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知
  • ヤフー、漢字の読みを返す「ルビ振り」API公開

    ヤフーは7月16日、文章中の漢字に読み仮名をつけられるツールのAPI「ルビ振りWebサービス」を公開した。Yahoo!デベロッパーネットワーク(無料)に登録すれば利用できる。 漢字と仮名が交じった文章の漢字の読みを、平仮名やローマ字で返す。小学校の学年を指定して読み仮名を付ける漢字のレベルを設定することも可能だ。例えば「小学校4年生向け」と指定すると、小学校3年生までに習う漢字には読み仮名が付かない。 約50万語を収録した辞書のデータを元に読み仮名を返す。辞書は月1回更新され、流行語や新語が追加されていく。 同社が「Yahoo!きっず」で利用している「よみがなツール」のAPIを公開した。小学生や日語を学習中の人に向けたアプリ、日語のe-ラーニングツールの開発などに活用できるとしている。 関連記事 Yahoo!の日形態素解析エンジンAPIを公開 Yahoo!JAPANで使われている日

    ヤフー、漢字の読みを返す「ルビ振り」API公開
  • Lingua::JA::TFIDFとSearch::Estraierで類似エントリ検索

    Hyper Estraier インストール(3) オリジナル検索エンジンの作成によるとややこしいことしなくてもクローラーとP2Pって連携できる。ちゃんと読んだらクローラガイドにも書いてあった。 というわけでP2Pの設定をしてテストしてみた use Lingua::JA::TFIDF; use Search::Estraier; my $text = q( * 長い労働時間がより多くの成果を生み出す訳ではない。むしろ仕事と生活をうまくブレンドしたほうが生産性が上がる * 仕事人間は過度に会社に期待している、会社も期待しているだろうという思い込む * 生きること(living)と存在していること(existing)は違う * 働きかたを選べるようになるためには、まず自分のスキルを磨く * 少子高齢化で人口減少の社会では終身雇用は機能しない * 効率の良い働きかたの延長線上に豊かな発想は生み出さ

    Lingua::JA::TFIDFとSearch::Estraierで類似エントリ検索
  • 「日本語テキストを分類するベイジアンフィルタ」を簡単につくるyo - download_takeshi’s diary

    数週間前の話になりますが、「はてブのリニューアル会見」の記事を読んでいたところ、はてブにも「自動カテゴライズによる記事分類」の機能が搭載されるとか。。。 同じようなタイミングで「似たようなモノ」というか「ほぼ同じようなモノ」を作っていたので、すごーくインスパイアされてしまいました。ジュワ〜。(アドレナリンの放出音) 数週間たってもいまだ興奮冷めやらぬ状態なので、今日はその件について書いてみようと思います。 Lingua::JA::Categorize - a Naive Bayes Classifier for Japanese document. http://search.cpan.org/~miki/Lingua-JA-Categorize-0.00001/ 「はてブのパクリ」ではありません。「ベイジアンによる日語テキスト分類器」を「簡単に作る」ことを目的としたモジュールです。 も

    「日本語テキストを分類するベイジアンフィルタ」を簡単につくるyo - download_takeshi’s diary
  • Dynamic Programming による類似文字列マッチの実装例

    Dynamic Programming による類似文字列マッチの実装例 2007-01-22-4 [Programming][Algorithm] 「Modern Information Retrieval」(8.6.1 p.216) での Dynamic Programming (DP) の解説のところのアルゴリズムを 素直に Perl で実装したみた。 さらにマッチ箇所取り出しロジックも実装してみた。 # DP はいわゆる「類似文字列検索(あいまい検索)」に使うと 便利なalgorithm。 実は、大学院でも前の会社でも、PerlやらC++やらで実装して使ってた。 単純ながら使い勝手もよく、まさに現場向きかと。 grep 式に頭から見ていくので計算量的にはイマイチなのだが、 転置インデックス検索などで範囲を絞ってから適用すれば実用上問題ない。 ■定義みたいなの Q1. 二つの文字列 "

    Dynamic Programming による類似文字列マッチの実装例
  • 日本語例文検索 JReK を公開!

    語例文検索 JReK を公開! 2008-11-06-1 [Release][Programming] 日語で書かれたウェブページのテキストを巨大な例文集(コーパス) とみなし検索するサイト JReK (ジェイレック)を公開しました。 日語を学んでいる人が、 日語作文する際に役に立つかと思います。 よろしくお願いします。 - 日語例文検索 JReK http://jrek.ta2o.net/ (オシャレでクールで日のイメージがアップしちゃうような カッコいいタイトル画像を募集中です!!!) 英語例文検索 EReK [2007-09-03-1](http://erek.ta2o.net/) の姉妹サイトです。 検索結果の表示方法は、 中心に検索キー、左右にコンテキストを配置する KWIC (KeyWord In Context) です。 ウェブ検索にはYahoo!ウェブサービス

    日本語例文検索 JReK を公開!
  • 集合知プログラミングが凄すぎる件について - プログラマでありたい

    ようやく集合知プログラミングが届きました。まだ30分くらいざっと目を通しただけですが、これだけは言えます。自然言語処理をテーマとして扱う書籍の中で、実用度No.1です。文句なしにお勧めです。これで3,400円は安すぎます。倍の値段であっても買います。 気に入った点といえば、例えばです。2章「推薦を行う」は、所謂リコメンドエンジンをテーマにしているのですが、この方法に複数のアプローチを紹介しつつ解説しています。レコメンドエンジンの代表的な方法に強調フィルタリングというのがあるのですが、この方法は類似スコアを出す必要があります。スコアの出し方に、ユークリッド距離やピアソン相関などの例を挙げ、それぞれの長所短所を述べています。また相関の種類にもユーザ相関とアイテム相関があり、それぞれどのようなデータの時に向いているのか等を解説してくれています。ですので、複数の手法は知っていてもどちらの方が良いか

    集合知プログラミングが凄すぎる件について - プログラマでありたい
  • TermExtract Perlで出来る特徴語抽出 - プログラマになりたい

    PerlのCPANモジュールを使って、簡単にベイジアンフィルターを使う方法を紹介したエントリーが思いのほか好評でした。ベイジアンフィルター Perlで作りたい人に教えてあげたいちょっとしたこと  調子に乗ってもう一つ、お気に入りのCPANモジュールの紹介です。日語の形態素解析といえばMeCabでほぼ間違いないのですが、MeCabはあくまで形態素解析器です。ということで、最小単位の形態素を検出することは出来ますが、連語等は分解されて出てきます。(当はちょっと工夫したら出せるのですが、それはまた次回)例えば、「集合知」という言葉が出てきたら、下のように分解されて出てきます。 集合 名詞,サ変接続,*,*,*,*,集合,シュウゴウ,シューゴー 知 名詞,一般,*,*,*,*,知,チ,チ 使い方にもよりますが、集合知という言葉で取りたい場合も多いと思います。以前、Yahoo!APIと組み合わせ

  • 認知症ケアにおける回想法のメリット

    認知症ケアに回想法を用いることで、さまざまなメリットが得られるということが、研究によって明らかになってきました。例えば、回想法を用いることで高齢者の認知機能の回復が期待できるといいます。高齢者は、最近のことについては忘れがちになる傾向が多く見られます。しかし、過去の思い出や出来事に関しては鮮明に思い出せる場合が多く、その記憶を回想法によって思い出し、自ら語るという行為をすることで認知機能の改善が図られるとされています。それは、認知症の高齢者についても同じことが言えるため、認知症ケアに回想法を取り入れて過去の記憶を掘り起こすことで、脳の働きを活性化する効果が期待できます。 また、回想法には高齢者の精神面を安定させる効果も期待されることから、認知症ケアとしてのメリットは大きいです。認知症をはじめとする記憶障害のある高齢者であっても、昔の出来事などについては鮮明に覚えていて記憶として残っているこ

  • Google Japan Blog: 大規模日本語 n-gram データの公開

    突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

    Google Japan Blog: 大規模日本語 n-gram データの公開
  • GSK2007-C Web日本語Nグラム第1版

    Nグラムは一般に公開されている日語のWebページでGoogleがクロールしたものから抽出されている。ただし、閲覧に特別な認証が必要なページや、metaタグにnoarchive,noindex 等が指定されているページは対象に入っていない。抽出対象となった文数は約200億文で、出現頻度20回以上の1〜7グラムを収録している。 データの詳細については付属のREADMEも参照のこと。

  • Perlで入門テキストマイニング » SlideShare (share powerpoint...

    2. テキストマイニング(1) 評判情報。ポジティブ、ネガティブ • プロフィール。ブロガーの性別、年齢、地域 • そのページに関連した広告とか。 • 関連語。 • もしかして○○? • クラスタリング。グルーピング。 •

    Perlで入門テキストマイニング » SlideShare (share powerpoint...
  • 1