タグ

自然言語処理に関するwakizakaのブックマーク (11)

  • 文豪ミキサー

    古今東西の名作小説を、形態素解析とマルコフ連鎖を使ってミックスするよ。 × しくみ | 圧縮新聞 | トップページ | 青空文庫 | 背景素材

  • カイ二乗値で単語間の関連の強さを調べる

    カイ二乗値で単語間の関連の強さを調べる 2007-09-19-1 [Algorithm][Programming] カイ2乗値を使って単語間の関連度を調べる方法。 つまり、関連語を探すときに、χ二乗値を関連度として使う。 perl によるサンプルコード (chiword.pl)。昔、勉強がてら作ったコード。 #!/usr/bin/perl use strict; use warnings; my %cnt; my $pair_num; while (<>) { chomp; next if /^\s*$/; my @list = sort split(/,/, $_); for (my $i = 0; $i < @list; $i++) { for (my $j = $i + 1; $j < @list; $j++) { next if $list[$i] eq $list[$j]; $c

    カイ二乗値で単語間の関連の強さを調べる
  • 「圧縮新聞」を作った - phaの日記

    僕は昔からロボットがロボットなりに変な文章を生成して喋ったりする人工無脳とかそういう仕組みが好きで、最近はそのへんの仕組みを勉強していました。それで大体仕組みの基はわかったので簡単なスクリプトを書いてみたよ。 圧縮新聞 このスクリプトはウェブ上にある新聞社とかのニュースの文章を元にして、バラバラにして圧縮してまとめた文章を作るので、ざっと眺めるだけでその日起こった事件の全体が何となくわかるかもしれません。リロードするたび文章は変わります。 生成例 しょうゆ・みそ業界大手のNOVA(大阪市)が入った郵便小包は、北朝鮮の鉄道網を連結する計画だったらしいことが21日、わかった。タンクに灯油を補給した。検案の結果、財政難などをほとんど与えずに6者協議の外相会議の早期再開に期待を表明した国と製薬会社に賠償を求めた。その後、死亡した。 しくみ こういった人工無脳みたいな文章生成をするには形態素解析

    「圧縮新聞」を作った - phaの日記
  • マイクロソフトも参入、広告分野で注目される人工「無脳」の魅力とは:コラム - CNET Japan

    コンピュータに1980年代以前から親しんでいる人は、「人工無脳」と聞くと、ある種のノスタルジーと共に思い起こすものがあるんじゃないかな。 「何それ?」という人のために少し解説すると、人工無脳というのは一種のお遊びプログラムのことで、チャットで人間と会話をしてくれるロボットのこと。海外ではChatter Botと呼ぶのが一般的みたいだね。 もちろん、会話の精度は高くなくて、「何言ってんだコイツ」とか、「会話が全然なりたってないじゃん」なんて場合がほとんどなんだけど、たまに「おっ!」と思わせるようなことを言ったりして、チャット参加者を楽しませてくれる。 そもそも人工無脳(人工「無能」と表記される場合も多いが筆者は「無脳」という表記で統一している)というのは、開発者たちが「こんなもの人工知能と呼べるレベルじゃなくて、人工無脳だよね(笑)」という謙遜から使われだした言葉なんだ。 「あー、昔よく遊ん

    マイクロソフトも参入、広告分野で注目される人工「無脳」の魅力とは:コラム - CNET Japan
  • evaluative expressions

    評価値表現辞書 (評価表現辞書) はじめに 近年,blogなどを通して個人がネット上に配信する情報の重要性が広く認知 されるようになり,それにともなって,個人の意見をWeb上のテキストから収集,分析する技術への関心が高まっています. 実際に,ここ数年で意見を扱った多くの研究が発表されています (関連研究についてはこちらをご参照ください). 意見の収集,分析には評価をあらわす表現(以下,評価値表現)が手がかりになると考えられます. 我々は,評価値表現はある程度ドメイン横断的に使用可能だと考え,半自動手法を使用しつつ辞書を作成しました. この辞書が意見情報抽出や分析の研究に携わっていらっしゃる方々の手助けになれば幸いです. 評価値表現辞書とは 評価値表現辞書は,評価を表すために使われる可能性のある表現を集めた辞書です. 我々は評価を以下のように定義しています. 評価の主体が評価対象のクラスに対

  • 自分の名前見ててすごいことを発見したwww : にぽたん研究所

    僕の名って、谷口公一っていうんですね。 すごいシンプルな文字です。総画数 15 画です。 自分より総画数が少ないって人には、今まで 6 人しか会ったことがありません。 口と一は、小学校 1 年生で習い、谷と公は、小学校 2 年で習います。 小学校低学年のうちに、名前の全ての漢字を教わってしまうなんて、なかなかないと思いますよ。 谷口公一でググるといっぱい出てきます。 谷口公一 - Google 検索 まさに僕人が割と検索結果の上位に来るのですが、自分と同姓同名の俳優さんだったり、カメラ好きな方だったり、大学生だったり、会社の社長だったり、土木系の技術者だったり、薄消しビデオの販売業者の代表だったり、色々な自分以外の谷口公一さんを見つけられます。 谷口公一って、縦書きにすると 谷 口 公 一 言うまでもなくこうなるんですが、これ、よく見るとなんかカタカナで書けね?とか思うんですね。 ハ

    自分の名前見ててすごいことを発見したwww : にぽたん研究所
  • 「メディア情報処理専修コース」本年度実施コース>自然言語処理技術

    Webなどの電子情報の大規模化に伴って、その解析や検索を行うための自然言語処理技術はますます重要になっています。 コースは、自然言語処理の概要の把握に加えて、比較的標準化された技術・ツールの修得、及びそのための背景知識・基的概念の理解を主眼としています。分野において活発な研究活動を行っている(特に当該ソフトウェアを設計・開発した)講師陣が講義・実習指導を担当します。自然言語処理の研究を始めようとされる方、自然言語処理を用いてアプリケーションを開発予定の方、また言語資料の作成・検索に言語処理ツールの利用を考えておられる方には、貴重な機会になると思います。 企画・運営担当:黒橋禎夫、河原達也(京都大学)

  • Pythonでのキーワード抽出実装

    初出: 2007/6/27 更新: 2007/7/1 文章からキーワードを抽出するスクリプトをPythonモジュールとして実装しました。 分かち書きした上に、適切に複合語をつくり、さらに重要そうなものかどうかのスコアをつけます。 アルゴリズムは、以下のサイトを参考にしました。 http://gensen.dl.itc.u-tokyo.ac.jp/ ここで紹介されている論文 * 中川裕志、森辰則、湯紘彰: "出現頻度と連接頻度に基づく専門用語抽出",自然言語処理、Vol.10 No.1, pp. 27 - 45, 2003年1月 http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/academic-res/jnlp10-1.pdf に掲載されているFLR法のみを実装しています。 実行結果サンプル たとえば、こんなページの文をテキストフ

  • Webstemmer(クローラーツール)

    語サイトでは、具体的な性能は測定していませんが、 以下のようなサイトで正しく動くことがわかっています: アサヒ・コム Nikkei NET Mainichi INTERACTIVE Yomiuri On-line IT media 東京新聞 日刊スポーツ 信濃毎日新聞 livedoor ニュース 使いかた Webstemmer をつかったテキスト抽出は以下のようなステップになります: まず、特定のニュースサイトから種となる HTML ページを多数取得する。 取得したページのレイアウトを学習する。 別の日に、同一のニュースサイトから新しい HTML ページを取得する。 2. で学習した結果をつかって、新しい HTML ページから文を抽出する。 1. および 2. のステップが必要なのは最初の 1回だけです。 ひとたびサイトのレイアウトを学習してしまえば、 あとはレイアウトが大きく変更さ

    wakizaka
    wakizaka 2007/06/21
    pythonで作ったあたりに好感が持てる
  • mixi Engineers’ Blog » mixi日記キーワードランキングの秘密

    皆さん、先月の半ば頃からmixiのトップページの3列目に「日記キーワードランキング」というコーナーが登場していたのをご存じでしょうか。手前味噌ながら、これはとても面白い機能で、毎日ランキングが更新される度に素敵なランキングが作られていて悦に入っているmikioです。今回は日記キーワードランキングの秘密についてお話します。 日記キーワードランキングとは、日記に書かれた言葉の使用頻度を統計的に処理して、今話題になっている度合を算出し、その上位をランキング形式で表示する機能です。トップページには5位までが表示されるので、それをチェックするだけで最新の流行を把握することができます。さらに「30位までを読む」に進むと30位までのキーワードとその関連日記が表示されます。詳細を知りたい場合はキーワードをクリックすると、そのキーワードで日記検索をした結果を見ることができます。一通り見るのに10分くらいでし

    mixi Engineers’ Blog » mixi日記キーワードランキングの秘密
  • スペル修正プログラムはどう書くか

    Peter Norvig / 青木靖 訳 先週、2人の友人(ディーンとビル)がそれぞれ別個にGoogleが極めて早く正確にスペル修正できるのには驚くばかりだと私に言った。たとえば speling のような語でGoogleを検索すると、0.1秒くらいで答えが返ってきて、もしかして: spelling じゃないかと言ってくる(YahooMicrosoftのものにも同様の機能がある)。ディーンとビルが高い実績を持ったエンジニアであり数学者であることを思えば、スペル修正のような統計的言語処理についてもっと知っていて良さそうなものなのにと私は驚いた。しかし彼らは知らなかった。よく考えてみれば、 別に彼らが知っているべき理由はないのだった。 間違っていたのは彼らの知識ではなく、私の仮定の方だ。 このことについてちゃんとした説明を書いておけば、彼らばかりでなく多くの人に有益かもしれない。Google

  • 1