タグ

自然言語処理と読み物に関するtorutoのブックマーク (8)

  • 東京大学 大学院 情報理工学系研究科

    コンピュータに英文解析と意味理解の能力を “考えるコンピュータ”も視野に研究を加速 「太郎は花子が好き」、「花子は太郎が愛している人」。この2つの文章は、高校生以上ならほとんど同じ意味だとわかるだろうが、いまのコンピュータには、人間と同じような理解力はない。宮尾助教が目指しているのは、コンピュータが英語文の構造(構文)を解析し、意味を理解する能力を持たせることにある。「英語をはじめ外国語の勉強が嫌いだったので、機械が自動翻訳してくれるようになったらハッピー」という動機で研究を始めてから10年。構文の解析力は高校生レベルまで上がったが、究極の目標である機械翻訳に結びつけるにはまだ大きな山がある。それを乗り越えると、 “考えるコンピュータ”という画期的なシステムも夢ではなくなる。宮尾助教はその姿を描きつつある。 賢い検索や機械翻訳を目指す 文章は主語や目的語、述語などで構成されるが、その文章の

  • Google日本語入力の技術講演会

    Google日本語入力の、公式技術講演会に行ってきた。その次第を書きたいと思う。 今回の会場は、なんと大阪である。そのため、私のように関西圏に住んでいる人間には、参加しやすい。 まず、京都から大阪へ行く。いつも思うのだが、大阪の都市部は、まるでダンジョンだ。地上と歩道橋と地下道があって、一体どこを進んでいいのやらさっぱりわからない。大阪の立体構造を再現して、ゲームとして売り出せば、案外ヒットするのではなかろうか。 さて、受付の始まる時間になったので、会場に向かう。なんと、すでに長蛇の列であった。早くも失敗したか。もっと早くから来ていれば、前の方に座れたかもしれない。軽く失望しつつ受付を済ませると、なんと、一番前の席が、二席だけ開いているではないか。知っての通り、私はそういう性格なので、迷わず一番前に座った。ちなみに、隣の席は空いていたが、何故か誰も座ろうとしなかった。こういうのは、だいぶ性

  • 「しりとり」の戦いかた、すこし反省した - Active Galactic : 11次元と自然科学と拷問的日常

    「しりとり」は経験者人口が極めて多いゲームだけど、鬼神のごとき強さで他を圧倒するしりとりプレイヤーを私は知らない。ちょっと真剣に戦ってみたところで、 そんな程度のレベルで満足していやしないか。 さいしょは「る」の同字返しでガッチリ組み合う。先に「る→る」のストックが切れて、「る」で返せなくなったほうがひたすら「る攻め」で投げられ続ける。 小学生の時から進歩していないような、こんな大雑把でマンネリな「る攻め」戦略から脱却できないものか。 攻撃防御比最大の最強文字「る」 復習。周知の事実だが「る」は強い。 下の表は、[A](文字Xで終わる単語)と、[B](文字Xではじまる単語)をその比[A/B]の高いものから順にリストしたものである。標の単語数は20万語であり豚辞書から、伸ばし棒をトリムした上で抽出した。*1 文字X[A]Xで終わる単語[B]Xで始まる単語[A/B] 1位る43235208.

    「しりとり」の戦いかた、すこし反省した - Active Galactic : 11次元と自然科学と拷問的日常
  • 自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

    Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。 この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

    自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記
  • お気に入りに入れる条件って

    お気に入りに入れる条件って どういう人を はてブのお気に入り に入れるべきかというのは実は難しいんじゃないか。 その基準がどうにも明らかでないと、お気に入りに入れるべき人を自動で推薦、 みたいなのって意味がないと思うのだけど、どうなんでしょ。 第2回SBM研究会 の会場で大西さんにそういう質問したんだけど、 つまり「類似度の高い人を推薦」つったって、 類似度が最大、つまり完全に同じものをブクマしている人をお気に入りに入れても、 それって意味あるの? という問題。 類似度の計算はいろいろあるみたいなんだけど、 それはとりあえず置いておいて、とにかく類似度が計算できるとしましょう。 そんで、なんで類似度が高くなるのかというと、 二人が同じところを巡回しているからだ、というのはあるんじゃないか。 はてブのホッテントリから同じようにピックアップしてブクマしてたら、 そりゃ傾向が似るでしょうと。 R

    toruto
    toruto 2008/12/14
    どんな視点・思想に基づいてレコメンドなどを行う際のスコア定義を決めるするかって話。お気に入り推薦で、万人に受ける定義を作るのは難しいだろうってこと。色々、考え方はあるだろうし。
  • tut05nlp.dvi

    コーパスと語彙の間 —語の重み付け尺度の意味付けをめぐって—   影浦 峡 国立情報学研究所 2005 年 3 月 14 日   たとえば、松山恵子の「お別れ公衆電話」という歌は、どこの女中さん[ママ・以下同] もかならず好きで好きでしょうがないわけです。ただ、女中さんたちは、お金もたくさん 持っているわけではないので、レコードプレイヤーは持っていないですが、お手伝いさん に会うとみんな「お別れ公衆電話」がかかりそうな時間、たとえば松山恵子が属している レコード会社が持っている放送時間を楽しみにしていて、たまたまそのときに掃除をする とか、買物に行かないように、その時間をあけて待っているわけです。口づてに教えられ ながら憶えるので、歌詞がちょっとちがったり、節がちがっているが、「お別れ公衆電話」 は知っている。そういう拡がり方をしている流行歌のもう一つの共和国があるわけです。 これは「今

  • 小説自動生成ソフト「七度文庫」 | スラド

    WindVoice 曰く、 "小説自動生成ソフト「七度文庫」というものがあります。Windows用のソフトウェアで、実行すると官能小説(ただし機能制限版なので生々しい表現は少ない)が自動生成されます。上記リンク先を見たり、プログラムを実際に実行してみたところでは、プログラムが日語を理解するわけでは(もちろん)なく、小説の部品となる短文があらかじめたくさん埋め込まれており、それをランダムに選択することで、バリエーションのある5KB前後の掌編が創られる。七度言語(なのたびげんご)仕様をみると、select文、switch文のような構造がメインとなるようだ。作者は部品となる文章をたくさん書いておく必要があるので、うまく使わないと省力化にはならないかもしれない。 作者は筋書きが似たものが多いということで官能小説を選んだそうですが、そういうことなら何十年も連載の続くマンガにも応用が利くかもしれませ

  • livedoor Developers Blog:String::Trigram でテキストの類似度を測る - livedoor Blog(ブログ)

    こんにちは。検索グループ解析チームの nabokov7 です。 今回は、livedoor キーワードでの事例より、テキストの類似度を測るのに便利な手法を紹介します。 livedoor キーワードは、livedoor ブログでその日その日で話題になった語をランキング表示するサービスです。 当初、はてなキーワードやWikipediaを足して2で割ったようなサービスを作れといった開き直った指示のもとで開発が開始されたともいう、分社化前の芸風の名残で、キーワードの検索結果にはユーザが自由に解説を書き込める Wikipedia 的スペースもついています。 で、この解説部分に、さまざまなサイトから文章をまる写ししちゃう人がとても多いのですね。 特に多いウィキペディア日語版からの剽窃を防止するために、livedoor キーワードでは以下のような対策を講じることにしました。 ウィキペディア日語版の解説

    toruto
    toruto 2007/10/17
    100文字程度の二つの文章が人の目にも明らかに似ている場合、この値は 0.4~0.5 を超えます。0.6 を超えると、細部の入れ替え以外はほぼ同一であるという感じがします。
  • 1