タグ

researchに関するhadzimmeのブックマーク (16)

  • http://www3.ntu.edu.sg/home/assourav/crank.htm

    The ranking of conferences are taken mostly from an informal external source. The detailed procedure behind the ranking is unknown to the author. These rankings do not necessarily represent my personal view either. There is a possibility that some of the rankings may not be accurate, may not reflect current status of the conferences accurately, may not be complete, and there is no copyright

  • 人間の言語習得はルールの学習ではなく丸覚え? - 武蔵野日記

    natural language processing blog にNon-parametric as memorizing, in exactly the wrong way?というポストがあった。言語モデリングはここ数年でだいぶ研究が進展したところで、ディリクレ過程とかなんだとか、数理的に精緻なモデルが(計算機の高度化も相まって)登場してきて、いろいろ分かってきているホットな分野である。 最近 PPM について調べたが、daiti-m さんの「PPM, 言語モデル, Burrows-Wheeler Transform」とあと「PPMと言語モデル (2)」いうポストを改めて読んでみて、ようやく分かってきた気がする。 Google語 N グラムみたく巨大なデータを使っていると、スムージングなにそれ? と言っていてもいいくらい(機械翻訳でも Google 1T gram を用いた研究で

    人間の言語習得はルールの学習ではなく丸覚え? - 武蔵野日記
  • 第15回WI2研究会 2日目セッション3「ユーザ行動分析とWebページ解析」

    2日目午前の後半戦。 空腹との戦いでした。 ============ ■リアルタイム閲覧者ネットワークによる検索システムの提案 京都産業大学 松井さん ・背景と問題点 情報取得:検索サービス、コミュニケーションサービス →Webページをライブで閲覧しているユーザのネットワークをリアルタイムで構築 ・Wiredシステム ライブ検索機能 ライブ閲覧者の発見 注目記事をすばやく発見 ページコミュニケーション機能 同じ興味を持つユーザからの支援 ・システム概要 リアルタイムな閲覧人数に基づいて既存の検索エンジンによって返される結果をリランキング(人数順) Firefoxアドオンで実現しているっぽい 同一ページ閲覧ユーザとコミュニケーションが行える ページに入ると、そのページ内にいる別のユーザが緑色の●として浮いてチャットができる。 ・アドオンのダウンロードページ http://klab.kyoto

  • 文書から知識を抽出する「Machine Reading Program」を開発--米BBNがDARPAと契約

    1ページずつ読むことなく、ウェブ上の情報が習得できればどんなによいだろうか?それこそ軍隊が望む機能である。 米国防総省国防高等研究事業局(DARPA)は、ますます増大するデジタル文書の山と、絶えることなくデータのインプットを求め続ける知的コミュニティの間のギャップを埋めるための読み取りマシンを開発する企業を募った。 文書から知識を抽出し、人工知能AI)システムや人間のアナリストらが処理することのできる形式に出力することが可能な、ユニバーサルテキストエンジンの開発に関する2970万ドルの契約を獲得したのは、BBN Technologies。 軍隊では、「Machine Reading Program」という正式名称を持つこのマシンを用いて、各州や多国間にまたがる組織(アルカイダから国際連合にいたるまですべてを含む)の技術的および政治的活動を自動的に監視する予定である。 これを実現するために

    文書から知識を抽出する「Machine Reading Program」を開発--米BBNがDARPAと契約
  • 糞論文はだいたいこういう流れで研究が進む。

    http://anond.hatelabo.jp/20090519230327 とりあえず教授がやりたい研究を語る。酒の席だったりする。 それを何となく助教に伝えて科研費用資料を作る。この過程で助教の精神が崩壊する。資料は抽象的でなんとなくそれっぽい絵とどこかで見たようなアルゴリズムにそれっぽい名前が付いてるだけの資料になる。音をいうと「初音ミクを作る」と言われる方が楽だ。「教授がシステム全体を説明できない、今までにない新規性溢れる研究」を始めると、論文が通るとか以前にそもそも誰も修士すら取れない。 その資料でも何故か科研費は通る。「おもしろいですね」っていう展開になり、他の予算が付くことも。 決まってしまったので研究をしないといけないので、とりあえずD1とかM1に投げられる。分野ぐらいしか分からないのでいろいろサーベイしてみる。もちろん、サーベイ論文とか書ける以前のサーベイになる。(問

    糞論文はだいたいこういう流れで研究が進む。
  • クラスタリングの定番アルゴリズム「K-means法」をビジュアライズしてみた - てっく煮ブログ

    集合知プログラミング を読んでいたら、K-means 法(K平均法)の説明が出てきました。K-means 法はクラスタリングを行うための定番のアルゴリズムらしいです。存在は知っていたんだけどいまいちピンときていなかったので、動作を理解するためにサンプルを作ってみました。クリックすると1ステップずつ動かすことができます。クラスタの数や点の数を変更して、RESET を押すと好きなパラメータで試すことができます。こうやって1ステップずつ確認しながら動かしてみると、意外に単純な仕組みなのが実感できました。K-means 法とはK平均法 - Wikipedia に詳しく書いてあるけど、もうすこしザックリと書くとこんなイメージになります。各点にランダムにクラスタを割り当てるクラスタの重心を計算する。点のクラスタを、一番近い重心のクラスタに変更する変化がなければ終了。変化がある限りは 2. に戻る。これ

  • ウノウラボ Unoh Labs: 自己学習で分類精度を向上させるベイジアンフィルタ

    20070201勉強会_ベイジアンフィルタ posted by (C)フォト蔵 ベイジアンフィルタを自己学習を行う事で文書を高精度にフィルタリングすることができるシステムです。 SpamassassinやPOPFileのようなspamメール振り分けソフトに使用されているのでご存知の方も多いと思います。 ベイジアンフィルタというとspamメールの処理で広く使われているイメージがありますが、 これをwebの世界でも応用してみれば面白いものができるんじゃないかと思っていろいろ開発してたのですが、 結局実現には至りませんでした。 このままではもったいないので、これまで勉強してわかってきたことを勉強会で発表しました。 勉強会の様子の動画と資料を公開します。 bayes.pdf 僕自身専門家ではないので、いろいろ間違ってる部分もあるかと思います。 その時はご指摘いただければ幸いです。

  • 人工知能基本問題研究会(SIG-FPAI)での岡野原さんの発表のときに取ったメモ - yasuhisa's blog

    hillbig.cocolog-nifty.com ということで僕が取ったメモも出してみようと思う。内容としては大体3つで オンライン学習 L1正則化 索引を用いた効率化, 全ての部分文字列を利用した文書分類 という感じだったんだけど、最後の索引の付近はid:syou6162の勉強不足によりよく分からなかった。が、最初の二つはなんとか付いていけたので、出してみます。主に自分用のメモですが。 オンライン学習自然言語処理のデータは3つの特徴がある。 高次元 疎 冗長 で、あとはデータがばかでかいので、いわゆるバッチ処理だとメモリに乗り切らなかったりとかということがある。それでオンライン学習というのが今よく使われているようだ。オンライン学習の方法には下のような方法がある。簡単なものから難しいものへ。 perceptron 自然言語処理と相性がよい 色んなもののベースになる 線形分離できるときには

    人工知能基本問題研究会(SIG-FPAI)での岡野原さんの発表のときに取ったメモ - yasuhisa's blog
  • 自然言語処理は Python がいちばん - 武蔵野日記

    現在大学1年生の人で3年後には NAIST に (というか松研に) 来たいという人から「どんなプログラミング言語やっておくといいですか」と質問されたりするのだが、なかなか答えるのは難しい。自分は PerlPython がメインでときどき C++/C# を使ったりするのだが、どれが一番いいかはなんとも言えないので、自然言語処理以外に転向する可能性も考えると、C とか C++ とか Java とか(授業でそちらをやるのであれば)を最初の武器に選んだ方がいいのでは、と思ってはいる。 そんなこんなで最近 Hal Daume III (機械学習を用いた自然言語処理では非常に有名な人) のブログで Language of Choice というタイムリーなエントリーが出ていたので、紹介すると、「それなりに大きな自然言語処理のプロジェクトでどのプログラミング言語を使うのか」というアンケート結果が出

    自然言語処理は Python がいちばん - 武蔵野日記
  • 教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記

    今日は daiti-m さんの教師なし単語分割話と id:nokuno さんの Social IME 話を聞きに行くため、仕事を午前中で終えて一路郷へ。第190回自然言語処理研究会(通称 NL 研、えぬえるけんと発音する)。六木から大江戸線で麻布十番、南北線に乗り換えて東大前で降りたのだが、ちょっと失敗して10分以上 Social IME の話を聞き逃してしまう。残念。 というわけで最初の発表については nokuno さん自身による発表スライドおよびshimpei-m くんのコメントを見てくれたほうがいいと思うが、個人的に思うのは(直接も言ったけど)研究発表とするならポイントを絞ったほうがいいんじゃないかなと。 研究の背景と目的 従来手法の問題点を指摘 それらを解決できる手法を提案(3つ) までは非常にいいのだが、そこから先がそのうちの1つしか説明・評価していないので、ちょっと述べてい

    教師なし単語分割の最前線。ベイズ meets 言語モデル - 武蔵野日記
  • 学術論文:オープンアクセス、日本でも本格始動 情報共有に期待大 - 毎日jp(毎日新聞)

    インターネットの普及に伴い、世界中の研究者が書く学術論文の公開方法に大きな変化が起きている。出版社から学術雑誌を購入して論文を読むというスタイルに代わり、ネット上で電子化された論文を読むことが主流となった。同時にネット上の論文を無料で閲覧、検索、配布などができるようにする「オープンアクセス(OA)」の試みが進んでいる。日で昨年、格始動した一つのOA活動を切り口に、すべての市民の手に学術情報を共有しようとするOA化の取り組みを探った。【奥野敦史】 ◆眠れる成果公開 昨年5月「マイ・オープン・アーカイブ」(MOA、http://www.myopenarchive.org/)というウェブサイトが一般公開された。「眠っている学術論文や研究成果を投稿・共有するサイト」と称し、誰でも自分の論文を投稿、公開できる場を提供した。学生や趣味の研究者も利用でき、内容も基的に制限はない。利用者は19日現在

  • 研究とは「パンク伝統芸能」である - 2009-02-23 - 赤の女王とお茶を

    そのこころは、「過去からの蓄積や文脈を踏まえつつ」、「誰もやっていない新しいことをしなくてはならない」。 どんなことにおいてもある程度はいえることではありますが、仕事としての研究にはこの2点が特に強力に求められます。 矛盾? まあ最初はそう感じます。どんなにたくさん勉強しても知識を得ても、その知識以外のことをやれ、でないと意味がない、と言われるのですから。 大量の教科書や論文を読み、「そこに書かれていなくて、かつ重要なコト」を自然や現象の中から見つけ出すのが研究です*1。 徒労を感じます。 処世の効率を考えれば、すでにある知識を編集してそれっぽくした方がよっぽど早いでしょう。 しかし、現実の出来事をそうした「使える知識」として産みなおすには、研究のこういう泥臭い格闘がどうしても必要なのです。その意味では、研究の仕事というのは「知識の一次産業」なのでしょうね。 どうすればこんなしんどい仕事

    研究とは「パンク伝統芸能」である - 2009-02-23 - 赤の女王とお茶を
  • 大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記

    id:naoya さんのLatent Semantic Indexing の記事に触発されて、ここ1週間ほどちょくちょく見ている行列の近似計算手法について書いてみる。ここでやりたいのは単語-文書行列(どの単語がどの文書に出てきたかの共起行列)や購入者-アイテム行列(どの人がどのを買ったかとか、推薦エンジンで使う行列)、ページ-リンク行列(どのページからどのページにリンクが出ているか、もしくはリンクをもらっているか。PageRank などページのランキングの計算に使う)、といったような行列を計算するとき、大規模行列だと計算量・記憶スペースともに膨大なので、事前にある程度計算しておけるのであれば、できるだけ小さくしておきたい(そして可能ならば精度も上げたい)、という手法である。 行列の圧縮には元の行列を A (m行n列)とすると A = USV^T というように3つに分解することが多いが、も

    大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記
  • 情報検索ことはじめ〜研究者編〜 - シリコンの谷のゾンビ

    昨年書いた教科書編が(僕にとっては)嬉しくて跳ね上がるほどブックマークされたので,調子に乗って第二弾を書いてみました.皆様ありがとうございます(ブックマークにがんばってくださいというコメントがあったのがめちゃくちゃ嬉しかったです).今回は研究寄りですが,少しでも誰かの役に立てば幸いです. 僕は網羅的にサーベイを,キーワード検索以外に主に二つの方法で行っています. 会議毎にサーベイ 研究者毎にサーベイ 1.はさておき,2.ですが,僕は研究者のDBLPをチェックしています.気になる論文の著者のDBLPを眺めると,知らなかった要チェックや!論文を拾うことができます. なので,一線で活躍する研究者の論文は定期的にチェックする必要があります. 今回はIR研究者の中でも,戦闘力が高く,この人は常にウォッチせねばという研究者の一部を紹介したいと思います. 下記は若輩の独断と偏見に基づくものです.一線で活

    情報検索ことはじめ〜研究者編〜 - シリコンの谷のゾンビ
  • 人工知能による会話マーケティングの可能性

    日産NOTEといえば、アニメ「The World of GOLDEN EGGS」のキャラクターが愉快に喋る、あのCMを思い浮かべる人が多いのではないだろうか。実はCMだけでなく、ウェブサイト「NOTEにのって!.com」もおもしろいことになっている。人工知能を用い、ユーザーの質問にCMのキャラが反応してくれるというものだ。 人工知能がサイト内のナビゲータ役に NOTEのウェブサイトを開くと、いきなりコーチの姿をしたキャラクターが現れ、「よぉうし!質問があればどんどんしてくれっ!試乗特訓についてわからなければ、俺に聞け!」と怒鳴りつけてくる。 テキストボックスにいくつか適当な文章を入力すると、「そうか。俺は試乗特訓のコーチだ! NOTEは低燃費系でビュンビュン系だぞ。何か特訓について聞きたいことがあったら入力してくれ!入力はネセサリーだぞ!」。とにかく試乗特訓について聞けと急かす。 自動車に

    人工知能による会話マーケティングの可能性
  • 1