タグ

関連タグで絞り込む (243)

タグの絞り込みを解除

研究に関するbasiのブックマーク (255)

  • 軽量データクラスタリングツールbayon - mixi engineer blog

    逆転検事を先日クリアして、久しぶりに逆転裁判1〜3をやり直そうか迷い中のfujisawaです。シンプルなデータクラスタリングツールを作成しましたので、そのご紹介をさせていただきます。 クラスタリングとは クラスタリングとは、対象のデータ集合中で似ているもの同士をまとめて、いくつかのグループにデータ集合を分割することです。データマイニングや統計分析などでよく利用され、データ集合の傾向を調べたいときなどに役に立ちます。 例えば下図の例ですと、当初はデータがゴチャゴチャと混ざっていてよく分からなかったのですが、クラスタリングすることで、実際は3つのグループのデータのみから構成されていることが分かります。 様々なクラスタリング手法がこれまでに提案されていますが、有名なところではK-means法などが挙げられます。ここでは詳細については触れませんが、クラスタリングについてより詳しく知りたい方は以下の

    軽量データクラスタリングツールbayon - mixi engineer blog
  • MyWiki.jp - 研究能力を伸ばす方法を考える Wiki - FrontPage

  • 何番煎じか分からないけど集合知プログラミングをPHPでやってみた その7「階層的クラスタリングによりグループを見つけ出す」 - Stellaqua - TOMの技術日記

    前回は話だけで終わってしまったので、今回はソースコード中心です。 アイテム同士の距離の計算に必要な情報を出力するReducerを実装する という訳で早速ですが、前回延々と話をしていた事をReducerに実装します。 #!/usr/bin/php <?php require_once(dirname(dirname(__FILE__)).'/lib/HadoopStreaming/Reducer.php'); class Reducer extends HadoopStreaming_Reducer { public function reduce ( $key, $values ) { $wordcount = array(); while ( $values->has_next_value ) { list($id, $count) = explode(':', $values->cur

    何番煎じか分からないけど集合知プログラミングをPHPでやってみた その7「階層的クラスタリングによりグループを見つけ出す」 - Stellaqua - TOMの技術日記
  • FrontPage - 情報論的学習理論と機械学習の「朱鷺の杜Wiki」

    朱鷺の杜Wiki(ときのもり うぃき)† 朱鷺の杜Wikiは,機械学習に関連した,データマイニング,情報理論,計算論的学習理論,統計,統計物理についての情報交換の場です.これら機械学習関係の話題,リンク,関連事項,書籍・論文紹介などの情報を扱います. 更新されたページを確認するにはRSSリーダを使って右下のRSSリンクをチェックするか,最終更新のページを参照してください. ページの中でどこが更新されたかを見るには,上の「差分」をクリックして下さい. 数式の表示に MathJax を利用しています.数式の上でコンテキストメニューを使うと各種の設定が可能です.特に設定をしなくても数式は閲覧できますが,フォントをインストールすれば数式の表示がきれいで高速になります.詳しくは 数式の表示 のページを参照して下さい. ごく簡単なWikiの使い方がこのページの最後にあります.トップページやメニューなど

  • http://www.net.ss.titech.ac.jp/~brnw/

  • Information Recommend

    情報推薦(Information Recommend) 情報推薦とは,情報収集支援アプローチの一つである.その名の通り,ユーザに対して情報を推薦する手法である.しかし,その情報がユーザに有益なものでなければならない.望まれる推薦システムとは,ユーザが要求してる情報を推薦するシステムである. 背景 そもそも,情報収集は様々な活動において重要な作業である.それが近年のインターネットの爆発的発展により,誰でも膨大な情報源に対して触れることができるようになった.しかし,その膨大さは人の情報集収能力を圧倒し,「情報過負荷(Information Overload)」,あるいは「情報の氾濫(情報洪水)」を引き起こした.この問題に関してはインターネットの隆盛以前から表出していたのだが,いまだその解決策は見つかっていない. 情報過負荷を解決するために,早くから研究されてきた技術の一つに情報検索(Infor

  • 大学院進学の話:東大や京大に行かなくても別にいいんじゃね,と思うんだけど.

    ネット界隈は恐ろしいもので,日の大学院のほとんどは屑,みたいな意見がわりと多く見られる. で,それを真に受けてかどうか知らないけど,ちょっとデキる奴は,すぐ東大院とかに進出しちゃうんだ.でも,オレは別の道もあると思うんだよね. ここでオレが対象にしたいのは,ちょっとデキる奴であって,超天才とかは知りませんよ. なんでこんなことを書こうと思ったかというと,今日晴れて奨学金返還の全額免除が決まったからである(内々定,みたいなものだけど). でも,これ,オレが地方大学にいるから免除されたんであって,東大とか京大とかだったら絶対ムリだったと思うんだよね. 一応,学振も通ったけど,これも,オレの実力というよりは,指導教員の実力で,指導教員だって,もしここが東大だったら,オレなんかに目をかけるはずはなかっただろうと思う. もちろん,何がなんでもアカポスに就く,じゃないと死ぬ,みたいな奴は,東大じゃな

    大学院進学の話:東大や京大に行かなくても別にいいんじゃね,と思うんだけど.
  • NAACL/HLT 2009報告 - DO++

    コロラド・ボルドーで開催されたNAACL/HLT 2009に行ってきました。 NAACLは自分の中での分類では自然言語処理の学会で統計的な手法とかが多い学会に思える(それに対しヨーロッパではEACLでは文法とか言語理論とかが多い)。比較的自分にあう学会。 開催地となったコロラド大ボルダー校はとてもきれいなキャンパスで(、「全米で最も美しいキャンパス」の4位にランキング)、宇宙飛行士をたくさん輩出してたり、ノーベル物理学賞を4名輩出するなど、研究レベルも高いそうです。 で、学会は適当に休みながらまったり聞いていたのですが全体的に教師無学習に関する話が多かったような気がします。教師有学習による言語処理がある程度成熟してきているのに対し、教師無の方はまだまだ伸びしろが多いので研究がしやすいのでしょう。教師無に利用するモデルも、単純な混合分布から、様々な分布が入り乱れる複雑なグラフィカルモデルにな

    NAACL/HLT 2009報告 - DO++
  • Mac/Windows/Linux併用して研究する人は「JabRef+Dropbox」で論文管理するといい - ミームの死骸を待ちながら

    最近ありがたいことにiPhoneに引き続き、最新のMacbookをも懐を痛めることなく入手*1し、Windows, Macintosh併用して研究している。元々マカーだったりするので細かい所の操作やTerminalの使い心地はやはりMacに軍配が上がる。 そんなことしてるうちに論文管理の問題にぶつかったのだが、Javaで作られていてプラットフォームに依存しないJabRefと、最近流行のDropboxを合わせて使えば、論文データをひとつのDropboxフォルダに置きつつ各マシンから同期して使えることに気がついたのでその設定方法などを。設定し終わってしばらくしてから書いたので、あまりまとまってないかも。ツッコミ受けたら適宜追記します。 JabRefの導入 下記のサイトを見ればだいたいJabRefの使い方が分かる。 JabRefによるBibTeX文献管理とJab2HTML 上記サイトからは"Pr

    Mac/Windows/Linux併用して研究する人は「JabRef+Dropbox」で論文管理するといい - ミームの死骸を待ちながら
  • あいであ、あります。 - music, statistics, and my life

    たわごと, research |  朝から研究科のGCOEの平成21年度グローバルCOE若手リーダーシップ養成プログラムの募集のお知らせがメールで届き、その直後にmy superviserから「出してみたらー?」というメールがきました。このプログラム、NAISTのCICPの博士・ポスドク版*1で最大150万まで研究助成があるという制度*2。この研究計画を練ったり、書いたりするのはかなり好きなほうなので、わくわくしながらページをみてみると学振もらっている人は出せないことがわかってがっくり(-_-;) 研究に必要な能力として、物事を論理的に考えて考察する力、(実験なら実験の、プログラミングならプログラミングの)作業する要領のよさ、論文を書く文章力だとみんなとやかく言いがちだけど,計画を立てるアイデアを作る力も必要なんだな、と最近思うようになりました。アイデアというより「こんなことできたらおもろ

    basi
    basi 2009/06/06
  • あの「ジェイコム男」がオリックス株主9位に - 社会:ZAKZAK

    あの「ジェイコム男」がオリックス株主9位に 107万株保有、時価総額60億円 2005年12月、みずほ証券がジェイコム株を大量に誤発注した際、10分間で22億円の利益をあげた、あの「ジェイコム男」ことB・N・F氏(名非公表、31)が、オリックスの株式を大量に購入。3月末時点で第9位の大株主に躍り出ていたことが5日までに分かった。同社が全株主に発送した株主総会招集通知の中に、名が記載されていたのだ。 通知書によると、B・N・F氏は公開済みのオリックス株107万株を保有。時価総額は60億円(4日終値)に達し、信託銀行や外資系投資銀行を除くと、みずほ銀行、日生命につぐ第3位。個人株主では、約3万人が保有する同社株の3分の1を1人で占める。昨年上半期までの有価証券報告書には名前がないことから、昨年10月から今年3月の間に購入したことになる。現在も保有しているかは不明だ。 B・N・F氏は有名私

  • 幹細胞培養のコンタクトレンズ装着1ヶ月弱→失明治る(動画あり)

    目が不自由な方、視力が極端に弱い方に朗報です! 目の見えない患者さん3人が幹細胞をコンタクトレンズに培養して装着したら、1ヶ月も経たないうちに視力が回復したそうですよ? ニューサウスウェールズ大学(UNSW)の幹細胞研究者Nick Di Girolamo博士率いるPrince of Wales病院(POWH)研究チームが5月28日『Transplantation』ジャーナルに発表した研究報告です。 オーストラリア人の患者さんは3人とも片目が見えませんでした。そこでチームでは見える方(ほう)の目の角膜のサイドから1mm未満の幹細胞を抽出し、コンタクトレンズで10日間培養した上で、これを患者さんたちに与えたんですね。 するとどうでしょう。 コンタクトを使い始めて10日から14日で幹細胞が再コロニー形成を始め、角膜を治しちゃったのです! どれぐらい見えるようになったかというと... チームメンバ

    幹細胞培養のコンタクトレンズ装着1ヶ月弱→失明治る(動画あり)
  • アカデミズムが認められない社会ですから - 非国民通信

    ポスドク:加速する頭脳流出 若手研究者、職なく41%が海外へ(毎日新聞) ◇倍増ポスドク 98~08年度調査 10年間にポスドクが就職するまでの期間が平均6・4年と倍近くに増え、職が見つからない若手研究者の海外流出が加速していることが、大阪府立大の浅野雅子准教授(素粒子論)の調査で分かった。国が常勤職を確保しないままポスドクを増やした計画が背景にある。素粒子論分野のみの調査だが、海外在住の研究者を含めてほぼ全数を調査した例は珍しく、他分野でも同様の傾向があるとみられる。日の将来の科学技術発展への影響が懸念されそうだ。 ◇就職まで6.4年 素粒子論研究者で作る学術団体(素粒子論サブグループ)の98~08年度までの名簿を基に調べた。 それによると、全体の人数は700人前後で推移しているが、ポスドクの人数は107人から193人と1・8倍に増え、逆に博士課程に進学する人は85人から47人に減った

  • Sugawara, Manabe lab. Department of Information and Network Science, Chiba Institute of Technology

    Symbiotic Computing Symbiotic Computing is a computing model to realize network infrastructure, which can provide fairness and security based on confidence between a person and information system. We are trying to achieve an information processing environment, which autonomously supports human activities, by understanding human behavior and sociality in the real world. Virtual Environment Simulato

  • Review: JabRef

    最近はめっきり、図書館に論文をコピーしに行くことはなくなりました。いや、論文、読まなくなったわけじゃないですよ。むしろ昔より読んでます。でも、図書館に出かけて「紙のコピー」をとることって、なくなりましたね。だって、最近は、ほとんどの論文がインターネット経由で PDF でダウンロードできますから。 ある論文を読んでいて、そこで引用している別の論文が気になったら、すぐにネットでダウンロード。論文読む数も増えますし、手持ちの PDF の数も増えていきます。一の論文から複数の参考文献を引いて、さらにその参考文献から孫引きしていくわけですから、文字通りネズミ算的に増えるわけです。 で、その結果どうなるのかというと… 一、 デスクトップが PDF でいっぱいになる。 二、 しょうがないので一つのフォルダにまとめる。 三、 でも、結局数が多すぎてほしい時にほしい論文が手に入らない。 四、 しょうがない

  • 情報の価値を決める4つの基準

    世界の情報は、私を圧倒している。全てをしっかりと読むには新聞は大きく厚く、TVは膨大な時間のコンテンツを放映する。ウェブページは無限にあり、RSSは無数のエントリを運ぶ。電話やメールがパンクすることは私にはないが、世界は人に溢れていて、その気になればメールと電話のやりとりで時間を潰せることも目にみえている。DVDもCDも書籍も、追い掛けられる上限を遥かに越えている。 私は少しでも情報摂取を効率化しようとした。新聞は見出しを眺め速読し、TVは「ながら視聴」しかせず(個別情報のためというよりは、NHKがどのように報じているかを知るために)、ウェブのリンクを辿ることは禁止し、RSSリーダを利用し、登録フィードも50を越えないようにした。調べ事は事前にメモしておいてダラダラとブラウジングすることを避ける。集中したいときには携帯の電源を切り、人と会う前には話すことをメモし、電話をするならばメールをし

  • HAC に使える feature selection を試す (nakatani @ cybozu labs)

    プチ間空きましたが、「IIR の「効果的な」階層的クラスタリング」の続き。 「次回は feature selection で次元を落とすのを試してみるべき」と書いたとおり、feature selection(特徴選択)を行ってみます。 要は「25文書しかないのに 8000 語とか多すぎる。文書増えてったらガクブル。よし減らそう。全部必要な訳ないしね。でも、どうやって?」という話です。 IIR では、Chapter 13 にて feature selection を扱っており、 また Chapter 18 では LSI(latent semantic indexing)、乱暴に言えば固有ベクトルを求めることでその空間が来持っている次元数(階数)を導いている。 しかし、Ch.13 の内容は Bayesian のような「教師有り分類」の場合の feature selection しかカバーして

  • Perceptron を勉強する前にオンライン機械学習ライブラリを試してみる (nakatani @ cybozu labs)

    今度は CLUTO を試してみた話を書こうと思っていたのですけど、あまりふくらみそうにないので、保留。 オンライン学習(逐次学習)に興味があるので、まずは Perceptron 周辺を勉強し始めてます。 が、その前に動くものをさわっておこうということで、岡野原さんのオンライン機械学習ライブラリをちょっぴり試してみました。 oll プロジェクトページ(日語) ビルド Linux なら ./configure & make でOK。 Windows の場合 oll.hpp の先頭のどこかに #include <algorithm> を追加すれば VC++ でもコンパイルできました。 サンプルデータ サンプルデータには、プロジェクトページにも実験としてあがっている news20.binary をまずは使ってみることにしましょう。 「シャッフルし、15000例の訓練データと4996例のテストデー

  • ところてん - アットウィキ

    「日記/2008年12月08日/SBMセキュリティ仮説失敗」は管理者からの閲覧のみ許可しています。 ログイン ログイン

    ところてん - アットウィキ
  • IIR の「効果的な」階層的クラスタリング (nakatani @ cybozu labs)

    IR の階層的クラスタリングを試すの続きです。 "efficient" な HAC(hiererachical agglomerative clustering) を実装してみます。 今回は、コード全体をぺたぺた貼り付けるのも見にくいし面倒だしということで、github に置いてみました。 git://github.com/shuyo/iir.git 前回作った corpus パックも commit してありますので、 clone すればいきなり動く、はず。 git clone git://github.com/shuyo/iir.git cd iir/hac ruby hac.rb 4million.corpus おのおの手元でちょこちょこ改変して試してみるには CodeRepos より git の方が向いてるんじゃあないかなあと思ったんですが、git まだ使いこなせてないのでなんか色々