タグ

researchに関するfrsh_mtのブックマーク (35)

  • 全文検索エンジン Miniseをリリース + WEB+DBで全文検索の特集記事 - DO++

    全文検索エンジンの Minise: MIni Search Engineをリリースしました. このエンジンは全文検索の基的な機能をサポートしたもので,索引手法は逐次検索(索引無),N-gram,転置ファイル,接尾辞配列をサポートしており,そこそこ最適化を行ってます.Wikipedia語版を実験で使ったもので20万文書で構築時間が500秒前後,検索時間が一クエリあたり数msとなっています. BSDライセンスで公開しています. 割りきって,機能を絞ってシンプルな構成にしていますので改造したりしやすいようになっています。まだ、ドキュメントはないですが、C++ APIとして利用しやすいようにもなっていますので、研究用途などで新しい索引やランキングとかでの利用も想定しています(実際に研究用で使ってます). --- 今回の全文検索ライブラリを開発する機会になったのが,私が担当した今月号のWEB+

    全文検索エンジン Miniseをリリース + WEB+DBで全文検索の特集記事 - DO++
  • 東京大学で学んだ、卒論研究の進め方 /184870 - R&D: りょうえんダイアリー

    (参考:ロジカルシンキングことはじめ こちらでも、論理的に思考する方法について記載しています) ◆はじめに この記事は、これから「研究者のたまご」への第一歩を踏み出す研究者志望者に、4年生で、とりあえず研究室に配属されたは良いが、一体どうしたものか、と悩むあなたに、そして、大学の研究ってどんなもの?とその一端を垣間見たい、大学受験生へ向けた記事です。 これは、東京大学工学部の、ソフトウェア系研究室での実例と、そこから抽出したエッセンスです。従って、この記事は個別の体験で、あなたの個別の研究室体験とは、幾分と違うものとなるでしょう。取捨選択と、自分なりのカスタマイズを行うための材料として、お使いください。 「何かを学びたければ、すべてを学ぼうとしてはならない」 ◇どんな人が書いているのか この3月に、東京大学工学部システム創成学科知能設計コース、という長〜い名前のコースを「幸運にも」首席で出

    東京大学で学んだ、卒論研究の進め方 /184870 - R&D: りょうえんダイアリー
  • おめーらそのくだらねえプライドをなんとかしろよ(追記しました)

    [追記]なんか凄いことになっている!すいません!ちょっとお礼も兼ねて文末に追記しました。 こんなことは直接いえないし、かといって黙ってるのも癪なので、ここに書く。 年度は内緒だけど、学振特別研究員に採用された。それは、ま、努力と、大部分は幸運によるもので、それは良かった。 で、うちの院は極端に学振持ちが少ないので、この時期になると、「書類作成のコツを教えてください」とかいう名目で、講習会に呼ばれたりするわけだ。あるいは、「後輩を指導しろ」とかね。 それはいい、というか、俺自身も、いろんな人に「書類作成のコツ」を教えてもらったわけだから、それを還元しなくちゃな、とは思う。 思うし、それなりに、教わったことと、俺自身が体験したことを、きちんと伝えているつもりだ。 ただ、俺は、あいつらはゆとりだから、なんて言って思考停止するヤツはアホだと思っているけど、つい思考停止してしまったね。 あのプライド

    おめーらそのくだらねえプライドをなんとかしろよ(追記しました)
  • 研究の醍醐味って何ですか? - はてなニュース

    かつて卒業研究の指導教官と飲みに行った際に、「研究の醍醐味って何ですか?」と問いかけたことがある。それに対する彼の答えは、「世界中で自分しか知らないものを手に入れているんだという快感だよ」というものだった。 そして、その時は、何となくそれで話が終わってしまった。でも、実は一つだけ彼に聞きそびれてしまったことがある。 それは、「世界中で自分しか知らないものを追い求めるなんて、不安じゃないですか?」という質問だ。一体、私たちの身体のどこからそんな「勇気」が湧いてくるのだろうか?質問ができないまま時が経ち、最近はてなブックマークで卒論を書き終えた学生に呼びかけたエントリーが話題になっているのを発見した。 価値の判断基準が自分の外にある人間は表現者になれない - 発声練習 「価値の判断基準が外にある人間は、自分の内部にあるものが外に問うだけのクオリティに達しているかを常に悩んでしまい表現を外に出せ

    研究の醍醐味って何ですか? - はてなニュース
  • 大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記

    id:naoya さんのLatent Semantic Indexing の記事に触発されて、ここ1週間ほどちょくちょく見ている行列の近似計算手法について書いてみる。ここでやりたいのは単語-文書行列(どの単語がどの文書に出てきたかの共起行列)や購入者-アイテム行列(どの人がどのを買ったかとか、推薦エンジンで使う行列)、ページ-リンク行列(どのページからどのページにリンクが出ているか、もしくはリンクをもらっているか。PageRank などページのランキングの計算に使う)、といったような行列を計算するとき、大規模行列だと計算量・記憶スペースともに膨大なので、事前にある程度計算しておけるのであれば、できるだけ小さくしておきたい(そして可能ならば精度も上げたい)、という手法である。 行列の圧縮には元の行列を A (m行n列)とすると A = USV^T というように3つに分解することが多いが、も

    大規模データ処理のための行列の低ランク近似 -- SVD から用例ベースの行列分解まで -- - 武蔵野日記
  • 近年、「近年、」ではじまる卒業研究が増えている - かたつむりは電子図書館の夢をみるか(はてなブログ版)

    先日、文章を書く際のテンプレートの話をしましたが。 以前卒業論文の書き方について後輩に尋ねられた時も同じようにテンプレートの存在の話をして、その際ある卒研生が言ったのが、「『近年、』って書き始めればいいんでしょ?」という一言。 確かに、「きんねん、」と言う音の響きもさることながら、その後に続けて研究の背景となる動機について、現在問題となっている/話題となっている事柄と絡めて書いていく際にこの「近年、」という一言はとても便利です。 「現在、」とかでもいいですが、普段は全然使いもしないのに論文の時だけ使う堅苦しさからしても「近年、」という響きは「なんとなくそれっぽく聞こえる」という良さがある気も。 自分も多用しますしね。 しかし「『近年、』って書き始めればいいんでしょ?」と言った卒研生が裏でそこまで考えていたかと言えばそうではなく、おそらくはその人が読んだ論文や過去のうちの大学の卒業論文の中に

    近年、「近年、」ではじまる卒業研究が増えている - かたつむりは電子図書館の夢をみるか(はてなブログ版)
  • 自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記

    Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。 この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非

    自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記
    frsh_mt
    frsh_mt 2009/01/27
    研究対象にするドメインをどれだけ絞るかが結構精度にかかわる
  •  「あっ、それ**さんにも、指摘されました」はメリットがないので言わないこと - 発声練習

    複数人に同時に論文指導を受けているとき、何人かから同じことを指摘されることがあると思う。で、既に別の人に指摘されているので「あっ、それ**さんにも、指摘されました」と思わず言ってしまうことがあると思うが、それは言ってもメリットがないので言うのを我慢すること。 理由は以下のとおり。 「あっ、それ**さんにも、指摘されました」には、無意識に「それはもう知っているので説明を止めてください」が含まれてしまう。コミュニケーションにおいて「それは知っている」というのは会話を止めるマジックワード。 「あっ、それ**さんにも、指摘されました」と言うことによって、「ああ、じゃあ、そこは飛ばすね」とその部分の説明を省かれる可能性がある。同じ箇所の指摘だけれども、指摘している理由が違うかも知れないのでちゃんと説明してもらったほうが得。 追記(2009/01/15) はてなブックマークのコメントがおもしろいので転

     「あっ、それ**さんにも、指摘されました」はメリットがないので言わないこと - 発声練習
  • クローリングしてる暇があるなら…論文かいたら? | EDGE Datasets(研究用データセット)

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    クローリングしてる暇があるなら…論文かいたら? | EDGE Datasets(研究用データセット)
  • Stanford大学とU.C.Berkleyに行ったときの出来事 - yanbe.log

    はてなでの私に対する皆さんの認識というと、多分Python使いとかVimユーザとか、QRコードデコーダの開発者というのがメインだと思います。それで、あまり認識されてない気がしますが、私は普段は大学院生として大学院で研究に取り組んでいます。 実は、縁あってタイトルの2つの大学には行ったことがあります。期間は、前者は短期滞在で数日、後者は共同研究という形で6週間ほどだったのですが、この時の体験が実はシェアすべき、結構面白いものだったのではないか、ということで書いてみることにしました。 Stanford大学での出来事 私が行ったのはDBLabが、InfoLabに改組された後でした。InfoLabというのは、id:taroleoさんによるデータベース教科書の紹介エントリ でも紹介されているHector Garcia-Molina先生が率いるグループで、過去にはGoogleの創始者などを輩出したこと

    Stanford大学とU.C.Berkleyに行ったときの出来事 - yanbe.log
  • はてなブックマーク全文検索機能の裏側

    そろそろ落ち着いて来たころ合いなので、はてなブックマーク全文検索機能の裏側について書いてみることにします。 PFI側は、8月ぐらいからバイトに来てもらっているid:nobu-qと、id:kzkの2人がメインになって進めました(参考: 制作スタッフ)。数学的な所は他のメンバーに色々と助言をしてもらいました。 はてな側は主にid:naoyaさんを中心に、こちらの希望や要求を聞いて頂きました。開発期間は大体1〜2か月ぐらいで、9月の上旬に一度id:naoyaさんにオフィスに来て頂いて合宿をしました。その他の開発はSkypeのチャットで連絡を取りながら進めてました。インフラ面ではid:stanakaさん、契約面ではid:jkondoさん、id:kossyさんにお世話になりました。 全文検索エンジンSedue 今回の検索エンジンはSedue(セデュー)という製品をベースにして構築しています。Sedu

    はてなブックマーク全文検索機能の裏側
  • はてなブログ | 無料ブログを作成しよう

    27年ぶりのYUKIライブ 2024/8/11。僕は埼玉の戸田市文化会館で行われた”YUKI concert tour “SUPER SLITS” 2024”に参加した。前にYUKIの歌声を聴いたのは1997/05/27の代々木第一体育館。実に27年の歳月が経ってしまった。 なぜそんなに間が空いたのか。なぜ、それでも参加しようと思ったのか…

    はてなブログ | 無料ブログを作成しよう
  • 論文特集「Webインテリジェンスとインタラクション」論文募集

    論文特集「進化計算パラダイムのフロンティア」論文募集 近年,Web環境は大きく変革しようとしています.商用の検索エンジンで検索可能な静的なWebページ数は,200億を越えると言われ,ある調査では2000年の時点でDeepWeb中のWebページ数は5 000億を超えたと報告されております.また,データ量の観点だけでなく,近年blogやSNS(ソーシャルネットワーキングサービス)に代表されるような,人間関係を伴った活動も活発化しております.さらに,これらのデータやコミュニケーションは,実世界上の人間関係や物理オブジェクト,地図データなどとも融合を始めております. このような状況において,Webをより高度に活用するためには,人工知能に代表される知的情報処理技術,Web上の情報リソースに効率的にアクセスするためのデータベース技術,Webからの知識獲得を行うための自然言語処理技術,Web上のコミュ

  • http://japan.internet.com/webtech/20081204/7.html

    frsh_mt
    frsh_mt 2008/12/04
    Blogを対象にすると相当ゴミが多そうですけど。その辺どうやってうまいことやってんのか知りたいです。
  • みんなの経験:検索

    みんなの経験は、奈良先端科学技術大学院大学自然言語処理学講座とニフティ株式会社の共同研究により開発を行いました。 公開にあたりアクセラテクノロジ株式会社およびニフティ株式会社よりブログ記事の収集・解析について協力を受けました。 FAMFAMFAMのアイコンを一部改変して利用しています。 Copyright © 2008 Nara Institute of Science and Technology ご不明な点等ありましたら minna AT is.naist.jp までご連絡ください。

  • 知識共有コミュニティワークショップ ―インターネット上の知識検索サービス研究― - 情報社会学会 -Infosocionomics Society-

    インターネット上において、個人が持つ知識や情報を提供しあい、知識を共有するコミュニティが形成されています。特に、質問や回答を投稿しあう「知識検索サービス」の利用者増加はめざましく、代表的な知識検索サービスである「Yahoo!知恵袋」では2007年から2008年の間に利用者が2.7倍に増加しているというデータがあります(ネットレイティングス調べ)。 ヤフー株式会社は、2007年度より国立情報学研究所にて「Yahoo!知恵袋」のデータを研究用に無償で公開しています。従来は入手が不可能であった商用データの研究利用という試みによって、既に言語学、工学、社会心理学など多岐にわたる分野で研究が進められています。この試みは、情報社会学研究にとっても大きな意味のあるものです。 ワークショップは、学問領域やアプローチを限定せず、「Yahoo!知恵袋」のデータを対象とした研究を募集します。「Yahoo!知恵

  • 単語感情極性対応表

    単語感情極性対応表 日語および英語の単語とその感情極性の対応表を、 研究目的の利用に限り公開します。 感情極性とは、その語が一般的に良い印象を持つか(positive) 悪い印象を持つか(negative)を表した二値属性です。 例えば、「良い」、「美しい」などはpositiveな極性、 「悪い」、「汚い」などはnegativeな極性を持ちます。 感情極性値は、語彙ネットワークを利用して自動的に計算されたものです。 もともと二値属性ですが、-1から+1の実数値を割り当てました。 -1に近いほどnegative、+1に近いほどpositiveと考えられます。 リソースとして、日語は「岩波国語辞書(岩波書店)」を、 英語はWordNet-1.7.1を使わせていただきました。 こちらからダウンロードしてください→[日語] [英語] フォーマットは、各行が一単語に対応し、 見出し語:読み:品

    frsh_mt
    frsh_mt 2008/11/12
    おぉ、こういうのを公開していただけると有難いです。
  • Kikker の学習の仕組みと Rocchio アルゴリズム - naoyaのはてなダイアリー

    先日のソーシャルブックマーク研究会では id:kanbayashi さんによる発表がありました。id:kanbayashi さんは Kikker や はてブまわりのひと などの開発をされている方です。最近情報検索理論に入門した自分にとっては、非常に面白い発表でした。 発表の中で Kikker の学習の仕組みについての解説もありました。Kikker は Cosine similarity で推薦するドキュメントを検索しているそうですが、ユーザーのクリックデータを使って、ユーザーごとに推薦対象を最適化するようにしているそうです。この学習は、ユーザーが見たページのベクトルを、そのユーザーの趣向ベクトルに足し込むことで実現している、とのことでした。 SBM研究会で発表した"私がチャレンジしたSBMデータマイニング"のスライド - Ryoの開発日記 Neo! 発表ではベクトルを加算することについて「

    Kikker の学習の仕組みと Rocchio アルゴリズム - naoyaのはてなダイアリー
  • 合コン「席決め」:奈良の学生ベンチャーがシステム開発 - 毎日jp(毎日新聞)

    合コンの参加者のなるべく多くが、不公平なくそれぞれの好みの異性の近くに座れるように席を決める計算システム「ザ・セキガエ」を、奈良先端科学技術大学院大学(奈良県生駒市)の学生ベンチャー企業「ホープフル・モンスター」が開発した。既にお見合いパーティーで活用され、カップルも誕生。男女の赤い糸を結ぶ手助けをするシステムとして評判を呼びそうだ。 同大学院情報科学研究科博士課程の黒岩将さん(28)と、修士課程の武田康臣さん(24)が開発。異性と出会う機会が少なく、独身者が多い研究者の現状に危機感を持ったことがきっかけだった。 仕組みは(1)参加者に番号を割り振る(2)参加者が近くに座りたいと思った相手の番号を第1~3希望まで選び、自分の携帯電話のメールで「ザ・セキガエ」に送信(3)全員の希望に最も近い席順をサーバーが数学の「組み合わせ」を応用した情報処理学を使い計算(4)数秒後に携帯メールに座席表を返

    frsh_mt
    frsh_mt 2008/10/17
    すげぇ、この人たち合コンネタで国際会議の査読通してるww
  • Manifold Learning - Memorandum

    Incrimental version † Olga Kouropteva, Oleg Okun and Matti Pietik�inen, Incremental locally linear embedding, Pattern Recognition, Volume 38, Issue 10, , October 2005, Pages 1764-1767. http://dx.doi.org/10.1016/j.patcog.2005.04.006 ↑ Principal Manifold † Moghaddam, B., "Principal manifolds and probabilistic subspaces for visual recognition," Pattern Analysis and Machine Intelligence, IEEE Transac