サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
画力アップ
www.mtoyoda.com
_ 修士1年の皆さんがWebDB Forum 2014に投稿するべき7つの理由 第7回 Webとデータベースに関するフォーラム(WebDB Forum 2014)のプログラム委員長を務めております豊田です。Webやデータベースに関連のある研究分野にいる方はぜひ投稿を検討していただきたく思います。今回のWebDB Forumでは、特に修士1年の皆さんの投稿を期待しているのですが、この記事ではその理由を述べたいと思います。今後の進路を考える上でも是非参考にしてください。 _ 1. 修士1年の夏は、修士論文のテーマをじっくり考えられるまたとない機会です。この時期に読んだ論文の数や、考えた時間、こなした実験の数が修士論文のクオリティを決めると言っても過言ではありません。しかし、目標がなければだらだらと勉強をしてしまいがちです。8月末締め切りのWebDB Forumは、夏の目標とするのにぴったりの会
_ [学会] WebDB Forum 2009 WebDB Forum 2009に参加してきたので、座長をしたセッションの様子を書いておきます。長尾先生と大向さんの講演とか、パネルセッションとかまだ色々あるのですが、力尽きた... セッション1A: 情報推薦・検索支援 座長:豊田 正史(東大) 「地域限定性を考慮した情報推薦方式に関する基礎検討」奥 健太, 服部 文夫(立命館大学) 旅先の地域検索で、自分の地元にあるような店が出てきてもうれしくない。地元のキーワードに対してIDF的なペナルティを与えて検索する地域に特徴的なキーワードをランキングできるように工夫。地元でやるのと全国でやるのとどの程度差が出るかな。 「閲覧者を用いた検索とコミュニケーションによるWeb情報収集支援システムの提案」松井 優也, 河合 由起子(京都産業大学) 検索結果をページの現在の閲覧人数を考慮してリアルタ
_ [研究] CHI2009勉強会@お茶大 今日はお茶の水女子大学で行われたCHI2009勉強会に参加してきました。CHI2009で発表された300本くらいの論文を1本1分ですべてクイックレビューするという野心的な試みで、ここ数年行われているものですが、私は今回が初参加です。改めてこの分野の発散具合を体感できたと同時に、全ての論文を眺めたことで私の興味に合うものもいくつか見つけることができ、大変に有意義でした。運営の皆さんまとめをしてくださった皆さんありがとうございました。とりあえず、私の気になった論文タイトルをリストアップしておきます。ご参考まで。(リンクにしたかったけど力尽きた。。。) What do you see when you're surfing?: using eye tracking to predict salient regions of web pages Make
_ [学会] WWW2009のサーベイ@情報爆発キックオフ 情報爆発のキックオフミーティングでWWW2009の15分サーベイという無謀な試みをやらされたので、発表資料を以下に置いてみます。キーノート2本、論文数の多い3セッションから流行りを抜き出すため、タイトル、アブストをタグクラウド化してトレンド論文をリストアップ。いくつかの論文についてちょっとだけ紹介。と言う形にしました。全体的に、Yahoo!, MSの論文が多く、ちょっとおもしろ目のアイデアを、検索エンジン会社の実データで実験してしっかり評価するという論文が多く通っている印象です。大学の教員が企業を兼務していたり、インターンの学生が検索エンジン会社に行って仕事したのをまとめていたりと、企業と大学の連携がうまくいっているということでしょうね。 WWW2009survey.pdf
_ [研究] 査読システムの破綻 もっと緻密な議論が他にあるはずですし、当たり前の結論になってしまうのですが一応書いてみます。100人の研究者コミュニティがあったとしましょう。1人の研究者が年間平均k本の査読付き論文を投稿するとします。論文1本の採否を判定するためには査読が平均s本必要です。コミュニティの中で実際に査読をしている人の割合はaだとしてみましょうか。さて、1人の査読者が年間に行う査読本数は何本になるでしょうか(単位をサドークとでもしてみましょうか)。単純に計算すると k * s / aですね。実際の数値はなかなか推測しにくいのですが、乱暴にk=4, s=2.5, a=.3としてみます。結果は約33サドークです(もっとしてるぞという方もいるかと思いますが。。。)10日に1本は査読している計算ですね。これが意味するところは、1人の研究者が3カ月以上かけた仕事を10日をはるかに下回る
_ [大学] 助教の募集 まだファカルティになって1年ちょっとなのですが、東京大学生産技術研究所の助教ポストを割り当てていただきました。特任ではない助教です。公募をかける手もあるのですが、まずはここで募集をしてみることにします。ご興味のある方、適合しそうな方をご存知の先生方につきましては、是非私まで履歴書と業績リストを添えてご連絡下さい。 募集人員:助教1名 研究分野:ウェブ工学 職務内容:大規模ウェブ検索・マイニング・テキスト解析・可視化・収集蓄積に関する先進的研究を推進する方。採用後は大学院教育にも携わることになります。 採用予定時期:決定次第できるだけ早い時期 応募資格:博士の学位を有するか採用時までに取得する見込みの方
_ [研究] リンクスパムの分布図 PageRankのようなリンクに基づく検索結果ランキング手法を騙そうとする行為をリンクスパムと呼びます。大量にドメインを確保したり、業者同士で結託したりして、密なリンク構造を構成するのが簡単な方法です。日本語ウェブアーカイブから、そのほんの一部を抽出してグラフ構造を可視化すると以下のようになります(丸はサイトの集合で、線はサイト集合間のリンク)。真中のグレーの丸は、ウェブグラフの中心にあたります。これは全サイトの3分の1くらいが含まれる巨大な強連結成分で、良いサイトも悪いサイトも山ほど含まれています(中の数字は、含まれるサイト数)。その周りに浮遊している黒い丸が、スパムサイトからなる強連結成分です。1つ1つに数百から数千の相互に強く結びついたスパムサイトが含まれています。スパムの強連結成分同士がまた密な構造を作っていてなかなか興味深い図になっています。昨
_ [大学] 大学院講義「ウェブ工学」のネタ選び 10月開講の「ウェブ工学」で何をネタにするかそろそろ考えなくてはいけない。ウェブ工学ってなんだってのはひとまず置いておいて、ウェブ関係のネタで研究ができるようになることを目標とし、それに必要な基礎知識はなにか、というあたりから考えていくことにしよう。とりあえず思いついたものから挙げてみる。 The Anatomy of a Search Engine まずは、これを読めるような基礎知識を教えないといけないだろう。これの後に、この手のサーチエンジンアーキテクチャ論文ってあるのかな?あ、Anna Pattersonの記事とかあったなあ。 Tech Report: SRC-RR-175: The Link Database: Fast リンクデータベースの作り方。PageRankやHITSなどを実際にウェブのスケールで計算しようとするとこのあたり
_ [学会][WWW2007] AIRWeb 2007 この日はAdversarial Information Retrieval on the Web (AIRWeb'07)に参加。ホームページで全論文が公開されている。以下ピックアップ。 Splog Detection Using Self-similarity Analysis on Blog Temporal Dynamics Yu-Ru Lin, Hari Sundaram, Yun Chi, Junichi Tatemura and Belle Tseng ポストの時間分布、内容・リンク先の自己相似性でsplogを判断する。時間情報を利用するのがちょっと新しい。ただ若干ナイーブな手法なのでだますのは簡単そう。 A Large-Scale Study of Link Spam Detection by Graph Algorith
_ [業界] 大航海公募結果 モデルサービスの開発と実証に関する公募結果が13日に出ていたことに今頃気が付きました。ドコモと日航が採択されたようです。どんなモデルサービスを開発するのか気になりますね。ところで勘違いされている方がいると困るので一応書いておきますと、私は公募関連については一切関知していませんし、このあたりの開発にたずさわることもありません。 公募(METI/経済産業省) _ [業界] 大航海公募結果についてのITproの記事 以下の記事には、計画されているサービス内容まで書かれてますね。ドコモの「行動連鎖型検索エンジン」はコンシューマ寄りですが、行動履歴を使われるのにはちょっと抵抗のあるところ。ロケーションアウェア、履歴利用検索なんてのは相当昔から言われていることではあるのだけど、ドコモの持ってる膨大な履歴データがあればなにか新しいことができそうなのでしょうか。一方日航のはか
_ [業界] 英語クエリに対する検索結果の違い 例えば、"lucene"を、google.co.jpとyahoo.co.jpで検索すると、Googleでは日本語のlucene紹介ページがトップに、Yahoo!ではluceneの英語オフィシャルサイトがトップに出てくる(以下参照)。 lucene - Google 検索 Yahoo!検索 - lucene 英語のオフィシャルサイトを探そうとするときには、Googleの結果は日本にローカライズしすぎていてフラストレーションがたまる。2ページ目、3ページ目に行っても、オフィシャルサイトを出してくれないので、「ウェブ全体から検索」をチェックして検索しなおさないといけない。これが結構手間なのである。日本人にとっては日本語サイトの方が好まれそうなのではあるが、オフィシャルサイトくらいは最初のページに出しても良いのではないか。この点、Yahoo!は適度に
_ [研究] 講演内容を詳しく紹介していただきました 先日風間さんに呼ばれて研究会で講演をしましたが、そのときの様子を風間さんが紹介してくださっています。大変詳細で感動しました。ありがたいことです。風間さんどうもありがとうございます。 Cafe Babe - 招待講演「大規模Webアーカイブの時空間分析とその実際」 これを見たょゎさんという方が、WWW2006で発表した論文を読んでくださったようで、概要を紹介して頂きました。ちょっとご期待からは外れていたようですが、なにかヒントにはなりそうとの感想を頂きました。これもまた大変ありがたいことです。つまんねーとか書かれなくてよかったあ。 xe-kdoo(2007-02-11)
_ [学会] 招待講演@知能ソフトウェア工学研究会(KBSE)&知識ベースシステム研究会(JSAI-KBS) という研究会で「Web情報処理」という特集があり、某風間さんに呼ばれて招待講演をしてきました。「大規模Webアーカイブの時空間分析とその実際」という怪しげな題目で、デモを交えつつ1時間ほど。だいたいこれまでのWeb関係の仕事のダイジェスト版ですが、ちょっとだけ実装よりの話も入れました。使ったスライドは以下においてあります。 kbse-jsai-kbs.pdf
_ [テレビ] デジタル放送とB-CASとNHK 恥ずかしながらB-CASカードなる仕組みがあることを初めて知った。先日デジタルチューナー付きのテレビを買ったのでようやく気が付いた次第。しかしこれがどうにもこうにも腑に落ちない。 デジタル放送というのはB-CASカードをテレビに刺さないと見られないものらしい テレビの設置に来た人が、B-CASカードの登録を「必ず」してくださいと言い残して行った。個人情報をはがきに書いて送ればよいようだ。 でも、B-CASのホームページを見ると強制ではないと書いてある→B-CAS*Q&A* よくよく見ると、無料のデジタル放送については特に登録は必要ない。でも、NHKのBSデジタル放送は、30日後以降に受信確認メッセージなるものをオーバーラップ表示して視聴を妨害するそうだ。メッセージを消すには、NHKに個人情報を伝えなくてはならない。 B-CASの登録を行うと
_ [WWW2006] 本会議1日目 今日から本会議。オープニングではSir Tim Berners-Lee他3名がパネル討論でセマンティックセマンティックとおっしゃっていた。参加したセッションは、Fighting Search Spam、Browsers、Web Mining。Web Miningセッションでは自分の論文発表。反省点多し。以下、後で読もうと思っている論文と、私の論文の紹介。 Topical TrustRank: Using Topicality to Combat Web Spam PageRankをTopic Sensitive PageRankにしたように、TrustRankをTopicalTrustRankにした。のか?良くわからなかったので後で読む。 Detecting Spam Web Pages through Content Analysis ページコンテン
_ [開発] POEクローラが固まる 趣味で書いているPOE版簡易クローラだが、ある程度動かすとPOE内部で無限ループに落ちてしまうようだ。再現したりしなかったりで、どうも原因が特定できない。Xango使ってクローラ書いている人(YappoLogs: 大晦日だからXangoをhackる)もそんなことを書いているので、POEに何か問題があるのかもしれない。でもPOEの内部は訳がわからないんだよなあ。 (追記)特定のURLで固まることを突き止めた。wgetでは普通に404が返ってくるのだが、なぜかPOE::Component::Client::HTTPでは固まる。原因は中を深く追わないと分からなそうだ。うーむ。
_ [業界] ブログ・RSSフィードの検索・ランキングサービス 意外とまとまったリストが無いようだ。参入障壁が低いのか調べ始めたらでるわでるわ。というわけで、後々整理・拡充予定なので抜けがあったら教えてください。順番は思いついた順、見つかった順で他意はありません。ブックマークサービスとか、RSS配信サービスとかはどうすんのかな。 Bloglines Technorati(日本) Google Blog Search MSN Search(hasfeed: オプション) Ask.jp : ブログ検索 goo ブログのブログSearch livedoor 検索 ブログ jetrun: RSSとブログ検索 NAMAAN ブログ検索エンジン Bulkfeeds blog search BLOGNAVI 31Engine にほんブログ村 BlogPeople JRANK ブログ検索サーチ blogW
このページを最初にブックマークしてみませんか?
『www.mtoyoda.com』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く