タグ

2009年3月15日のブックマーク (23件)

  • XMLの歴史

    博物館情報学の基要素の1つにメタデータがあります. メタデータの記述には様々なものがありますが,現状,XML(Extensible Markup Language)を用いて記述する方法が有力視されているようです. XMLとは,データや意味の構造を記述する言語で,主にW3C(World Wide Web Consortium)というWWW(World Wide Web)で用いられる技術の標準化を進める団体が中心になって策定されています.XMLは1998年に標準化されましたが,XMLを利用するにあたり,これまで様々な派生言語が登場しています.前回のエントリで述べたRDFもその1つです. 今回は,今年10年目を迎えるXMLの歴史を,NiftyのTimelineというサービスを用いて年表にしてみました.横軸は年代,縦軸はXMLが理解しやすい?独自分類となっています. 以下,Timelineによる

    mzi
    mzi 2009/03/15
  • 「ダウンロード違法化」「検索キャッシュ合法化」盛り込んだ著作権法改正案が閣議決定

    政府は3月10日の閣議で、いわゆる「ダウンロード違法化」などを盛り込んだ著作権法改正案を閣議決定した。ネット時代への対応を主眼に置いた改正案で、今国会に提出し、来年1月1日の施行を目指す。 改正案では、違法録音・録画物を違法と知りながらダウンロードする行為を禁止。違法着うたの広がりなどに対応した規定で、罰則はない。 検索エンジンのキャッシュや、データバックアップのためのキャッシュは著作者の許諾を得ずに行えると規定。検索事業者は日国内にサーバを置けるようになる。 海賊版DVDなどをネットオークションに出品する行為を禁止する規定も設けた一方、美術品などをオークションに出品する際の写真のネット掲載は、著作者の許諾なしでできるようにする。 国立国会図書館に納された書籍の電子アーカイブ化や、言語処理研究などデータ解析に必要な複製、障害者向けに文字情報を音声化/音声情報を文字化して配信する行為も、

    「ダウンロード違法化」「検索キャッシュ合法化」盛り込んだ著作権法改正案が閣議決定
  • エンタープライズに浸透するSaaS

    米OpSourceの「SaaS Summit」に参加した業界専門家やベンダー、ユーザーによると、今やエンタープライズ分野におけるSaaSは、ストレージやデータ保護とともに、今日のIT産業における最も活発な市場になった。現在の厳しい経済環境も追い風になっているようだ。 大企業によるSaaS(サービスとしてのソフトウェア)の利用は、いずれITの最もホットな分野になる。ここ数カ月、もしかするとここ数年、アナリストや研究者はそう主張し続けてきた。その考えは、いまようやく実際に利用している人々の声によって実証されようとしている。 今年で4回目を迎えた米OpSourceの「SaaS Summit」。カンファレンスに参加した業界専門家やベンダー、ユーザーによると、今やエンタープライズSaaSは、ストレージ、データ保護とともに、今日のIT産業における最も活発な市場になったという。 「現在の景気状況がわれわ

    エンタープライズに浸透するSaaS
  • 「科学の世界」を地図に:10億のデータベース交流を可視化 | WIRED VISION

    前の記事 スペースデブリ接近で、ISS乗組員が緊急避難 「科学の世界」を地図に:10億のデータベース交流を可視化 2009年3月13日 Brandon Keim 知識の追求には形がある。 ロスアラモス国立研究所の研究者たちが、学術的なデータベースでの10億を超えるやりとりのデータを分析し、さまざまな科学分野の関係を詳細な地図にまとめた。 科学の地図が作られたのは今回が初めてではない。しかし同チームは、自分たちの地図がこれまでで最高だと主張している。彼らによると、これまでの地図は最新の研究動向を反映しておらず、自然科学系データベースの比重が大き過ぎるという。 だからこそ、『Public Library of Science』が運営する『PLoS ONEに掲載された今回の地図は、どこか天の川に似ているのかもしれない。一方、『Nature』誌や『Seed』誌が高く評価する以下の美しい科学の系統図

  • クラウドが救う経済危機下の企業経営

    将来の有望な「概念」くらいのニュアンスでとらえられていたクラウドコンピューティングが、世界的な不況により急遽救世主になりつつある。『「クラウド・ビジネス」入門 -世界を変える情報革命』の著者、林雅之氏にクラウドが示す企業経営の未来について話してもらった。 米国発の金融危機による世界同時不況が続いている。オバマ新政権の誕生により、この経済危機の打開に向けて、世界中から大きな期待が寄せられている。オバマ大統領は、ブラックベリーを愛用するなどITに明るく、米国全土のブロードバンド化を推進するなどIT政策の展開が期待される。 政府とクラウド オバマ新政権は、政権移行時の「Change.gov」のサイトにおいて、Salesforce.comが提供するクラウドコンピューティングサービス「Salesforce CRM Ideas」を採用し、国民からの意見を広く募集するなど積極的なクラウドの活用を行ってい

    クラウドが救う経済危機下の企業経営
  • クラウドコンピューティングの幻想から目覚めよ

    クラウドコンピューティングがあたかも時代の救世主であるように論じられている。過熱ぶりを見ながら、真っ先にわたしが思い出したのはNGNだ。3月19日に著書『クラウドコンピューティングの幻想』(技術評論社)を発売するエリック松永氏に話してもらう。 ITアナリスト、ITベンダー、ブロガーなどさまざまなタイプの人々により書籍、講演やさまざまなメディア上でクラウドコンピューティングがあたかも時代の救世主であるように、毎日どこかで論じられている。クラウドコンピューティングの過熱ぶりを見ながら、真っ先にわたしが思い出したのはNGNだ。 バズワードの罪 わたしは以前「NGNは情報通信革命のジャンヌダルクではない」という記事の中で、まずはNGNというバズワードの質的な意味を理解することの重要性を書いた。提供者側の理論で語られるバズワードを鵜呑みにしていては、利用者側はそのバズワードの質も価値も分からず、

    クラウドコンピューティングの幻想から目覚めよ
  • マイクロソフトの企業向けクラウドは「自社運用型との共存」指向

    自社運用とクラウドの共存を推し進めるマイクロソフト クラウド型のサービスは、データセンターやIT機器の管理をサービスの提供側にゆだねることができ、ユーザー数などを自由に追加できる拡張性を持つ。一方、サービスという形態のため、企業ごとに使う機能をカスタマイズして追加するといった個別の要件を思い通りに実現できない場合もある。 BPOSは、運用形態によって「Standard」と「Dedicated」という2種類のサービスを用意し、自社運用のシステムとクラウド型のサービスを共存できるようにしている。 Standardは、サービスを提供するインフラを1つのアーキテクチャに統合し、その上で顧客ごとの環境を構築するマルチテナント型のサービス。「有りもののインフラを使うため、ユーザー数を柔軟に追加できる」(マイクロソフトインフォメーションワーカービジネス部、ビジネスオンラインサービスグループの磯貝直之マ

    マイクロソフトの企業向けクラウドは「自社運用型との共存」指向
  • nabeweb :: Comparisons of Sequence Labeling algorithms and Extensions

    Comparisons of Sequence Labeling algorithms and Extensions 今日のDMLA勉強会ではmatsu先生が Nam Nguyen and Yunsong Guo Comparisons of Sequence Labeling Algorithms and Extensions ICML 2007 を紹介。HMMs、CRFs[Lafferty 2001]、SVM multiclass[Crammer & Singer 2001]、SVM struct、M3N[Taskar 2003]、Perceptron[Collins 2002]、SEARN[Daume III 2006]といったSequence Labelingアルゴリズムの比較の話と、Ensemble学習の手法を提案したという内容。 実験でこれらの手法をPOS TaggingとOC

  • CRFsuite - CRF Benchmark test -

    This is the list of CRF implementations and versions (the latest as of 1st July 2011) used for the experiments. The experiments use the training and test sets of CoNLL 2000 chunking shared task. We employ the same feature set among different CRF implementations; state (unigram) and transition (bigram) features are generated from the training and test sets by applying the feature template bundled i

  • 「プロジェクト杉田玄白」形態素解析済みコーパス - コーパスいぢり

    プロジェクト杉田玄白」が公開しているデータに形態素情報を付与したコーパスが公開されたようです。形態素情報はChaSen版とJUMAN版があり、フォーマットは国語研の「ひまわり」に準拠しています。詳しくは、コチラ → http://nlp.kuee.kyoto-u.ac.jp/NLP_Portal/jeita_corpus/index.htmlプロジェクト杉田玄白に関しては、コチラ → http://www.genpaku.org/

  • Top 5 Database Research Topics in 2008

    岡野原君が自然言語処理関連で2008年に読んだ論文のベスト5を紹介しています。それに倣って、僕も個人的にインパクトのあった2008年のデータベース研究のベスト5を集めてみました。 Michael J. Cahill, Uwe Röhm and Alan D. Fekete. Serializable Isolation for Snapshot Databases. SIGMOD 2008. (ACM DOI) 真っ先に思い浮かんできたのがこの論文。SIGMOD2008のベストペーパーでもあります。僕自身、トランザクション処理を長く研究していた経験から、Serializability(ディスクのread/writeの順番をあるプロトコルに従って入れ替えても、データベースの検索・更新結果に影響を与えない)を保障しつつ、一秒間あたりに処理できるトランザクションの数(つまりスループット)を上げる

    Top 5 Database Research Topics in 2008
  • 情報検索ことはじめ〜教科書編〜 - シリコンの谷のゾンビ

    2011-01-18追記 教科書編その2 にて2011年版のIR教科書を紹介しています 情報検索(IR)の勉強を格的に始めて8ヶ月.大体どんな分野があって,どんなことを勉強すればいいのかわかってきた(と思う).この気持ちを忘れないうちにメモしておこう.以下,若輩があーだこーだ言ってるだけなので,間違いや他に情報があれば,ぜひコメントをお願いします. # ここで述べている情報検索とは,コンピュータサイエンスの一分野としての情報検索です.図書館情報学の側面は一切扱っていません,あしからず. というわけでまず教科書編. 腰を入れて勉強する場合,基礎づくりのためには教科書選びがいちばん重要だと思っている.自分の知っている限り,情報検索における教科書の選択肢はそれほど広くはない.以下に紹介するは,情報検索を学ぶ上で「買い」の.これらを読めば,最新の論文を読めるだけの土台はできるし,専門家と議

    情報検索ことはじめ〜教科書編〜 - シリコンの谷のゾンビ
  • IR研究者をスコアリングしてみた - シリコンの谷のゾンビ

    前回の記事に対するブックマーク,コメントありがとうございます. 最初の四天王は考えてみれば,アルゴリズムと検索アーキテクチャにかなり寄っていました.情報検索の中でも「全文検索システム」という観点で見ていたからです. IRと一言でいっても(人工知能ほど大きな分野ではないかもしれませんが)自然言語処理やデータマイニングくらい広い分野です.四天王なんて枠組みではとうてい語ることなぞできませんでした.そしてIR四天王という名称は語弊を招く表現でした.言ってみたかっただけです,すみません. 分野ごとにあれば面白いという意見を頂いたり,具体的な研究者も紹介していただきました.ありがとうございます. そんなコメントを頂いたにもかかわらず,ゆとりなんで自動的に研究者リストをつくれないかなぁということを考えていました.DBLPのデータを解析すれば,単純にトップ会議に沢山論文通している研究者取得できるじゃん,

    IR研究者をスコアリングしてみた - シリコンの谷のゾンビ
  • 日本語 WordNet (wn-ja)

    語 WordNet リリース * 画像 * ダウンロード * 今後の予定 * 参考文献 * リンク * English プロジェクトでは、 Princeton WordNet や Global WordNet Gridに 着想をえて、日語のワードネットを構築し、オープンで公開します。 独立行政法人情報通信研究機構(NICT)では、自然言語処理研究をサポー ト する一環として、2006年に日語ワードネットの開発を開始しました。最初の 版、version 0.9は、2009年2月にリリースされました。このversion 0.9は、 Princeton WordNetのsynsetに対応して日語をつけています。もちろん、 Princeton WordNetにはない日語synsetを付与する必要があり、また、 Princeton WordNetにみられるsynsetの階層構造に、

  • SIGMOD2009 Accepted Papers

    Yahoo! Researchの"Generating Example Data for Dataflow Programs"は恐らくPig Latinのデバッグ用のサンプルデータ生成の話。Hadoopなどの上で、複雑なデータ構造を動的に組み立てていくプログラム書きながら、横に実行結果の例を「適切に」示したサンプルが表示されると、わかりやすいよね、という話。”Towards a simpler XML Schema: effortless handling of nondeterministic regular expressions”はついに来たか、という感じ。Relational styleの考えが入っていて、スキーマ(relation)から考えられるいろいろな木構造をNFAを使って同時に検証する、という流れだったら嬉しい。"DDE: From Dewey to a Fully Dyn

    mzi
    mzi 2009/03/15
    sigmod2009
  • Hadoop 調査報告書

    Hadoop 調査報告書 エヌ・ティ・ティ レゾナント株式会社 株式会社 Preferred Infrastructure 平成 20 年 8 月 25 日 • 免責条項 報告書はエヌ・ティ・ティ レゾナント株式会社 (以下「NTT レゾナント」)と株式会社 Preferred Infras- tructure(以下「Preferred Infrastructure」) が作成したものですが、報告書の内容及び情報の正確性、完全性、 有用性について、NTT レゾナント及び Preferred Infrastructure は保証を行なっておらず、また、いかなる責 任を持つものでもありません。 報告書の著作権は NTT レゾナントに帰属します。 報告書の「プリントアウト」「コピー」「無料配布」は可能ですが、変更、改変、加工、切除、部分利用、要 約、翻訳、変形、脚色、翻案などは禁止します

  • web+db レコメンド特集 サンプルコード - DO++

    - WEB+DBプレスの「[速習]レコメンドエンジン」のサンプルプログラムを訂正してみる にあったように、WEB+DB PRESS 49号 レコメンド特集での誌上のサンプルプログラムに誤植があり、そのまま書くとコンパイルできないという問題がありました。 サンプルコードの修正をぎりぎりにお願いして、ゴミが残ってしまったのが原因です。 ご迷惑をみなさんにおかけしました。すいません。 WEB+DB PRESS Vol.49サポートページ ここから、動かせるサンプルコード(Part3用のサンプルコードというところ)をダウンロードできるので、買った方も(そうでない方も?)参考にしてみてください。 以後、気を付けます。

    web+db レコメンド特集 サンプルコード - DO++
  • NLTK :: Natural Language Toolkit

    Natural Language Toolkit¶ NLTK is a leading platform for building Python programs to work with human language data. It provides easy-to-use interfaces to over 50 corpora and lexical resources such as WordNet, along with a suite of text processing libraries for classification, tokenization, stemming, tagging, parsing, and semantic reasoning, wrappers for industrial-strength NLP libraries, and an ac

  • イラストで知る研究の世界とその醍醐味

    例えば大学4年で卒業し就職してしまうと(法学部や経済学部に多い)全くといっていいほど研究の世界を知らないまま社会に出ることになります。日では、報道などのメディアに就職する方も学部卒ということが多いため、テレビ・新聞などで研究の世界について深く書かれた記事を目にする機会はほとんどありません。 NHKのサイエンス・ゼロなどの番組で、研究者の様子を垣間見ることもできます。しかし、番組は研究の世界の一側面を見せているだけであり(取材時間に比べてカットが多く、内容も製作者の主観に左右される)、研究の世界で活躍していて評判の高い人は、実はほとんどメディアにでてこない事情もあります(「21歳からのハローワーク(研究者編)」を参照)。そのような研究者は、論文という形で一生懸命アウトプットを出しているのですが、論文は学部教育や大学院、博士での研究トレーニングを経ないと読みこなせない(研究の内容だけでなく、

    イラストで知る研究の世界とその醍醐味
  • はてなブログ | 無料ブログを作成しよう

    オーベルジーヌ実レポ べ物の鼻塩塩(未だに通じるのかな) オーベルジーヌというカレーをご存知だろうか 都内にあるデリバリー専門のカレー屋で、 ロケ弁などで大人気の格欧風カレーが楽しめるらしい いいな〜 いいな〜オブザイヤー 都内の奴らはこんな良いモンってんのか 許せねえよ………

    はてなブログ | 無料ブログを作成しよう
  • Advances in Web Mining and Web Usage Analysis

    Advances in Web Mining and Web Usage Analysis 9th International Workshop on Knowledge Discovery on the Web, WebKDD 2007, and 1st International Workshop on Social Networks Analysis, SNA-KDD 2007, San Jose, CA, USA, August 12-15, 2007, Revised Papers Conference proceedings © 2009 Overview Editors: Haizheng Zhang0, Myra Spiliopoulou1, Bamshad Mobasher2, C. Lee Giles3, Andrew McCallum4, Olfa Nasraoui5

    Advances in Web Mining and Web Usage Analysis
  • Robert Sedgewick - Robert Sedgewick

    Robert Sedgewick is the founding chair and the William O. Baker Professor in the Department of Computer Science at Princeton University. He was a member of the board of directors of Adobe Systems from 1990 to 2016, served on the faculty at Brown University from 1975 to 1985, and has held visiting research positions at Xerox PARC, IDA, and INRIA. His research expertise is in algorithm science, data

    Robert Sedgewick - Robert Sedgewick
  • Ontological Representation of Texts, and its Applications in Text Analysis

    Next: Preface Contents Index [E] [R] Ontological Representation of Texts, and its Applications in Text Analysis Bent Andr� Solheim - Kristian V虍snes Abstract: For the management of a company, the need to know what people think of their products or services is becoming increasingly important in an increasingly competitive market. As the Internet can nearly be described as a digital mirror of even