カーリルのミッションは、 日本の図書館をもっと楽しくすること。 それは、いまより”ちょっと楽しく”の積み重ね。 そのためのアイデア、毎日考えています。 カーリルについてもっと詳しく
以前実装した構築速度重視の動的ダブル配列 (表中 dda) の構築速度を Darts, darts-clone (0.32g beta5, 0.32e5), DASTrie (1.0), doar (0.0.10),簡潔データ構造を利用したトライ (tx 0.16) ,STL コンテナ (std::map, std::tr1::unordered_map) 辺りと比べてみた.キー集合としては,中規模で疎な集合(Wikipedia 英語版記事タイトル)と小規模で密な集合(郵便番号辞書)を用いた. ====================================================================== Wikipedia-en 記事タイトル | Build | Search | Search* | Size [bytes] =================
最近重点的に勉強しているので,これまで集めた教科書情報,資料等へのリンクをまとめてみる.紹介している教科書はほとんど読んでいないので妄言注意. この他にお薦め教科書,勉強法があればぜひ教えてください. 文字列探索は検索対象テキストの中から転置インデクスのような外部データ構造を利用せずに目的の文字列を探索する課題です.文字列探索,文字列照合,パターンマッチなどとも呼ばれています(一番オーソドックスな呼び方はなんでしょう?) 教科書 和書で文字列探索だけを取り扱っている本を見かけたことがない.アルゴリズム本の探索の章にKMP法,BM法が紹介されているだけのケースが多い.注意してみるとAC法を扱っている本が意外と少ないことに気がつく... (文字列探索でよい和書の情報募集中) 追記 (2009-04-02) Thanks to cubicdaiyaさん! 情報検索アルゴリズムにKMP法, BM法
本システムについて 本システムは、科学研究費補助金特定領域研究「情報爆発時代に向けた新しいIT基盤技術の研究」、情報システム研究機構「新領域融合センター 融合研究プロジェクト」、国立情報学研究所「学術コンテンツサービス研究開発センター」での成果を受けて研究開発されたデータベースリンケージのためのデモシステムです。 注意事項 本システムでは体験版のリンケージエンジンを使用しているため、一部の機能が限定されています。具体的には、入力について以下を想定しています。 (開発版ではこのような入力形式について、より柔軟な処理が可能になっています。また大量の入力を一括して処理するバッチ入力が可能です。) ソースデータおよび利用ツール 本システムは、国立情報学研究所のNII論文情報ナビゲータに登録された文献から抽出した約1100万件の論文の書誌情報(メタデータ)を使っています。英文を含め他の書誌データベー
GoogleのFellowであるJeffrey Dean氏のWSDM'09における講演"Challenges in Building Large-Scale Information Retrieval Systems"のスライドの翻訳の第2回です。Googleの検索システムの10年間の進化の軌跡が紹介されており、今回は2000年から2001年ぐらいまでの検索システムの一部の紹介となっています。個人的には転置インデックスの詳細な符号化方式が公開されているのが印象に残りました。Googleにとっては過去のインデックス構造でしょうが、商用の全文検索エンジンの詳細な仕様が公開されるのは珍しい気がします。なお、イタリック体で一部解説・感想をいれています。翻訳は素人なので詳しくは元の資料を参照してください。 第1回:Google WSDM'09講演翻訳:大規模な情報検索システム構築における課題(1)
GoogleのFellowであるJeffrey Dean氏のWSDM'09における講演"Challenges in Building Large-Scale Information Retrieval Systems"のスライドを翻訳してみました。Googleの検索システムの10年間の進化の軌跡が紹介されており、興味深い話が満載です。個人的にはディスクの外周部と内周部を使い分けている話がツボでした。なお、イタリック体で一部解説・感想をいれています。翻訳は素人なので詳しくは元の資料を参照してください。 スライドの入手元:Jeffrey Dean – Google AI 検索システムに取り組む理由 チャレンジングなサイエンスとエンジリアニングのブレンド 多くの魅力的な未解決な問題が存在する。 CS(コンピュータサイエンス)の多数の領域にまたがる。 アーキテクチャ、分散システム、アルゴリズム、圧
KOF2008:関西オープンソース2008というイベントに来ています。 はてなの伊藤さんの講演があったので、講演メモを公開。 #ボクがメモした内容であって、100%言ったとおりに書いてあるわけじゃないので、参考としてご覧ください。 (続き) アジェンダ 大規模なデータ OSのキャッシュ MySQLの運用 大規模データアプリケーションの開発 データの例 はてなブックマークのデータ量:五千万件くらいのデータ量 このデータに対して何百万人がアクセスしてくる状況でどういう作りにするか レコード数 1073万エントリー 3134万エントリー 4143万タグ データサイズ エントリー2.5GB 何の工夫もなく普通にアクセスすると...200秒待っても結果が帰ってこない 大規模データの難しいところ 開発サーバで開発者が作っている時は快適に動いていても、多数の人間がアク
日本最大の本の展示会「第14回 東京国際ブックフェア」が5日、東京ビッグサイトで開幕した。過去最多となる世界30カ国から770社が出店している。また、コンテンツのデジタル化・配信に関する技術やサービスを紹介する「デジタル パブリッシング フェア」も同時開催。グーグルが2日に公開した「Google ブック検索」日本語版を紹介している。 会場では、Google ブック検索の体験コーナーが設けられているほか、Google ブック検索に関するセミナーが行なわれ、立ち見が出るほどの盛況ぶりだった。また、グーグルのスタッフは、同社のブースに立ち寄った出版関係者らに対して、Google ブック検索によって実店舗における販売促進につながるなどのメリットをアピールしていた。 Google ブック検索は、出版社が提供した書籍をグーグルがインデックス化することで、書籍の全文を検索できるサービス。検索キーワードを
ジップインフォブリッジ株式会社提供 見える化の先を行くファイルサーバの「データベース化」計画 検索技術でファイルサーバを単に「見える化」するだけでよいのだろうか。ファイルサーバの利点を生かしながらコンテンツを整理し、整理後も積極的に利用し続ける方法とは。 進化を続けるエンタープライズサーチ 「情報共有に最終形はない」――情報爆発がもたらす探す手段の未来 インターネットの世界と同様に企業内でも情報が急増し、必要な情報の入手はますます困難になっている。そして専門家は情報の検索と共有にゴールはないと明言する。 CIOへの余震も エンタープライズサーチ市場に激震を与えたMicrosoftによるFastの買収 MicrosoftはFastの買収により、自社のエンタープライズサーチ技術に箔(はく)を付けるだけでなく、IBMやOracleといった大手インフラベンダーを追い抜くことになる。 次世代企業内検
UPDATE Microsoftは同社のエンタープライズ検索ツールの適正価格を見つけたと考えている。その適正価格とは、無償である。 2008年から、Microsoftは「Microsoft Search Server 2008 Express」と呼ばれる新製品を無償提供する計画だ。この製品では、複数のデータベース、社内のコンピュータシステム、インターネットにまたがる検索結果をまとめて閲覧することができる。Microsoftでは無償の製品に加えて有償バージョンも計画している。有償バージョンは基本的に無償バージョンと同じだが、複数の物理サーバで実行できるライセンスが受けられる。Microsoftは、有償バージョンの価格について2008年の発売日が近づいた時点で発表すると述べている。 しかし、Microsoftは現時点で製品を発表することによって、ある程度の注目を集めておいて、最終的にはエンター
企業内における情報発信の活性化や知識共有を促進させるソリューションとして注目される社内Blogや社内SNSの活用は、先進企業を中心に広まりつつある。しかし、発信された情報を常に網羅的にキャッチアップしていくことは困難であり、発信された情報を効率よく収集し、選別していく何らかの仕組みが求められるだろう。エンタープライズサーチは、まさにそうしたニーズに応えるものであると同時に、社内に蓄積された「知」の共有と再利用に大きく貢献するソリューションである。ここでは、エンタープライズサーチの必要性、各社の具体的な製品を読み解くためのポイント、代表的な製品の特徴などを紹介し、企業内検索に求められる要素を浮き彫りにしていく。 エンタープライズサーチとは? 普段、インターネットを利用していながら、GoogleやYahoo!に代表されるサーチエンジンサービスを利用したことがないという人は、まずいないだろう。イ
ナレッジワーカーと呼ばれる人々は、「イベントを企画する」「業務マニュアルの作成」などの定型的だが非定常的な作業や、「競合情報の調査」「クレーム処理」などの定常的だが非定型的な作業、さらには「研究開発のプロジェクト」「突発的に起こる事案」などの非定常かつ非定型な作業をもこなす立場にある(図1)。これらの業務はいずれもシステム化が難しく、プロセス化とともにナレッジ化のバランスのとれた推進が必要となるという。 サーチがみんなのナレッジを導き出す 上村氏はそのナレッジ化について、「作ったものをみんなが見つけるだけではなく、一緒に作っていく、作る中で情報の価値が向上する、タグなどで付加価値が追加される、ソーシャルネットワーク化する、といったことがナレッジ化を進めていく」と語る。それを支えるのが、「ナレッジワーカーインフラ」というものだ。 このナレッジワーカーインフラとは、コミュニケーションや情報発信
2008/03/24 検索エンジン開発の分野で有名になりつつある企業にPreferred Infrastructure(PFI、東京都文京区)がある。目を引くのは10人の社員がいずれも東京大学大学院、京都大学大学院の出身者、もしくは在学中ということ。東京大学大学院の情報系研究科出身者の多くが近年、Googleに入社していることは有名だが、PFIは、いわば、Googleに行かなかったGoogleレベルの学生たちが起業したといえる。エンジニア率100%のPFIは日本のテクノロジ・ベンチャーの姿を変えるだろうか。 PFIの代表取締役社長 西川徹氏は「ACM 国際大学対抗プログラミングコンテスト(ACM/ICPC)の世界大会に出場したメンバーと一緒に何かやりたかった」と起業の動機を話す。起業したのは2006年3月。資本金は30万円。当時の社員は6人で全員が学生だった。オフィスはなく、Skypeで話
Expired:掲載期限切れです この記事は,ロイター・ジャパンとの契約の掲載期限(30日間)を過ぎましたので本サーバから削除しました。 このページは20秒後にNews トップページに自動的に切り替わります。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く