タグ

2011年9月21日のブックマーク (8件)

  • 日本生まれのクラウドノート「KYBER」がすごい理由 (1/3)

    オーリッドという日IT企業が注目を集めている。売上高は40億円規模。法人向けWebサービスを提供していたが、昨年から個人向けサービス「KYBER」を開始した。16日に発売した「KYBER Smartnote」(写真、3冊1500円)は、そのサービスの目玉だ。 見た目はごく普通のノート。メモをしたり、議事録をとったり、普通のノートとして使える。ノートをiPhone付属のカメラで撮影し、KYBERのWebサイトにアップロードすると、画像のデータがクラウドサーバー上で管理される(Androidには10月対応予定)。そこまではこれまでのクラウドサービスにもあったもの。「Evernote」を思い浮かべる人もいるだろう。 だが、話はここからだ。 しばらくすると、手書きのメモが文字データになって送られてくる。いわゆるOCR(画像からの文字起こし)だが、その精度は異様に高い。ほぼ完璧だ。納品までも最速

    日本生まれのクラウドノート「KYBER」がすごい理由 (1/3)
  • はてなインターン2011リーダーがレポートを書きました - ポクポク

    こんにちは、はてなインターン2011リーダーのpokutunaです。 意識の高い記事は id:gigi-netが、面白おかしいテキストは id:uasiにやられてしまった。 他のインターン生のレポートも素晴らしいものばかり、もう私が特別述べるべきことはありません。 なので僕は人に欠かすことのできない""についての情報を発信しようと思います。 インターンについて詳しく知りたい方は他のインターン生のレポートを読めばいいのではないでしょうか。 はてなインターンが終わって始まった - 夜から朝にかけて はてなエンジニアインターンに女子で初めて参加したよ!その1 - 失敗は成功の元 意識の高い学生(笑)がはてなインターンシップに参加すべき5つの理由 - 5.1さらうどん - 過去ログ はてなインターンに意識の低い学生が参加して社長にTシャツ売りつけた話 - Yarukidenized:ヤルキデナイ

    はてなインターン2011リーダーがレポートを書きました - ポクポク
  • 転置インデックスの索引の効率的な保存 - Negative/Positive Thinking

    はじめに 索引データの保存に関する記事を読んだのでメモ。 索引データの効率的な保存 ドキュメント数やできた索引数が多くなるにつれ、効率的に索引データを保存することが重要になってくる 工夫して索引データを保存することで、いろんなメリットがある メモリの節約 ディスクのIO処理が減って読み込みスピードアップ 各手法 例えば転置インデクスでの索引では「索引単語:ページ番号1、ページ番号2、、、」という感じになっているので、右側のページ番号(整数列)を効率よく格納することを考える。 整数列をそのまま保存するのではなく、ソートしてその差分を保持するようにして符号化することで、効率よく格納することを考える。 VarByte バイト単位の操作のみで符号化できる 整数を1〜5byteで符号化(最上位1bit+下位7bit) 整数の1byte分読み込む 下位7bitに整数を入れる。もし、もとの整数が入りきら

    転置インデックスの索引の効率的な保存 - Negative/Positive Thinking
  • 転置インデックスの圧縮 - tsubosakaの日記

    Managing Gigabytes勉強会で転置インデックスの圧縮の話が出たので実際に圧縮を行った場合にどれくらいのサイズになるかを計測してみた。 利用したデータは英語版Wikidiaの全記事で 文書数 2,872,589 単語数 2,735,620 転置インデックスのポインタの数 397,603,176 ぐらいのサイズのデータです。 無圧縮の転置インデックスのフォーマットは 単語ID,文書数,文書1,....文書N, 単語ID,...で各項目4byteとなっており、1.5Gぐらいのサイズになっています。 これに対して各圧縮アルゴリズムを適用した結果は アルゴリズム 無圧縮 Variable Byte Code unary符号 γ符号 δ符号 Rice Coding pforDelta(仮) サイズ 1537MB 497MB 239475MB 474MB 407MB 367MB 455MB

    転置インデックスの圧縮 - tsubosakaの日記
  • Newman アルゴリズムによるソーシャルグラフのクラスタリング

    昨今よく耳にするキーワード「ソーシャルグラフ」。その可能性・活用方法について様々な企業に注目されています。今回はその「ソーシャルグラフ」を「どうすればクラスタリングできるのか?」という観点で、グラフに対するクラスタリングの基礎を説明いたします。また、具体的なクラスタリング手法として Newman アルゴリズムをご紹介いたします。Read less

    Newman アルゴリズムによるソーシャルグラフのクラスタリング
    yu4u
    yu4u 2011/09/21
    modularity Q
  • twitter日本語ユーザーのソーシャルグラフダンプ - 不可視点

    twitter語ユーザー100万人分のフォローイングとプロフィールのダンプを作成しました。 レコメンデーションの実験や分析に使えるかもしれません。 プロフィール: 108万人分のスクリーンネームや自己紹介文 フォローイング: 103万人分のフォローイング先ID一覧です。 展開すると300万ノード 2.8億エッジになります。(※被フォローエッジを含みません) 以下のURLからダウンロードできます 今回はMongoDBをストレージにしました。ダンプの利用にはMongoDBのインストールが必要となります。 https://github.com/penguinco/yats-socialgraph-dump 使い方: $ git clone git://github.com/penguinco/yats-socialgraph-dump.git $ cd yats-socialgraph-du

    twitter日本語ユーザーのソーシャルグラフダンプ - 不可視点
  • projects:twitterソーシャルグラフからのコミュニティ抽出 [ryogrid.net]

    以下サイトでTwitterのソーシャルグラフが配布されている。 # 103万人分、2.8億エッジという驚愕の規模 http://d.hatena.ne.jp/code46/20110130/p1 今回、このデータを題材としたコミュニティ抽出のプログラムを書いたので、開発過程のいろいろをまとめておく。 一部、Amazon Elastic MapReduceでの分散処理などもやってみたので、MapReduceやCloudに興味を持つ人にも利益があるかもしれない。特に、実アプリ開発を題材とした事例紹介はWeb上でも少ないようなので、そういった位置づけでは価値があるのではないかと思う。 ソーシャルグラフ、コミュニティ抽出(≒クラスタリング?)の概要については以下が分かりやすい。 http://www.slideshare.net/komiyaatsushi/newman-6670300 実は、以前

  • 東京アメッシュ

    Copyright © Bureau of Sewerage Tokyo Metropolitan Government. All rights reserved.