yu4uのブックマーク / 2011年9月21日 - はてなブックマーク

yu4u id:yu4u

2011年9月21日のブックマーク (8件)

日本生まれのクラウドノート「KYBER」がすごい理由 (1/3)
オーリッドという日本のIT企業が注目を集めている。売上高は40億円規模。法人向けWebサービスを提供していたが、昨年から個人向けサービス「KYBER」を開始した。16日に発売した「KYBER Smartnote」（写真、3冊1500円）は、そのサービスの目玉だ。見た目はごく普通のノート。メモをしたり、議事録をとったり、普通のノートとして使える。ノートをiPhone付属のカメラで撮影し、KYBERのWebサイトにアップロードすると、画像のデータがクラウドサーバー上で管理される（Androidには10月対応予定）。そこまではこれまでのクラウドサービスにもあったもの。「Evernote」を思い浮かべる人もいるだろう。だが、話はここからだ。しばらくすると、手書きのメモが文字データになって送られてくる。いわゆるOCR（画像からの文字起こし）だが、その精度は異様に高い。ほぼ完璧だ。納品までも最速
yu4u 2011/09/21
webサービス

クラウド
リンク
はてなインターン2011リーダーがレポートを書きました - ポクポク
こんにちは、はてなインターン2011リーダーのpokutunaです。意識の高い記事は id:gigi-netが、面白おかしいテキストは id:uasiにやられてしまった。他のインターン生のレポートも素晴らしいものばかり、もう私が特別述べるべきことはありません。なので僕は人に欠かすことのできない"食"についての情報を発信しようと思います。インターンについて詳しく知りたい方は他のインターン生のレポートを読めばいいのではないでしょうか。はてなインターンが終わって始まった - 夜から朝にかけてはてなエンジニアインターンに女子で初めて参加したよ！その1 - 失敗は成功の元意識の高い学生（笑）がはてなインターンシップに参加すべき5つの理由 - 5.1さらうどん - 過去ログはてなインターンに意識の低い学生が参加して社長にTシャツ売りつけた話 - Yarukidenized:ヤルキデナイ
yu4u 2011/09/21
インターン

はてな
リンク
転置インデックスの索引の効率的な保存 - Negative/Positive Thinking
はじめに索引データの保存に関する記事を読んだのでメモ。索引データの効率的な保存ドキュメント数やできた索引数が多くなるにつれ、効率的に索引データを保存することが重要になってくる工夫して索引データを保存することで、いろんなメリットがあるメモリの節約ディスクのIO処理が減って読み込みスピードアップ各手法例えば転置インデクスでの索引では「索引単語：ページ番号1、ページ番号2、、、」という感じになっているので、右側のページ番号(整数列)を効率よく格納することを考える。整数列をそのまま保存するのではなく、ソートしてその差分を保持するようにして符号化することで、効率よく格納することを考える。 VarByte バイト単位の操作のみで符号化できる整数を1〜5byteで符号化(最上位1bit+下位7bit) 整数の1byte分読み込む下位7bitに整数を入れる。もし、もとの整数が入りきら
yu4u 2011/09/21
転置インデックス
リンク
転置インデックスの圧縮 - tsubosakaの日記
Managing Gigabytes勉強会で転置インデックスの圧縮の話が出たので実際に圧縮を行った場合にどれくらいのサイズになるかを計測してみた。利用したデータは英語版Wikidiaの全記事で文書数 2,872,589 単語数 2,735,620 転置インデックスのポインタの数 397,603,176 ぐらいのサイズのデータです。無圧縮の転置インデックスのフォーマットは単語ID,文書数,文書1,....文書N, 単語ID,...で各項目4byteとなっており、1.5Gぐらいのサイズになっています。これに対して各圧縮アルゴリズムを適用した結果はアルゴリズム無圧縮 Variable Byte Code unary符号 γ符号 δ符号 Rice Coding pforDelta(仮) サイズ 1537MB 497MB 239475MB 474MB 407MB 367MB 455MB
yu4u 2011/09/21
転置インデックス
リンク
Newman アルゴリズムによるソーシャルグラフのクラスタリング
昨今よく耳にするキーワード「ソーシャルグラフ」。その可能性・活用方法について様々な企業に注目されています。今回はその「ソーシャルグラフ」を「どうすればクラスタリングできるのか？」という観点で、グラフに対するクラスタリングの基礎を説明いたします。また、具体的なクラスタリング手法として Newman アルゴリズムをご紹介いたします。Read less
yu4u 2011/09/21
modularity Q

graph

clustering
リンク
twitter日本語ユーザーのソーシャルグラフダンプ - 不可視点
twitter日本語ユーザー100万人分のフォローイングとプロフィールのダンプを作成しました。レコメンデーションの実験や分析に使えるかもしれません。プロフィール： 108万人分のスクリーンネームや自己紹介文フォローイング： 103万人分のフォローイング先ID一覧です。展開すると300万ノード 2.8億エッジになります。（※被フォローエッジを含みません）以下のURLからダウンロードできます今回はMongo DBをストレージにしました。ダンプの利用にはMongo DBのインストールが必要となります。 https://github.com/penguinco/yats-socialgraph-dump 使い方： $ git clone git://github.com/penguinco/yats-socialgraph-dump.git $ cd yats-socialgraph-du
yu4u 2011/09/21
twitter

dataset

graph
リンク
projects:twitterソーシャルグラフからのコミュニティ抽出 [ryogrid.net]
以下サイトでTwitterのソーシャルグラフが配布されている。 # 103万人分、2.8億エッジという驚愕の規模 http://d.hatena.ne.jp/code46/20110130/p1 今回、このデータを題材としたコミュニティ抽出のプログラムを書いたので、開発過程のいろいろをまとめておく。一部、Amazon Elastic MapReduceでの分散処理などもやってみたので、MapReduceやCloudに興味を持つ人にも利益があるかもしれない。特に、実アプリ開発を題材とした事例紹介はWeb上でも少ないようなので、そういった位置づけでは価値があるのではないかと思う。ソーシャルグラフ、コミュニティ抽出(≒クラスタリング?)の概要については以下が分かりやすい。 http://www.slideshare.net/komiyaatsushi/newman-6670300 実は、以前
yu4u 2011/09/21
twitter

webサービス

graph
リンク
東京アメッシュ
Copyright © Bureau of Sewerage Tokyo Metropolitan Government. All rights reserved.
yu4u 2011/09/21
webサービス

weather
リンク
- 2011年9月22日
- 2011年9月21日
- 2011年9月20日