タグ

dataに関するtorazukaのブックマーク (12)

  • Announcing Suro

    To make the best business and technical decisions, it is critical for Netflix to reliably collect application specific data in a timely fashion. At Netflix we deploy a fairly large number of AWS EC2 instances that host our web services and applications. They collectively emit more than 1.5 million events per second during peak hours, or around 80 billion events per day. The events could be log mes

    Announcing Suro
  • データで示す

    データで示す 客観的な評価のためにはデータを数字で示すことが重要だと思う。Amazonでは、データで定量的に示すものと、定性的にビヘイビアで示すもの、大きなところではリーダーシッププリンシパルに基づくか、の2つを評価軸として持っている。これは年間の評価だけではなくて、様々な点でこの評価軸を用いた。その結果として、別々のビジネスラインで、ビジネス状況は異なるようなメンバーでも、企業内での文脈がある程度同一にできていて、これが企業競争力につながっているように思う。個人としても学ぶべきものが多かったし、発見も多かった。 個人としては、データは大きく分けてオリジナルデータを極力そのまま掲載するものと、グラフ化して加工したものでは別々にしたほうがよいと思う。データはどこまで収集しておりどうなっているか、とそのデータをどう見たか、は全く別の話だからだ。正直にいうと、かなりの数のデータは加工されたものだ

    torazuka
    torazuka 2016/03/01
    生データは背景を確認し、加工データは意図を推測する。そもそもデータを使うのは前にすすむ意思決定をするためだよね、という素晴らしい記事!
  • Clean sheet: how to release data or statistics in a spreadsheet

    Releasing data or statistics in spreadsheets Follow these simple guidelines to make your data or statistical releases as useful as possible. Don’t merge cells. Sorting and other manipulations people may want to apply to your data assume that each cell belongs to one row and column. Don’t mix data and metadata (e.g. date of release, name of author) in the same sheet. The first row of a data sheet s

  • Database test data generator - Fill your database with random test data!

    Generate test data for your database Quick recipes to test real applications with random data Table Structure: Export Format: Generated rows: Use an existing data model and customize it to mimick your table structure or create one from scratch. # Column title Data type Delete Add Another Column Clear table Why do I need to fill a database with random data? When developing an application, you would

  • google-refine - Project Hosting on Google Code

    Code Archive Skip to content Google About Google Privacy Terms

  • New Fundamental Technologies in Data Mining | IntechOpen

    What is Open Access? Open Access is an initiative that aims to make scientific research freely available to all. To date our community has made over 100 million downloads. It’s based on principles of collaboration, unobstructed discovery, and, most importantly, scientific progression. As PhD students, we found it difficult to access the research we needed, so we decided to create a new Open Access

    New Fundamental Technologies in Data Mining | IntechOpen
  • | blog.ryow.net

    今まで、Flashを作ったりHTMLを書いたりアクセス解析をしたりしていましたが、なんとなくそれらの経験が繋がったような気がしました、という話。 HTML(やCSSやJS)を書いてたときは、文字で作った構造がビジュアルに […]

    torazuka
    torazuka 2012/02/10
    "デザインだけでなく、制作だけでなく、解析もマーケティングも、集客や接客や、複合的な要素を全部飲み込んで腹落ちするインタフェース" どんな世界なんだろう。
  • アイドルブログのコメント欄から見る、「君と僕の関係」 - インターネットもぐもぐ

    「君と僕の関係*1」、というタイトルで、AKB48メンバーブログの“コメント欄”のテキスト分析をしました。 さながら、「ファンレター2.0」、ですよ。すごい世界。ぞくぞく。 きっかけと背景 個人的に、アイドルブログの真骨頂はコメント欄だと思ってて、わりと眺めるのがすきです。甘い愛の言葉も熱い激励の言葉も、クラスの友達かよwってくらい軽くて近くて短すぎるコメントもまぜこぜで、あまりに混沌としていてうっとりします。すてき。距離感がめちゃくちゃ。 今、2011年(データとった当時)のアイドルとファンの関係を知りたくて、ブログの“コメント欄”だけで形態素解析をしました。あっち側の人たちの経営戦略やマネジメントの手腕は誰か偉い人がきっと分析してくれるから、わたしはもっとこっち側の、お祭に加担してる、一緒に踊らされてる人たちのことを知りたい。どんな人がいるんだろう、何を考えているんだろう、どんなことに

    アイドルブログのコメント欄から見る、「君と僕の関係」 - インターネットもぐもぐ
    torazuka
    torazuka 2012/02/05
    ファンのコメントを形態素解析して結果を考察されている。AKBという団体のことはよく分からないけど、こういうの面白いなぁ。
  • サロゲートキーは強制されるべきものではない - 設計者の発言

    複合主キーに代えてサロゲートキー(単独主キーの代替キー)を導入すべきかどうか。それはDB設計上の重要な判断事項である。なにしろレコードのアイデンティティである主キーの設定にかかわる問題だ。さまざまなメリットやデメリットを考慮してそれは判断される。その結果、サロゲートキーを導入することもあるし、しないこともある。 ところが、サロゲートキーを強制する(あるいはサロゲートキーを導入しないと開発しにくい)開発基盤がいくつか存在する。具体的には、全テーブルの識別子が"ID"等のフィールド名を持つ単独主キーであることが求められたりする。私に言わせれば、そういう開発基盤は「大盛を強制する牛丼屋」である。メニューにあるはずの「並」を頼むと、あれこれイヤガラセをされる牛丼屋。 この問題に関連して、「サロゲートキーを使わなかったから、ひどい目にあった」という開発者の声を聞いたことがあるかもしれない。心配はいら

    サロゲートキーは強制されるべきものではない - 設計者の発言
    torazuka
    torazuka 2012/01/28
    "DB構造が本来担うべき「意味」"の範囲をどう考えようか。/ OOとDOAをそれぞれ自覚的に適用すべきというのは、たしかに。訓練しよう。
  • クチコミ : DNPデジタルコム、クチコミ分析・マーケ支援「ソーシャルリスニングサービス」開始 | RBB TODAY (エンタープライズ、ソフトウェア・サービスのニュース)

    DNPデジタルコムは13日、ソーシャルメディア上のクチコミを集計・分析して、企業のマーケティング活動を支援する「ソーシャルリスニングサービス」の提供を開始した。 「ソーシャルリスニングサービス」は、企業名や商品・サービスなど、ソーシャルメディア上の特定のキーワードに対する生活者のクチコミを集計・分析して、課題の抽出や改善策の提案などを提供するもの。ポジティブとネガティブ両面の評価の収集やトレンドの分析、風評被害へのリスクマネジメント、PRの反響、プロモーションの効果測定などを行う。特定の設問に回答してもらうアンケートと異なり、すでにソーシャルメディア上にある評判や要望などの生活者の“生の声”を収集するため、“音”により近い分析が可能となる見込みだ。 具体的には、性別・年代・地域ごとに話題性の高いものを調査し、属性別に集計。このなかから商品開発のコンセプト作りなどに活用できそうな要素を抽出

    クチコミ : DNPデジタルコム、クチコミ分析・マーケ支援「ソーシャルリスニングサービス」開始 | RBB TODAY (エンタープライズ、ソフトウェア・サービスのニュース)
  • 医療分野のビッグデータ事例 「Hadoop」を採用した徳島大学病院

    前回の「病院情報システムのクラウド化メリット 福井大学病院の場合」に続き、2011年12月9日に開催されたCIO研究会第9回セミナーの講演内容を紹介する。今回は、徳島大学病院を中心とする徳島県の事例を取り上げる。徳島大学病院は、地域の病院や診療所、保健センターが保有する患者情報を蓄積し、糖尿病などの慢性疾病管理の分析に利用することで医療の質の向上を目指している。 医療分野もビッグデータ時代が到来 徳島大学の森川氏 「医療の世界もビッグデータ時代を迎えている。医療機関が保有する情報は、二次利用の価値から簡単に捨てることはできない。永続的に保管して有効活用する仕組みが求められている」 徳島大学病院 病院情報センター センター部長、森川富昭氏は、講演でこう説明した。同氏は、内閣官房 高度情報通信ネットワーク社会推進戦略部の「医療分野の取り組みに関するタスクフォース」構成員でもある。 森川氏は病

    医療分野のビッグデータ事例 「Hadoop」を採用した徳島大学病院
    torazuka
    torazuka 2012/01/06
    "森川氏は「RDBMSは標準化されていない、かつトランザクションが多いデータに優位性がある。標準化されていて検索や集計処理の方法が固定化されているデータはキーバリュー型が適している」と語る"
  • Data Integration Solutions: A Unified View for Trusted Data

    Connect all your data sources into a clean, complete, and compliant source of truth Talend Data Integration lets you connect and manage all your data, no matter where it lives. Use more than 1,000 connectors and components to connect virtually any data source with virtually any data environment, in the cloud or on premises. Easily develop and deploy reusable data pipelines with a drag-and-drop int

    Data Integration Solutions: A Unified View for Trusted Data
  • 1