data scienceに関するryota-murakamiのブックマーク (61)

  • Worldwide | Twitter trending hashtag and topics today | trends24.in

    Today's Top Twitter Trending Worldwide topics are Jill, Chevron, ルックバック, Odanz, Gabigol. Tweet And hottest Twitter Trends Worldwide right now are #SmackDown, Chevron, Vini, Gabigol, Paquetá. Tweet

    Worldwide | Twitter trending hashtag and topics today | trends24.in
    ryota-murakami
    ryota-murakami 2016/05/09
    “Top Twitter trends for Worldwide now”
  • TensorFlowによるDeep Learningでアイドルの顔識別する話

    ブログまとめ的な内容のLT

    TensorFlowによるDeep Learningでアイドルの顔識別する話
    ryota-murakami
    ryota-murakami 2016/04/20
    どうやってtiwtterから自動収集してるんだろう
  • TwitterやInstagramから情報収集&監視できるシステムにCIAが投資

    諜報活動を行うアメリカの情報機関・CIAは、「In-Q-Tel」と呼ばれるベンチャー・キャピタル企業を持っており、In-Q-Telは38の企業に投資を行っています。その投資リストにはさまざまなテクノロジーを開発・研究する企業が名を連ねています。中でもCIAは、ソーシャルメディアからの情報収集、および監視を可能にするテクノロジーに注力していることがわかりました。 The CIA Is Investing in Firms That Mine Your Tweets and Instagram Photos https://theintercept.com/2016/04/14/in-undisclosed-cia-investments-social-media-mining-looms-large/ 2015年9月に、CIAのトップ2であるデービッド・コーエン氏はコーネル大学で講演を行いま

    TwitterやInstagramから情報収集&監視できるシステムにCIAが投資
  • 機械学習、統計について

    統計と機械学習に大変興味があり、これから勉強しようと考えています。 …が、数学は中高と赤点ギリギリで、 全くと言っていいほど、高度な計算はできません。 現状は、webアプリやCMSをphpで作る程度の事しかしないのであまり問題はないのですが、 統計や機械学習を利用するような企画もちらほら出始めており、 自分がやりたい分野ではあるので手を挙げたいのですが、 知識もないので提案もできなければ、制作もできません。 自分が最終的にやりたいこととしては、集計したデータを統計して今後の運用に役立つように 学習した情報からアドバイスを渡すようなwebアプリを作りたいです。 例えば、天気、曜日、祭祝日、売上、商品などのデータを蓄積しておいて、 今日何を売り出すべきか、何を仕入れるべきかなどをアドバイスするようなアプリです。 話は長くなりましたが、以下質問させて下さい。 1、統計や機械学習pythonが人

    機械学習、統計について
  • インターネット上に存在するさまざまなウェブサイトの規模や関連性を可視化したマップ「The Internet map」

    インターネット上にはさまざまなウェブサイトが存在しており、2006年にはウェブサイトの数が1億を突破、さらに2008年にはGoogleがウェブ上の固有のURL数が1兆を突破したことを明らかにしていました。そんなネット上に星の数ほど存在するウェブサイトの規模や相互の関係性を可視化し、そしてマッピングしたのが「The Internet map」です。 The Internet map http://internet-map.net/ インターネット上に無数に存在するウェブサイトの相対的な関係を可視化して示す、というプロジェクトが「The Internet map」です。ウェブサイトは全て地図上に丸で表記され、丸のサイズがサイトのトラフィック量を表します。なお、The Internet mapではウェブサイトがどれだけ人に見られているのかを調査しているAlexaが公開しているデータを基にマップを

    インターネット上に存在するさまざまなウェブサイトの規模や関連性を可視化したマップ「The Internet map」
  • 5分でわかるベイズ確率

    ベイズ統計学の基礎概念からW理論まで概論的に紹介するスライドです.数理・計算科学チュートリアル実践のチュートリアル資料です.引用しているipynbは * http://nhayashi.main.jp/codes/BayesStatAbstIntro.zip * https://github.com/chijan-nh/BayesStatAbstIntro を参照ください. 以下,エラッタ. * 52 of 80:KL(q||p)≠KL(q||p)ではなくKL(q||p)≠KL(p||q). * 67 of 80:2ν=E[V_n]ではなくE[V_n] → 2ν (n→∞). * 70 of 80:AICの第2項は d/2n ではなく d/n. * 76 of 80:βH(w)ではなくβ log P(X^n|w) + log φ(w). - レプリカ交換MCと異なり、逆温度を尤度にのみ乗す

    5分でわかるベイズ確率
  • Chainerで学ぶLSTM - kivantium活動日記

    このブログで何回も取り上げているように、ニューラルネットワークを用いた機械学習はかなりの力を発揮します。畳み込みニューラルネットワーク(convolutional neural network, CNN)は画像中で近くにあるピクセル同士の関係に注目するなど画像の特徴をうまくとらえたネットワークを構築することでかなりの成功を収めています。ノーフリーランチ定理が示唆するように万能の機械学習器は存在しないため、対象とするデータの特徴を捉えた学習器を構築することが機械学習の精度を上げる上で重要になります。 そこで今回は時系列データの解析に向いた回帰結合ニューラルネットワーク(recurrent neural network, RNN)の精度を上げるのに重要なLSTMを取り上げます。 この記事では誤差逆伝搬などのニューラルネットワークの基知識は説明しません。誤差逆伝搬についてはPRMLの5章やNe

    Chainerで学ぶLSTM - kivantium活動日記
  • 割と本気で家庭用Slack Botを作ってみた - 八発白中

    僕はと二人暮らしをしています。かつてはLINEを使って普段のやり取りをしていたのですが、一年ほど前からSlackを使い始めました。 Slackの良いところはハッカビリティが高いところです。Google Calendarなど他のサービスと連携することができるし、IFTTTを使って多少凝ったこともできます。 IFTTT時代 IFTTTを使えば天気予報をSlackチャンネルに流せます。 英語というのは不意ですが、一応今日の天気はわかります。英語が読めなくてもアイコンを見れば、雨が降りそうな気がするってくらいはわかります。 しかし、しばらく運用しているうちに疑念が。 天気予報が当たらない。 IFTTTが連携している天気予報は「The Weather Channel」の情報なのですが、これが日の気象庁の予想と違っていて全然当たらない。 ちなみにiOS8から標準の天気アプリが提供している予報もこ

    割と本気で家庭用Slack Botを作ってみた - 八発白中
  • 絶対に見逃せない投稿が、そこにはある - Qiita

    Qiita の 「見逃せない投稿」 を独自に評価してランキングするサービス Qaleidospace を作りました。 投稿では、そのようなサービスを作ろうと思った理由、投稿を評価するアルゴリズム、システム構成について書きます。 余談ですが、今なら Yearly Ranking がほぼ 2015 年の投稿ランキングとなっており、眺めていて楽しいです。 TL;DR Qiita の「見逃せない投稿」をランキングするサービス Qaleidospace を作った。 適切な評価システムがあれば、書き手も読み手もみんな幸せになれるはず。 ストック数だけで評価すると、初心者向けの投稿やキャッチーなキーワードを散りばめただけの投稿が注目されやすい。誰がストックしたのかを重視して「見逃せない投稿」を評価する。 風変わりなシステム構成: GitHub Pages でホスティング + Swift で書かれたバッ

    絶対に見逃せない投稿が、そこにはある - Qiita
    ryota-murakami
    ryota-murakami 2016/01/14
    "モチベーション"の章が素晴らしいでっす
  • Visualization Night#01 (2016/01/25 19:30〜)

    お知らせ 【重要なお知らせ】iOSアプリの運用および提供を2024年6月3日(月)を以て終了いたします。詳細は お知らせをご覧ください。 お知らせ connpassではさらなる価値のあるデータを提供するため、イベントサーチAPIの提供方法の見直しを決定しました。2024年5月23日(木)より 「企業・法人」「コミュニティ及び個人」向けの2プランを提供開始いたします。ご利用にあたっては利用申請及び審査がございます。詳細はヘルプページをご確認ください。

    Visualization Night#01 (2016/01/25 19:30〜)
  • SmartNewsのニュース選定のアルゴリズムってどうなってるの? 裏側を聞いてきた | Web担当者Forum

    次のようなアルゴリズムでコンピュータが自動的に判断しています。順に説明します。 SmartNewsで対象となる情報は、インターネット上で固有のURLについてユーザーが何らかのアクションを起こしているものです。その情報の内容がどの言語で記述されているかを判断します。その情報がどのカテゴリに属するか、カテゴリ分類します。その情報の類似判定をします。これは、多様性のある情報を届けるためで、同じような内容が重複しないようします。また、情報が重複している場合は、情報の早さや人によく見られているといったさまざまな要素を総合的に判断して一番良いと判断されるものを選定しています。さらに、そのなかで注目度判定を行います。注目度判定にもいろいろな指標がありますが、たとえば以下があります。ソーシャル上でどのくらい反応があるかSmartNewsで実際に配信したときのユーザーの反応たとえば、SmartNewsで配信

    SmartNewsのニュース選定のアルゴリズムってどうなってるの? 裏側を聞いてきた | Web担当者Forum
  • 特集2

    これから10回にわたり、知的好奇心の問題を中心に、おしゃべりしたいと思います。知的好奇心を持ちつづけること、これこそがビジネスにおいて成功する最も実用的で効果のある方法だと信じています。 好奇心は、情報が不足している時に活性化します。テーブルにありあまるほどのご馳走が並んでいれば、さほど強い欲は感じないものです。欲が強まるのは空腹の時です。いま情報は洪水といってもよいくらいに満ち溢れています。会社での会議、メール、ブログ、ウエブ、インターネット検索など、もう情報は十分すぎるくらいに身の回りを埋め尽くしています。 いま私たちが直面しているのは、情報が不足していることではなく、情報が多すぎることの問題です。これを解決するために、Googleなどの検索が重宝されているわけです。 無人島に漂着したとしましょう。何も情報がなく、日はどうなっているのだろうと想像します。そこにある日、新聞紙が流れ

  • 「食品への異物混入」ニュースが1位 2015年のネット炎上ランキング - ライブドアニュース

    > > > > 2015年12月27日 7時0分 ざっくり言うと 2015年のネット炎上ランキングが発表された ジャンル別では品への「異物混入」に関する炎上がトップとなった 14年末の「ペヤングの異物混入」の流れを受け、SNS上での告発が増えたそう 2015年のネット“炎上ランキング 「炎上データベース」から分析した傾向と対策 2015年12月27日 7時0分  インターネット上でのふとした発言や投稿が、不特定多数のネットユーザーの興味や怒りを買って起こる“ネット炎上”。自分は個人情報を公開していないし、気を付けているから大丈夫、と思っていないだろうか。それでも、「こんな大ごとになるとは思わなかった」と後悔するのがネット炎上だ。  企業の炎上対策などを手掛けるエルテス(東京都港区)が、2015年の「ネット炎上速報総集編」を発表した。同社が24時間365日、ネット上での炎上を記録して作成

    「食品への異物混入」ニュースが1位 2015年のネット炎上ランキング - ライブドアニュース
    ryota-murakami
    ryota-murakami 2015/12/27
    tiwtterで騒がれる→まとめブログに載る→まとめ記事が更にtwitterで拡散される過程をどうやって計測しておるんやろ!
  • Googleの公開した人工知能ライブラリTensorFlowを触ってみた - LIFULL Creators Blog

    こんにちは。おうちハッカーの石田です。 いつもはおうちハックネタばかりですが、今日は人工知能関連の話題です。 今日2015/11/10、Googleが自社サービスで使っているDeepLearningを始めとする機械学習技術のライブラリを公開しました。 TensorFlowという名前で、おそらくテンソルフローと呼びます。 テンソルは、数学の線形の量を表す概念で、ベクトルの親戚みたいなものです。それにフローをつけるということは、そういった複雑な多次元ベクトル量を流れるように処理できる、という意味が込められているのだと思います。 こちらをさっそく触ってみたので、紹介したいと思います。 TensorFlowの特徴 公式紹介ページから特徴をいくつかピックアップします。 Deep Flexibility ~深い柔軟性~ 要望に応じて、柔軟にニューラルネットワークを構築できます。ニューラルネットワークの

    Googleの公開した人工知能ライブラリTensorFlowを触ってみた - LIFULL Creators Blog
    ryota-murakami
    ryota-murakami 2015/12/09
    すごいなー
  • ニュートンがもしFacebookをやっていたら?歴史上の人物たちのつながりを可視化した「Six Degrees of Francis Bacon」

    「俳優のケビン・ベーコンと共演したことがある人を『ケビン・ベーコン数1』、ケビン・ベーコン数1の人と共演したことがある人を『ケビン・ベーコン数2』としていくとハリウッド俳優のほとんどがケビン・ベーコン数3~4に収まる」と言われていますが、この「六次の隔たり」という仮説をコンセプトに、1500年から1700年までに活躍した歴史上の人物の関係を可視化したのが「Six Degrees of Francis Bacon」です。まるで中世版Facebookのような感じで、「ニュートンとシェイクスピアにつながりはあったのか?」というようなことを簡単に調べられるようになっています。 Six Degrees of Francis Bacon http://www.sixdegreesoffrancisbacon.com/ これがウェブサイト。最初は哲学者のフランシス・ベーコンに焦点が当てられており、画面左

    ニュートンがもしFacebookをやっていたら?歴史上の人物たちのつながりを可視化した「Six Degrees of Francis Bacon」
    ryota-murakami
    ryota-murakami 2015/12/02
    面白いなぁ、新しい歴史の学び方だ
  • 年収「300万円未満」や「1000万円以上」の世帯がどの地域に多いのか一目で分かる「世帯の年間収入マップ」

    by Personal Creations 総務省統計局が公開している平成25年住宅・土地統計調査の中には「世帯の年間収入階級(5区分)」というデータがあり、「300万円未満、300万円〜500万円、500万円〜700万円、700万円〜1000万円、1000万円以上」の世帯がどのくらいあるかが調査されているのですが、そのデータを地図上にマッピングしたのが「世帯の年間収入マップ」です。「年収1000万円以上の世帯が5%を超える地域」など指定することで、どの地域にどういう年収の世帯が多いのかが一目でわかるようになっています。 世帯の年間収入マップ http://shimz.me/datavis/mimanCity/ ウェブサイトはこんな感じ。 画面左下から世帯年収を「300万円未満」「300万円~500万円」「500万円~700万円」「700万円~1000万円」「1000万円以上」に設定可能で

    年収「300万円未満」や「1000万円以上」の世帯がどの地域に多いのか一目で分かる「世帯の年間収入マップ」
    ryota-murakami
    ryota-murakami 2015/12/02
    300万未満の世帯は年金暮らしがほとんどなのかな
  • ディープラーニングでおそ松さんの六つ子は見分けられるのか 〜実施編〜 - bohemia日記

    前回、おそ松さんたちをディープラーニングで見分けるため、準備編としておそ松さんたちの顔画像を5644枚集めました。 今回はそれを用いて、ディープラーニングで学習させ、判別器を作って検証します。 集めた画像 人物 枚数 例 おそ松 1126 から松 769 チョロ松 1047 一松 736 十四松 855 とど松 729 その他 383 使用フレームワーク 最近GoogleからTensorFlowという新しいディープラーニングのフレームワークが発表されました。 会社のブログに使い方書いたのですが、まだ慣れていないので、今回はchainerを使います。こちらだとすぐに高い成果を上げているImageNetのNINモデル、4層畳み込みニューラルネットワークがサンプルで入っていますので、こちらを改良して使います。 imageNetの使い方は、こちらやこちらを参考にしています。 訓練データセット Im

    ディープラーニングでおそ松さんの六つ子は見分けられるのか 〜実施編〜 - bohemia日記
  • Apache sparkでつぶやきビッグデータ クローンをつくってみた

    京都OSC 2015 でライトニングトークで発表した内容です。 2015 OSC京都 特有のネタ満載 Read less

    Apache sparkでつぶやきビッグデータ クローンをつくってみた
  • そのデータ分析待って!まずはわくわくする統計学本から数字のセンスを身につける。

    Amazonアソシエイト ここ2-3年、統計学や機械学習が劇的に増えたと思います。2014, 2015のガートナーのハイプサイクルからもわかると思いますが、ビックデータや機械学習などのデータ分析に関する事柄などは過渡期を少し過ぎたあたりになります。過渡期に執筆が増え今まさに販売されてきているといったところでしょうか。 そこで今回はいきなりデータ分析に取り組む前に、まずはわくわくするところから数字のセンスを身につけよう、ということでいくつかおすすめとなる統計学を紹介させていただきます。そして、最後にビジネス×統計学やデータサイエンティスト入門のためのも一覧として載せています。 うーん、カイザー・ファングさんの、ナンバーセンスは表紙から刺激的ですね。 THE 鉄板!まずは、西内啓さんから。説明不要な気がしますが、今年話題になったのはJリーグのアドバイザー契約になりますね。西内啓さんを

    そのデータ分析待って!まずはわくわくする統計学本から数字のセンスを身につける。
    ryota-murakami
    ryota-murakami 2015/11/02
    わくわく
  • ハッカドールに影響されてTF-IDFをやってみました - にほんごのれんしゅう

    ハッカドールというニッチ向けの自動ニュースレコメンドアプリの出来がなかなかおもしろく、日曜データサイエンティストとしていろいろ刺激されたので、久々に単語の重要度とかを表現できるTF-IDFのプログラムを作ってみました。 刺激を受けたスライドはこちら 捗るリコメンドシステムの裏事情(ハッカドール) from Yusuke Enomoto www.slideshare.net そして、実際に作ってみたやつ。 問題と解決 ・問題1 このプレゼンで触れられているようにニッチ界隈の単語やネットスラングなどは、日々増えたり減ったりしていて、とてもじゃないが自分では管理しきれない ・解決1 IPADIC-NEOLOGDというプロジェクトでGITで常に最新の単語にアップデートされ続けているものを発見。ヒューリスティックに単語、新語などを追加しているようです。自分一人での単語追加は膨大な手間がかかるもの。I

    ハッカドールに影響されてTF-IDFをやってみました - にほんごのれんしゅう