タグ

RedCap97のブックマーク (2,039)

  • AWS Glueを用いてETL環境を構築したお話(RDS for MySQL → S3) - コネヒト開発者ブログ

    はじめに こんにちは。2019年3月にMLエンジニアとしてJOINした野澤(@takapy0210)です。 最近はThe Mentalistという海外ドラマにお熱です。犯罪コンサルタントとして活躍する主人公の歯に衣着せぬ物言いやテンポの良さなど、見ていて爽快ですし一つ一つの作品が短いので気軽に楽しめます。(心理学に興味があると楽しさ倍増です) 前置きが長くなりましたが、初めてコネヒト開発者ブログに登場です。テンポ良くいきたいと思いますので、どうぞよろしくお願いします! 今回は機械学習基盤アップデートの一環としてAWS Glueを用いてETLしてみた話について、苦労したポイントなどを中心にお話できればと思います。 はじめに 導入背景 結論 AWS Glueとは 言葉の定義について 構築したアーキテクチャ 構築手順 構築する際のポイント Glueには自己参照ルールが必要だった件 RDS for

    AWS Glueを用いてETL環境を構築したお話(RDS for MySQL → S3) - コネヒト開発者ブログ
    RedCap97
    RedCap97 2019/08/09
  • 機械学習のための環境構築とその管理 - nykergoto’s blog

    機械学習プロジェクトでは python を始めとした言語 + それに付随したライブラリを使います。 僕も python 触りたての頃はローカルマシン上にひとつ python 環境を作り、必要なライブラリをインストールして使っていました。環境の分離ということはあまり意識しておらず、やったとしてもプロジェクトごとに anaconda や pyenv, venv などで個別環境を作って切り分けるレベルでした。 しかし上記の方法だと困ったことが起ることがあります。例えば… global な環境が壊れてしまってすべて壊れる。 これは各環境が global な環境に依存しているために起こります。 python 以外の変更で環境は突如として壊れます。例えば brew install hoge したら Mecab が使えなくなっちゃったとかはあるあるだと思います >_< linux / Mac / Win

    機械学習のための環境構築とその管理 - nykergoto’s blog
    RedCap97
    RedCap97 2019/08/07
  • 「データ分析をやるならRとPythonのどちらを使うべき?」への個人的な回答 - 渋谷駅前で働くデータサイエンティストのブログ

    (Background image by Pixabay) 最近また「データ分析をやるならRとPythonのどちらでやるべきか」という話題が出ていたようです。 言語仕様やその他の使い勝手という点では、大体この記事に書いてあることを参考にすれば良いと思います。その上で、人には当然ながら趣味嗜好がありますので、個々人が好みだと思う方を使えば良い話ではあります。 とは言え、僕自身もクソコードの羅列ながらこのブログにR & Pythonのコードを載せているということもあるので、便乗して今回の記事では僕個人の意見と感想も書いてみようと思います。いつもながらど素人の意見(特にPython業ではない)なのと、自分がメインに使っているRでもtidyverseをほとんど使わないなど割とout-of-dateな使い方をしているということもあり、読んでいておかしなところなどあればどしどしご指摘くださると有難

    「データ分析をやるならRとPythonのどちらを使うべき?」への個人的な回答 - 渋谷駅前で働くデータサイエンティストのブログ
    RedCap97
    RedCap97 2019/06/29
  • 日々の食卓に刺激をくれるパンチの効いた調味料(小林銅蟲ほか) #それどこ - ソレドコ

    自宅の事でこだわっていることはありますか? 今回は料理好きのブロガーやライターの皆さんに、いつもの料理で使っている「推しの調味料」を聞いてみました! 紹介してくださったのはこの方々。 <テッパン編>毎日の卓でマネしたい、料理家たちの調味料 だし料理の梅津有希子さん 手間をかけないレシピの河瀬璃菜さん 醤油研究家の杉村啓さん <パンチ編>こだわり料理愛好家(麺・鮨・豪快料理)の調味料 製麺料理の玉置標さん 自宅鮨のnanoha3さん 能に訴えかける豪快料理の小林銅蟲さん 「推しの調味料3つ」とあわせて、「その調味料のうち、いずれかを使った簡単レシピ(複数使用可)」を教えてもらいました。 どの人も自信を持ってすすめする「我が家のスタメン調味料」の数々。明日からの献立にぜひご活用ください! <パンチ編>こだわり料理愛好家(麺・鮨・豪快料理)の調味料 玉置標推し調味料:麺料理

    日々の食卓に刺激をくれるパンチの効いた調味料(小林銅蟲ほか) #それどこ - ソレドコ
    RedCap97
    RedCap97 2019/06/23
  • AWSをこれから始める学生への圧倒的なインプット

    QA集含む内容はこちら: https://dev.classmethod.jp/cloud/aws/overwhelming-aws-input-for-students/ 学生がAWSを学習し始めるにあたり必要な情報をまとめました。 「AWSを勉強し始めよう」「使ってみよう」となってEC2の作り方とかベーシック話をつらつら説明したりドキュメントが並んでいても面白くないので、AWSの魅力と無数のサービスの情報を出来る限り詰め込んで圧倒的なインプットの形にしました。 いろんなサービスがあることを理解し、少しでもAWSを学ぶことを楽しんでもらえれば幸いです。

    AWSをこれから始める学生への圧倒的なインプット
    RedCap97
    RedCap97 2019/05/31
  • ブロックチェーンは何も解決しない。|es

    はじめて、ブロックチェーンを知った時は興奮したものです。なぜかと言うと、「分散化した環境下で、合意形成が取れる」と謳っていたからです。 「これは民主的だな、色々な問題が解決する」と夢中になりました。 「ブロックチェーン」という言葉が、どうも一人歩きしていると感じたのは、ビットコインやイーサリアムを、よく理解してからでした。 よくよく考えれば、「分散化した環境下で合意形成」と言うのは、ビットコインのことだったのです。「ブロックチェーン」は、ビットコインや他の暗号通貨を実現するための、一要素にすぎません。 今回もJimmySong氏の論考を訳してみました。 以下、文。 ブロックチェーン技術は真新しいものであり、十分な時間を投資すれば誰かが、通貨以外に役立つものを作るということを、ビジネス界隈では多くの人が信じています。これこそ私が「ビットコインではなく、ブロックチェーンを」症候群と呼んでいる

    ブロックチェーンは何も解決しない。|es
    RedCap97
    RedCap97 2019/05/09
  • 【Python】もうprintデバッグはいらない? / PySnooperで楽々デバッキング - フリーランチ食べたい

    Hacker NewsとRedditでバズっていたPythonのデバッグツールが便利だったので紹介です! PySnooperというライブラリです。 Hacker News - PySnooper: Never use print for debugging again Reddit - PySnooper: Never use print for debugging again ※追記 想像以上にたくさんの方に読んでいただき、printデバッグなど他のデバッグ方法との比較について追記として文末に補足しました。釣りタイトルですみませんでした…🙇 何ができるライブラリか 一言で言うと「デバッグがめちゃくちゃ簡単にできるライブラリ」です。 github.com 例を見たほうがわかりやすいと思うので見てみましょう。 インストールは pip で行えます。 pip install pysnooper

    【Python】もうprintデバッグはいらない? / PySnooperで楽々デバッキング - フリーランチ食べたい
    RedCap97
    RedCap97 2019/04/28
  • あなたの機械学習システム構築を手助けする、TensorFlow Extended - Qiita

    今日では、機械学習が研究者だけでなく個人レベルで利用できるような時代になってきました。これは、計算機の性能向上や機械学習フレームワークなど開発環境の充実、大量データが手に入りやすくなってきたことなどが要因として挙げられます。 一方、機械学習を用いたシステム(以後記事では機械学習システムと呼びます)の構築にはハードルがあります。データ傾向の変化など、これまでのシステムにない考慮すべき点が多く存在するからです。2015年の論文においては機械学習モデル作成は一部分でしかなく、運用においてはその他の要素が大きく影響すると述べられていますが、現在でも状況は大きく変わっていないように感じます。 出展:https://dl.acm.org/citation.cfm?id=3098021 記事ではGoogleが提供する機械学習システムの開発プラットフォームであるTensorFlow Extended(

    あなたの機械学習システム構築を手助けする、TensorFlow Extended - Qiita
    RedCap97
    RedCap97 2019/04/23
  • 私が愛する Elixir/Erlang の楽しさと辛さ

    Developers Summit 2019 にて, Web エンジニアの皆様向けに Elixir の紹介をした際に使用したスライドです. https://event.shoeisha.jp/devsumi/20190214/session/1996/ デブサミ 2019 年テーマ「SHARE YOUR FUN!」に則り、私が 15 年間にわたり愛し続けている Erlang や Elixirを、まだ、これらに触れたことがない PHP/Java/JavaScript などが得意な Web エンジニアの方々へ共有します。 ゴールは、ご参加いただける皆様の道具箱に Elixir を追加する準備を整えることです。 他の言語と比較して何が良いのか?辛いのか?(継続、イベントドリブン、オブジェクト指向、プロセスデザイン、マクロなど)に触れていき、皆様の期待値を適切に保った状態でElixir の世界へと

    私が愛する Elixir/Erlang の楽しさと辛さ
    RedCap97
    RedCap97 2019/04/15
  • イメージで理解できる-ゼロ知識証明|es

    暗号通貨でもよく取り上げられる、ゼロ知識証明について、以下の記事が分かりやすかったので、みなさんにも紹介したいと思います。 数式は一切登場しません。イメージで理解でます。 引用元 ゼロ知識証明って?? ゼロ知識証明とは、ある人(証明者)が別のある人(承認者)に対して、与えられた情報が「真実である」ということ以外の情報を相手に与えずに、その情報が実際に「真実」であることを証明する手法のことです。 暗号学で使われている、証明プロトコルの一種なんですが、これだとまだ理解できないですね。 証明とは、ある主張が正しいこと納得させる手段です。そして、証明プロトコルとは主張を納得させたい証明者と、証明の正しさを確かめる検証者が存在し、最終的に検証者を納得させる暗号プロトコルです。※プロトコル:処理手順 具体的に、どういう時に使うのでしょうか? ・Webサービスにログインする時:パワードを入力する代わりに

    イメージで理解できる-ゼロ知識証明|es
    RedCap97
    RedCap97 2019/04/11
  • 『ポケットモンスター』に登場するイーブイと進化形ポケモン8匹がフィギュア化! 4月4日より予約開始 | ゲーム・エンタメ最新情報のファミ通.com

    メガハウスは、『ポケットモンスター』に登場するポケモンたちを立体化するフィギュアシリーズ“G.E.M.EX ポケットモンスター”より、イーブイと進化形ポケモン8匹のフィギュア化を決定。2019年4月4日より予約を開始する。 「ポケットモンスター」より、イーブイと進化形ポケモン8匹をフィギュア化! 「G.E.M.EXシリーズ ポケットモンスター イーブイフレンズ」発売! 4月4日(木)より予約開始、2019年8月下旬発売予定 株式会社メガハウス(バンダイナムコグループ、代表取締役社長:榊原 博/東京都台東区)は、ポケットモンスターに登場するポケモンたちを立体化するフィギュアシリーズ「G.E.M.EX ポケットモンスター」より、人気の高いポケモン「イーブイ」とその進化形であるポケモン8匹を加えた計9匹を立体化した「G.E.M.EX ポケットモンスター イーブイフレンズ」を2019年4月4日(木

    『ポケットモンスター』に登場するイーブイと進化形ポケモン8匹がフィギュア化! 4月4日より予約開始 | ゲーム・エンタメ最新情報のファミ通.com
    RedCap97
    RedCap97 2019/04/03
  • Rで計量時系列分析:AR, MA, ARMA, ARIMAモデル, 予測 - 渋谷駅前で働くデータサイエンティストのブログ

    前回の記事では計量時系列分析とは何ぞや?みたいなところをやりましたので、今回はいろはのイともいえるARIMAまわりから始めていこうと思います。 ということで改めて、使用テキストはいつものこちらです。 経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者: 沖竜義出版社/メーカー: 朝倉書店発売日: 2010/02/01メディア: 単行購入: 4人 クリック: 101回この商品を含むブログ (6件) を見る 以下タイトルにのっとってRで各モデルの挙動を見ながらやっていきます。 必要なRパッケージ {forecast}をインストールして展開して下さい。Rそのものの初心者向け説明はここでは全面的に割愛するので、適宜何かしらの初心者向け説明をご参照あれ。 今回のモデルで目指すもの 前回の記事では、要は「自己相関が大事よー」という話を何度もしました。ということは、時系列モデリング

    Rで計量時系列分析:AR, MA, ARMA, ARIMAモデル, 予測 - 渋谷駅前で働くデータサイエンティストのブログ
    RedCap97
    RedCap97 2019/04/02
  • fabric2でホストグループを定義して並列実行できるようにする - Qiita

    概要 fabric2において事前に定義したホストグループ名を指定することで並列にタスクを実行できるfabfileを作ったので紹介します。 また最初にそのfabfile作成に至った経緯としてfabricとfabric2について感じていることを書きます。 インストールと基的な使い方 以下の記事を参考にさせてもらいました。 fabric2のインストール手順と簡単な使い方 fabricの用途 fabricでは以下の2つの用途が想定されていたと思います。 シェルコマンドを含んだ処理をタスクとして登録・実行する 複数のサーバに対して直列または並列に一連のコマンドを実行し処理を行う 1についてはシェルコマンドとPythonのコードを組み合わせることで複雑な処理をわかりやすく書けるのが大きな利点。 2についてはsshコマンドを並列実行する時に様々な便利機能や拡張機能を提供してくれるのが利点。たとえばsu

    fabric2でホストグループを定義して並列実行できるようにする - Qiita
    RedCap97
    RedCap97 2019/04/01
  • DynamoDBの概要 - Qiita

    はじめに DynamoDBはキーバリュー形式のNoSQLデータベースであることはわかっている。そして、テーブル単位でありスキーマという概念がないこともわかった。で?という人に向けにDynamoDBの概要についてまとめる。 全体像 DynamoDBの全体像を図にまとめる。 なるほど、AZ間で3重冗長化しているため、信頼性は確かに高い。そして、AZの中では複数のパーティションに分散されることで物理的な性能を担保している。パーティションの数がいくらかになるかは、計算式により算出できる。(後述) 2種類のテーブル まず押さえておきたいのはDynamoDBのテーブルはプライマリキーの構成によって、2種類にわかれるということだ。 1つは、パーティションキーのみのパターン。(これを便宜的に単独PKテーブルとする) プライマリキーは重複が許されないため、この場合パーティションキーは一意となる。パーティショ

    DynamoDBの概要 - Qiita
    RedCap97
    RedCap97 2019/03/29
  • DynamoDBの設計力をあげたい - log4ketancho

    サーバレスアーキテクチャを検討する際に、データベース層をどうするかはよく議論になります。リレーショナルデータベースに慣れている人は、なんとか RDS を採用できないか考えるのですが、現状は DB のコネクションプール問題などで RDS を用いるのはアンチパターンと言われています。 代替として用いられるのが NoSQL 型のデータベースである DynamoDB です。前述のような問題は発生せず、AWS でサーバレスなシステムを構築する際にデータベース層に採用されることが多いです。 しかし、これは私だけかもしれませんが、DynamoDBの(というよりも NoSQL 型データベースの?)設計に慣れていないこともあり、 「この要求・要件を実現するときに、どうテーブル設計すべき?」 「この設計で将来の機能拡張に耐えられるの?」 と不安になるシーンが多いです。特に後者が多く、これまでも「既に見えている

    DynamoDBの設計力をあげたい - log4ketancho
    RedCap97
    RedCap97 2019/03/29
  • AWS Solutions Architect ブログ

    こんにちは。ソリューションアーキテクトの江川(@daiti0804)です。日は、AWS のソリューションアーキテクトであるGowri Balasubramanian が、AWS Database Blogに投稿したChoosing the Right DynamoDB Partition Key をご紹介します。 このブログ投稿では、リレーショナルデータベースから DynamoDB へ移行するにあたって、適切なパーティションキーを選択するための重要な考慮事項と戦略を説明します。これはDynamoDB を利用するスケーラブルで信頼性の高いアプリケーションの設計と構築において重要なステップです。 パーティションキーとは DynamoDB では二種類のプライマリキーをサポートします: パーティションキー(Partition key): ハッシュキー(以前の名称)としても知られていますが、パーテ

    RedCap97
    RedCap97 2019/03/29
  • QA4AI JaSST Tokyo 2019

    3. 石川 冬樹 国立情報学研究所 アーキテクチャ科学研究系 准教授 および 先端ソフトウェア工学・国際研究 センター 副センター長.ソフトウェア工学および自律・スマートシステムに関する研究・教育に従事. 電気通信大学 大学院情報理工学研究科 客員准教授.日ソフトウェア科学会 機械学習工学 研究会 主査.AIプロダクト品質保証コンソーシアム 運営副委員長.日ソフトウェア科学会理事. 博士(情報理工学). 小川 秀人 日立製作所 研究開発グループ システムイノベーションセンタ 主管研究員 兼 ソフトウェア モダナイゼーションラボ ラボ長. AIプロダクト品質保証コンソーシアム運営副委員長. ソフトウェア工学の研究およびソフトウェア開発プロジェクトへの技術適用に従事. 博士(情報科学) . 西 康晴 電気通信大学 大学院理工学研究科 講師.AIプロダクト品質保証コンソーシアム(QA4AI

    QA4AI JaSST Tokyo 2019
    RedCap97
    RedCap97 2019/03/28
  • スパムはいらない ―― TensorFlow を使って Gmail から新たに 1 億以上のスパム メッセージを除去 | Google Cloud 公式ブログ

    ※この投稿は米国時間 2019 年 2 月 7 日に Google Cloud blog に投稿されたものの抄訳です。 毎月 Gmail を使っている人は 15 億人、G Suite の一部として Gmail を有料で使っている企業は 500 万社に上ります。一般ユーザーと企業ユーザーのどちらにとっても、Gmail の最大の魅力は、あらかじめ組み込まれているセキュリティ保護機能でしょう。 セキュリティが優れていることは、常に脅威よりも優位に立っていることを意味します。Gmail で従来から使用されている機械学習(ML)モデルは非常に強力で、ほかの保護機能とともに、スパムやフィッシング、マルウェアの 99.9 % 以上を Gmail の受信トレイから遠ざけてきました。 私たちは、セキュリティ保護機能を絶えず強化するとともに、利用者保護の観点から ML の機能向上に努めてきました。Google

    スパムはいらない ―― TensorFlow を使って Gmail から新たに 1 億以上のスパム メッセージを除去 | Google Cloud 公式ブログ
    RedCap97
    RedCap97 2019/03/19
  • Googleが公開した自然言語処理の最新技術、BERTとは何者なのか

    3つの要点 ✔️ 自然言語の発展に大いに貢献 ✔️ 学習しなくても前に接続するだけで精度が向上 ✔️ 入出力に新規性 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding written by Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova (Submitted on 11 Oct 2018 (v1), last revised 24 May 2019 (this version, v2)) Comments: Published by NAACL-HLT 2019 Subjects: Computation and Language (cs.CL) はじめに 2019年2月に自然言語処理のトップカンファレンス

    Googleが公開した自然言語処理の最新技術、BERTとは何者なのか
    RedCap97
    RedCap97 2019/03/15
  • #pixivTECHSALON の発表資料をドドーンと大公開! - pixiv inside

    みなさんこんにちは、FromAtomです。 ピクシブ主催のTech Confである「pixiv TECH SALON」が2019年3月5日(火)に開催されました。 イベント全体のレポート記事はまた後日公開予定ですので、この記事では一足先に発表資料と発表者からの一言コメントをご紹介します! メインセッション 🙌 ピクシブ流データ活用基盤のこれまでとこれから minamitary:トップバッターでした!後に続くセッションと「番」に繋ぐため、技術よりも組織・企業文化に重点を置いて話しました。ピクシブのよさが少しでも伝わっていたら幸いです。技術面も含め、またどこかで発信していけたらと思っています。データ駆動推進室やっていくぞ〜〜〜 pixivのおすすめを改善する話 mytk:pixivのレコメンドアルゴリズムとその基盤の話をしましたが、どちらにも興味を持っていただけた方がいらっしゃったようで嬉

    #pixivTECHSALON の発表資料をドドーンと大公開! - pixiv inside
    RedCap97
    RedCap97 2019/03/15