タグ

関連タグで絞り込む (297)

タグの絞り込みを解除

データに関するsionsouのブックマーク (68)

  • 内定辞退率を販売/リクナビ 合否使用企業も

    インターネット上の就職情報サイト「リクナビ」を運営するリクルートキャリア(東京)は1日、就職活動中の学生が内定を辞退する可能性(内定辞退率)を人工知能(AI)で予測し、そのデータを38社に販売していたと発表しました。学生に説明しないまま根拠不明の評価が企業側に提供されました。採用試験の合否判定に影響を与えた可能性があります。 政府の個人情報保護委員会から学生への説明が不十分だと指摘され、7月31日付で販売を休止しました。 問題となったのは、同社の「リクナビDMPフォロー」というサービス。リクナビのサイト上での学生の閲覧履歴などをAIで自動的に分析し、その学生が採用試験を受けている企業の内定を辞退する可能性を5段階で評価して、データを2018年3月から当該企業38社に販売していました。 データの使用目的は内定辞退を防ぐ対策のためとし、企業側は合否判定に使わないことを約束。学生がリクナビに登録

    sionsou
    sionsou 2019/08/04
    “例えるなら、結婚相談所の運営側が女性に対し、相手方候補の男性について「この男性はあなたにアプローチしていますが、実はほかにもアプローチしていますよ」と教えるようなものです。”
  • Embulk(エンバルク)組み込みプラグインの設定覚え書き - Qiita

    Embulk組み込みプラグインの設定覚え書き その他の情報はFluentdのバッチ版Embulkのまとめをご覧ください。 Embulkには組み込みでいくつかのプラグインが用意されています。この資料ではEmbukの基的な概念を説明したのち、組み込みのプラグインについて解説をおこないます。 詳細は、オフィシャルのマニュアルを参照してください。Configuration (英語) 1, レコード、カラム、そして型 Embulkは、内部でデータをレコードとして取り扱いします。 レコードは、複数のカラムから構成されるデータ1件のことを表します。 例えば住所録では、人1名の情報がレコードです。1名の情報には、氏名や 年齢といったその人固有の情報があります。この固有の情報一つ一つが カラムです。それぞれのカラムには型があります。姓や名であれば文字列、 年齢であれば数字(整数)、生年月日であれば日付(日

    Embulk(エンバルク)組み込みプラグインの設定覚え書き - Qiita
  • 並列データ転送ツール『Embulk』リリース! - Blog by Sadayuki Furuhashi

    こんにちは。古橋です。 先日の*1 データ転送ミドルウェア勉強会で、新しいオープンソースツール Embulk をリリースしました。 Embulk, an open-source plugin-based parallel bulk data loader from Sadayuki Furuhashi Embulk は、リアルタイムなログ収集では常識となった fluentd のバッチ版のようなツールで、ファイルやデータベースからデータを吸い出し、別のストレージやデータベースにロードするためのコンパクトなツールです。 fluentd と同様にプラグイン型のアーキテクチャを採用 しているため、RubyJavaで簡単なコードを書くことで、様々なファイルフォーマットやストレージに対応することができます。一方で fluentd とは異なり、高速性やトランザクション制御、スキーマを使ったデータのバリ

    並列データ転送ツール『Embulk』リリース! - Blog by Sadayuki Furuhashi
  • ゲームサーバ勉強会の発表内容メモ - Qiita

    聞きながら書いてたので抜けてたり誤字とか多いと思う。各々の資料はあとで公開されるはず。Twitter のハッシュタグは #ゲームサーバ勉強会 なお、会場内からも発表されてましたが、第二回の開催も検討とのことです。 皆さまご来場ありがとうございました。懇親会で話しましたが、好評いただいたので、第2回やる方向で検討します。次回予告イメージとしては、10月頃、負荷試験、うどんの会による自家製うどん。 #ゲームサーバ勉強会 — 元イカ2 (@seizans) August 3, 2018 アカツキ: 失敗から学ぶ・大規模環境における Ruby on Rails on AWS の最適化 めっちゃ鳥肌 これ、正月かな......#ゲームサーバ勉強会 pic.twitter.com/RKARkr3F5f — 紫苑 (@grwth1009) 2018年8月3日 Rubyはsmallスタートむき#ゲームサー

    ゲームサーバ勉強会の発表内容メモ - Qiita
  • 「AIメーカー」登場 画像認識AI、誰でも簡単に作れる 「ポケモン判定」「バイクメーカー判定」など続々

    AIメーカー」登場 画像認識AI、誰でも簡単に作れる 「ポケモン判定」「バイクメーカー判定」など続々 「と犬を見分ける」など、画像を認識・分類するAIを誰でも簡単に作れる「AIメーカー」が登場。バイクの画像を入力すると、メーカーを判定するAIなどが作成され、盛り上がっている。 「と犬を見分ける」など、画像を認識・分類する人工知能AI)を誰でも簡単に作ることができるWebサービスAIメーカー」を、エンジニアの2z(@2zn01)さんが開発・公開した。タグと学習データを用意するだけで、専門知識不要でAIを作成でき、ほかのユーザーにも試してもらえる。バイクの画像を入力するとメーカーを判定するAIなどさまざまなAIが作成されており、盛り上がっている。 Twitterアカウントと連携させた上で、識別させる画像のタグを入力し、学習データとして各タグに対応した画像データをアップロードするか、画

    「AIメーカー」登場 画像認識AI、誰でも簡単に作れる 「ポケモン判定」「バイクメーカー判定」など続々
  • 初心者のためのElasticsearchその1 | DevelopersIO

    はじめに 稿では、とりあえずElasticsearchとkibanaをインストール後、 基的なAPIをつかって動かしてみます。 Elasticsearchとは 超ざっくり特徴を言うと、 Elastic社が開発している、LuceneベースでOSSの全文検索エンジン RESTでアクセス可能。最近SQLも使えるようになった 検索エンジン界隈では一番人気(らしい) kibanaとは kibana(キバナ)はElasticsearchのデータを分析・可視化するツール kibanaのDevtoolsを使うとElasticsearchのクエリを書くのが少し楽になる 環境 今回使用した動作環境は以下のとおりです。 OS : MacOS X 10.12.4 Java : 1.8.0_121 Elasticsearch+Kibanaインストール Homebrenwでもインストールできるし、 % brew

    初心者のためのElasticsearchその1 | DevelopersIO
  • RDBデータをElasticsearchに投入して全文検索する - Qiita

    はじめに RDBで簡易的な検索機能を実装して使っていましたが、それだけでは柔軟な検索ができず 性能的にも問題が出てくるため、全文検索エンジンを導入することにしました。 この記事では、RDBに格納されているデータをElasticsearchに投入して全文検索できる ようにするところまでを紹介したいと思います。 環境 インフラは下記構成(全てAWSです) ※マネージドサービスは運用楽でいいですねー サービス名 バージョン (以降、ElasticsearchはESと書きます。長いので^^;) ESはVPCアクセス(VPC内で動くモード)とし、VPC内からのアクセスは全て許可しています。 PrivateDNSで下記CNAME設定しています(エンドポイント長いので) RDS・・・ postgres.local ES ・・・ ftsearch.local ちなみに、この記事はPostgreSQLを前提

    RDBデータをElasticsearchに投入して全文検索する - Qiita
  • Elasticsearchを使うときの注意点を社内で発表しました。 - Taste of Tech Topics

    こんにちは、fujiiです。 最近、社内でもElasticsearchを使う機会も増えてきてました。 インストールも簡単ですし、 ちょっと設定するだけでログの解析も手軽にできるので、 便利だと思って使い始めるのですが、 ・必要以上に負荷のかかる設定になっている。 ・システムダウンしたときの復旧を考慮していなかった。 ・初期構築などで大量にデータを入れようとしたら、一部データが入っていなかった。 と、後から反省することも多くあります。 (私も最初は知らないことが多く、反省点ばかりでした) そのため、Elasticsearchを初めて使うときの注意点をまとめ、 社内で講習会を開きました。 以下に公開しました。 実際に案件で利用しようと思った時にパフォーマンスなどで迷うこともありますので、 そんな時の一つの参考になればと思います。 Elasticsearchを使うときの注意点 公開用スライド f

    Elasticsearchを使うときの注意点を社内で発表しました。 - Taste of Tech Topics
    sionsou
    sionsou 2018/07/04
    “Elasticsearchを使うときの注意点 公開用スライド”
  • 検索エンジンの常識をApache Solrで身につける

    検索エンジンの常識をApache Solrで身につける:ビッグデータ処理の常識をJavaで身につける(1)(2/4 ページ) 【2】言語同定器 検索エンジンで複数の言語からなる文書集合のインデックスを生成する際、入力文書の記述言語によって処理が異なることがあります。 例えば、日語文書では単語の区切りがないため、トークナイザが文中に含まれる単語を確率的に推定して単語を切り出してあげる必要があります。一方で、英語の文は単語の区切りが自明であるため、トークナイザが行う処理はほとんどありません。このように、入力文書の記述言語が複数存在する状況では、入力文書の記述言語によって利用するトークナイザなどのコンポーネントを変更する必要があります。 上記のように入力言語によって処理内容を変えるためには、そもそも入力クエリや文書が、どの言語で記述されているのかを同定する必要があります。「言語同定器」というコ

    検索エンジンの常識をApache Solrで身につける
  • リクルート流Elasticsearchの使い方

    タイトル: 『認証の課題とID連携の実装 �〜ハンズオン〜』 概要: FIDO、ID連携(OAuth・OpenID Connect)をはじめとした最近の技術をご紹介します。FIDOは端末とサーバー間でユーザー認証を安全に連携するための仕組みです。OpenID Connectはユーザーの認証と認可を連携するためのID連携の仕組みで、OAuth 2.0を拡張した仕様であり、HTTP通信やJSONなど基礎的なWeb技術によって構成されています。FIDOとID連携の技術を学んだ後、実習ではGolangを用いてWebアプリケーション上にOpenID Connectを実装します。実装の注意点とそのリスク、仕様に施されているセキュリティー対策についてハンズオンを行いながら解説します。 セキュリティ・キャンプ全国大会2019 専門講義 選択コース B4 認証の課題とID連携の実装 〜ハンズオン〜 Aug

    リクルート流Elasticsearchの使い方
  • Elasticsearch 6.3.0 の新機能を試してみた | DevelopersIO

    ジョブ実行 ジョブ実行の開始は API をリクエストするだけです。 Request POST _xpack/rollup/job/<job_name>/_start 集計データの確認 しばらく待つと指定したインデックス rollup_elb にデータが格納されます。例えば以下のようなデータがインデックスされます。 POST rollup_elblog/_search { "took": 2, "timed_out": false, "_shards": { "total": 5, "successful": 5, "skipped": 0, "failed": 0 }, "hits": { "total": 24, "max_score": 1, "hits": [ { "_index": "rollup_elblog", "_type": "_doc", "_id": "35506583

    Elasticsearch 6.3.0 の新機能を試してみた | DevelopersIO
  • 第5回 Elasticsearch 入門 Elasticsearch の使いどころ | DevelopersIO

    今回は少し、思考を変えてシステムを開発する際にどんなところで Elasticsearch を使えるのか?という視点で説明したいと思います。 最近のシステムの特徴 最近のシステムは、ビッグデータの重要性の認知、ソーシャルデータの活用など、1つのシステムでも様々な種類のデータを管理し活用するようになってきました。また、クラウドサービスやオープンソースが当たり前に使われるようになり、データを管理し活用するためのシステムやサービスも様々な選択肢があります。 そのため、最近のシステムではデータの利用目的によってデータストアを使い分けることが多くあります。 例えば、商品情報など構造化されたデータは、ビジネス要件を満たすためにデータを矛盾なく永続化する必要があるため、MySQL などのリレーショナル・データベースに保存されます。 また、更新や参照トラフィックが多くデータ数も多いゲームやモバイルアプリケー

    第5回 Elasticsearch 入門 Elasticsearch の使いどころ | DevelopersIO
  • JavaScriptのStreams APIで細切れのデータを読み書きする

    近年、PCに搭載されるメモリは爆発的に増えました。16GBや32GBのメモリが搭載されているのが当たり前の時代です。性能の制限が強いスマートフォンですら4GBほど搭載していることがあります。ストレージの読み書き速度もどんどん加速し、昔では扱えなかったようなデータ量をリアルタイムで処理できます。インターネット回線も同様に大量のデータを扱えるようになりました。 しかし現実的な大きさのデータを一度に扱おうとすると、現代でもそれなりに処理時間がかかります。ユーザはレスポンスに対して敏感で、反応が0.1秒でも遅れるとストレスを感じます。しかし時間がかかるものはかかるのです。この問題は一見どうしようもないように思えます。 そこで登場するのが「データを細切れにして処理する」というコンピュータにおける万能の薬です。細切れにして逐次処理すれば、少しずつデータを処理することができ、素早いレスポンスを実現するこ

    JavaScriptのStreams APIで細切れのデータを読み書きする
  • MySQL 8.0登場!立ち止まることを知らない進化はこれからも続く。

    ゴールデンウィークはいかがお過ごしされただろうか。今年は天気も良く、行楽日和が続いたように思う。 さて、先日MySQL 8.0が正式にリリースされた。少し時間が経ってしまったが、今回はMySQL 8.0の新機能について紹介したい。コミュニティ版のダウンロードはこちらから可能だ。 ひとつ前の正式バージョンはMySQL 5.7だったのだが、MySQL 8.0は非常に大きなリファクタリングが含まれており、5.x台のバージョン番号を捨て去ろうという話があった。そこで、次のメジャーバージョンは最初の桁を増やすということになったのだが、MySQL 6.0は過去に既に存在し、買収などの騒ぎで開発が頓挫してしまった経緯がある。7.xはMySQL NDB Clusterと被っている。というわけで、5.7の7の部分の次という意味合いもあって、8.0というバージョン番号を引っさげ、満を持しての登場となった。その

    MySQL 8.0登場!立ち止まることを知らない進化はこれからも続く。
  • 「TVアニメ1話はパンチラで視聴者を釣る」は本当か1943作品から検証した。 - プリキュアの数字ブログ

    プリキュアには縁もゆかりもない「アニメにおけるパンチラのお話」で申し訳ない。 プリキュアばかり見ていると世の中のアニメにパンチラなんぞ存在しないのかと思ってしまいますが、実際の所、アニメはパンチラに溢れています。(ここで言うパンチラは主に女性キャラのものとし、記事では男性キャラのパンツは含みません。) 特に深夜アニメなどでは「1話ではセクシーなシーンを入れて視聴者を釣り、以後、継続視聴させる」といった手法がある、といった話を聞きます。 しかし当に「アニメの1話ではセクシーなシーンで視聴者を釣って」いるのでしょうか? 記事では、パンチラ表現の有無からそれを調べてみました。 日アニメにおけるパンチラ率 まず初めに「日のTVアニメにおいてパンチラが出てくる確率」はどれくらいなのかを調べました。(全て調べるのは膨大な時間がかかるので、まずは2006年~2016年の11年分を調べました)

    「TVアニメ1話はパンチラで視聴者を釣る」は本当か1943作品から検証した。 - プリキュアの数字ブログ
  • 『 データ分析基盤Night #2 』に参加してきた #データ分析基盤Night - 試纏

    データ分析基盤Night #2 - connpass 2017/04/26 データ分析基盤Night #2 #データ分析基盤Night - Togetterまとめ 前回第1回に引き続き抽選に当たったのでこの日参加してきました。 『 データ分析基盤Night #1 』に参加してきた #データ分析基盤Night - 試纏 会場は株式会社FiNC様@有楽町。有楽町駅ビックカメラのすぐ隣、交通の便は超良い場所です。 会場内もとてもオシャレで綺麗なオフィスでした! 挨拶 ウェルネスタイム(軽いストレッチ) by FiNC FiNCの分析基盤の概要 発表資料 発表内容 freeeデータ分析基盤の全容 発表資料 特徴:他のサービスとどこが違うのか 構成:アーキテクチャ マーケティング 販売・サポート エンジニア ダッシュボード バッチ処理 辛み 展望・チャレンジ まとめ mercariのデータ分析

    『 データ分析基盤Night #2 』に参加してきた #データ分析基盤Night - 試纏
  • 関連動画の総再生数は7500万回以上! ニコニコの視聴データから分析する「けものフレンズ」というムーブメント

    先日、ついに最終回を迎え、いまだにその熱気さめやらぬ「けものフレンズ」。 放送開始直後は、それほど注目をされていなかったにも関わらず、今クールが終わってみれば、押しも押されぬ今期の“覇権アニメ”に・・・・・・どころか、日々ネット上で「すごーい!」「〜のフレンズだね!」といった関連ワードが飛び交う、ある種の社会現象にまでなった作だが、この流行はいったいなんなのだろうか?と、頭をひねるファン、そして関係各所の業界人も多いことだろう。 ニコニコでの第一話の動画は、3月31日時点で460万再生を超えた。 かくいう筆者も、ゲーム業界の片隅に身を置きながら、この「けものフレンズ」のムーブメントには注目していた。実際にアニメを見てみると、確かに楽しいし、妙な中毒性もある。しかし——いくら考えてもよくわからない。これを楽しんでいる人たちはどういう層で、またどういう経緯で作の人気が浸透していったのだろう

    関連動画の総再生数は7500万回以上! ニコニコの視聴データから分析する「けものフレンズ」というムーブメント
  • フロントエンドエンジニアのための動画ストリーミング技術基礎

    動画はデータ容量が大きい 画像と違い、動画コンテンツはデータ容量がとても大きいため、データをダウンロードして再生するまでに待ち時間が発生します。 動画のデータ容量が大きい理由はとても単純で、動画は画像データが集合したものだからです。静止画像を人間の目が滑らかに感じられる速さで切り替えて表示することで絵を動かすという表現を実現しています(よくパラパラマンガに例えられますが、そんな感じです)。この人間の目が滑らかに感じる速さというのが 1 秒間に 30 枚だったり 24 枚を切り替えることになります。29.97 (≒30) fps とか 24 fps とかの数字を耳にしたことがあるかと思いますが、24 fps の場合は 1 秒間(s)の間(p)に 24 フレーム(f)を切り替えることを意味します。 データを全て自分の端末にダウンロードしてから再生しようとすると、かなり長い待ち時間が発生してしま

    フロントエンドエンジニアのための動画ストリーミング技術基礎
  • もう二度と、絶対にMongoDBを使うべきじゃない理由

    MongoDBは悪だ。なぜならそれは… …データを無くす(ソース:1、2)。 …実際、長期間、デフォルトでエラーを無視し続け、何があってもすべての単一書き込みが成功したとみなした( 32ビットのシステムで3GBかそこらを使用したら、MongoDBの制限によって何の警告もなしに全データを失うことになった)。 …宣伝していたユースケースでですら遅く、これが早いと主張するには完全に証拠に欠けている(ソース:3、4)。 …ほぼ全てのユースケースで、暗黙のスキーマという悪しき習慣を強要してくる(ソース:4)。 …ロッキングに問題がある(ソース:4)。 …セキュリティの問題になるくらい、応答時間が酷く遅い。求めてきた人全員に認証なしで全データをさらしてしまうという危険なデフォルト設定をパッチするのに2年かかった(ソース:5)。 …ACID特性に準拠していない(ソース:6)。 …拡張やメンテナンスをする

    もう二度と、絶対にMongoDBを使うべきじゃない理由
    sionsou
    sionsou 2016/02/20
    言い過ぎだけど、俺も結局MongoDBからMySQLへ戻ってきたよ。多分運用の仕方と相当しっかりした設計が必要。結構適当で動いてしまうのが利点でもあり欠点でもあるのがMongoDB
  • 恋人なし率の正規・非正規差

    昨日の東洋経済オンラインにて,「正規・非正規で「恋人の有無」に大きな差」という記事が出て,話題になっています。20代男性の正規の恋人なし率は25.5%であるのに対し,非正規では38.5%であるとのこと。 http://toyokeizai.net/articles/-/101481?page=2 データの出所は「2011年内閣府調査」としか書いていませんが(名称を書いてください),信頼のおける公的調査のデータなのでしょう。 私は,内閣府『わが国と諸外国の若者の意識に関する調査』(2013年)のデータを使って,同じデータをつくってみました。ローデータ(個票データ)が手元にありますので,こういうオリジナル集計も自由自在にできます。 http://www8.cao.go.jp/youth/kenkyu/thinking/h25/pdf_index.html 20代男女(学校卒業者)のサンプルを正

    恋人なし率の正規・非正規差
    sionsou
    sionsou 2016/01/26
    自営業も結局非正規だからなぁ…ひどい話やで。つらい現実