2020年7月19日のブックマーク (17件)

  • 京都の「元立誠小学校」、複合施設として再生オープン » Lmaga.jp

  • とあるAIプロジェクトの失敗とそこから得た鬼十則 - Qiita

    私自身もこういったアンチパターンに遭遇し失敗した経験がある。 冒頭にあげた鬼十則はその反省から生まれたものであるが、ここからそれぞれの項目を解説していきたい。 1. データは自ら集めるべきで、与えられるべきではない 主人公の「データがないから開発できない」の発言は間違ってはいない。しかしデータがないと嘆くのではなく、そのデータを取りに行く努力が必要である。昨年データサイエンティスト界隈で話題となった『アルキメデスの大戦』では上のいざこざでデータ(設計図)が手に入らない時、自らデータを集めて突破口を開くエピソードが綴られている5。この姿はまさに理想のデータサイエンティスト像といえるだろう。データ収集の壁は数多く挙げられるが6、その壁を乗り越える努力を怠ってはいけない。自らが安心して開発を進めるためにも、データ取りには十分に入り込んでいくべきである。 2. 目標とは、先手先手と働き掛けていくこ

    とあるAIプロジェクトの失敗とそこから得た鬼十則 - Qiita
    masadream
    masadream 2020/07/19
    鬼十則久々に思い出した。いいまとめ記事
  • PythonのウェブフレームワークDashで手持ちのお小遣いファイルを可視化する - Qiita

    前置き 手持ちのファイルをサッと可視化したいなんてニーズはよくあります。そういう時にサッとできる環境だと、ノンプログラマーの人もデータが活用でき、根拠のない勘と根性の世界がデータに基づいた勘と根性の世界に変えられます。 今回は身近な事例として、次のような提携のお小遣いのファイルをアップロードできる(pic1)Dashアプリケーションを作成しました。date列には日付、variable列には支出項目、value列は金額が入っています。残念ながら私はお小遣い帳をつけていないので、今回は日の家計調査のデータを使っています。 最終的に作成したアプリケーションは次のようなものです。ファイルアップロードツールをクリックするとファイルが選択でき、上のような3つの項目を持つお小遣いデータであれば、グラフが作成され項目を選択して描画することもできます。 こんなもの作るの大量のコードを書かないとダメなんでし

    PythonのウェブフレームワークDashで手持ちのお小遣いファイルを可視化する - Qiita
  • 日立・富士通・NEC・NTTデータ・東大が参画へ、産官学5団体がデータ流通の新組織

    の産官学がデータの流通や利活用で新たに連携することが、2020年7月17日までに分かった。官民データ活用共通プラットフォーム協議会など既存5団体が手を組み、分野をまたいでデータを探しやすくしたり、国際標準化を推進したりする新組織を設ける。データの流通や利活用では、中国や米国が先行するが、日も産官学のタッグで巻き返す考えだ。 官民データ活用共通プラットフォーム協議会のほか、データ流通推進協議会や日IT団体連盟など5団体が2020年12月にも、データガバナンスの推進組織「dataex.jp」を設立する。このほど設立準備協議会を設置し、会長に東京大学の越塚登教授、事務局に日立製作所とNTTデータ経営研究所が就いた。dataex.jpには日立や富士通NECNTTデータ、東大などが参画する見込みで、まずは会員数で2000団体を目指す。 dataex.jpは政府が2020年7月17日に閣議

    日立・富士通・NEC・NTTデータ・東大が参画へ、産官学5団体がデータ流通の新組織
  • トマトの画像物体検出データセットが無料公開 農業でのAI活用に | Ledge.ai

    Laboro.AIは7月15日、同社のエンジニアコラムにてトマト画像物体検出データセット「Laboro Tomato」を公開した。 Laboro Tomatoは、国際的な著作権ライセンスであるクリエイティブコモンズのCC BY-NC 4.0(Attribution-NonCommercial 4.0 International)のもと、非商用目的に限り無料で公開している。なお、商用目的での利用の際は、Laboro.AIの問い合わせフォームより連絡が必要だ(外部サイト)。 >> Laboro.AI >> Laboro.AI エンジニアコラム 合計804枚の画像データ 成熟、半熟、緑熟に応じたアノテーションLaboro Tomatoは、物体検出技術のなかでも精緻な検出を実現するインスタンスセグメンテーションでの利用を想定して開発された。インスタンスセグメンテーションとは、画像をピクセル単位で分

    トマトの画像物体検出データセットが無料公開 農業でのAI活用に | Ledge.ai
  • AIが作ったビールで“優勝”してみた 意外とおいしい?

    7月15日、NECとコエドブルワリーが「AIが作ったクラフトビール」を発表した。AIが雑誌の文章や画像をもとに風味を決めたお酒という。編集長に「ビール好きでしょ? 取材したら?」と言われたので取材したら、なんと試供品をいただけた。せっかくなので、このビールで晩酌してみる。 余談だが、“優勝”とはアルコールやジュースを飲んで良い気分になることを示すスラングだ。今回は実際にビールを4飲んで優勝しながら記事を書いているため、後半になるにつれ酩酊度が上がっていくかもしれないが、稿ではそれも情報の一つとして楽しんでほしい。 ラインアップは「人生醸造craft ~20's PINK~」(発泡酒)、「~30's BLUE~」(発泡酒)、「~40's YELLOW~」(ビール)、「~50's RED~」(発泡酒)の4種類。それぞれが20~50代の各世代をテーマに、AIに異なるデータを学習させて風味を決

    AIが作ったビールで“優勝”してみた 意外とおいしい?
    masadream
    masadream 2020/07/19
    「小学館が過去40年に発行した15誌4000冊のデジタルデータを利用。文章や画像をNEC製のAI「NEC the WISE」に学習させ、各世代を象徴する傾向を「味・香り・色」に反映。ビール職人が再現した」
  • BERTによるニュース記事の構造化:企業名抽出

    はじめにMachine Learning部門の近江です。ストックマークでは、自然言語処理技術の研究開発を行っています。 先日、弊社のTech Blogにて弊社が公開している言語モデルを紹介しました。 ストックマークが公開した言語モデルの一覧と振り返り 今回は、言語モデルがプロダクトにおいて実際にどのように利用されているかについての一例を紹介します。 ニュース記事の構造化マーケティング、新規事業開発などの調査業務では、調査を行う人が書籍、ニュース記事、ホームページなどの情報を網羅的に調べ、整理し、報告書などにまとめていきます。その際に扱う情報は膨大であり、そのため調査業務には多くの時間と労力がかかります。 弊社のプロダクトである「Astrategy」は機械学習を用いてニュース記事から特徴となる情報を抽出し、構造化することで、大量のニュース記事を効率的に俯瞰し、さらに新規事業開発などに繋がりう

    BERTによるニュース記事の構造化:企業名抽出
  • 顧客理解を前提としないDX(デジタルトランスフォーメーション)とは?|DATAFLUCT

    自己紹介(株)DATAFLUCTのエバンジェリストの小川と申します。DATAFLUCTは非構造データも格納するデータレイクを構築し、AutoML(Automated Machine Learning)による予測や推定を駆使したDX(デジタルトランスフォーメーション)によって企業の課題を解決するデータサイエンススタジオです。当社のVISIONは、「データを商いに」することです。メンバーはデータサイエンティスト、エンジニアプロジェクトマネージャー、UXデザイナーを中心に構成されています。私を含め、多くのメンバーが業務委託&フルリモート稼働です。大手企業との兼業や自らが経営している会社もあるようなメンバーが多いです。 私も(株)秤という会社を経営しております。これまでに総合広告会社やデジタルマーケティング会社など20年くらいのキャリアがあり、一貫して戦略から戦術までマーケティング支援に従事して

    顧客理解を前提としないDX(デジタルトランスフォーメーション)とは?|DATAFLUCT
  • Google CloudがBigQueryでAWS、Azure上のデータを動かさずに分析できる「BigQuery Omni」を発表

    Google Cloudは2020年7月14日(米国時間)、アナリティクスサービス「BigQuery」のマルチクラウド対応を発表した。Amazon Web Services(AWS)やMicrosoft Azure上のデータを動かすことなく、BigQueryによるマルチクラウドのデータ分析ができる。 Google Cloudは同日、AWSの「Amazon S3」に対応したプライベートα版の提供を開始した。Azureへの対応は近い将来(「soon」)に行うという。 BigQuery Omniでは、Google Cloudがマルチクラウド対応を進めるマネージドKubernetesサービス、「Anthos」を活用する。BigQuery OmniとしてAWSやAzureに展開するAnthosクラスタ上で、BigQueryのクエリエンジンである「Dremel」をマネージドサービスとして動かす。その上

    Google CloudがBigQueryでAWS、Azure上のデータを動かさずに分析できる「BigQuery Omni」を発表
    masadream
    masadream 2020/07/19
    ほお。「BigQueryはもともとクエリエンジンとストレージを分離した設計になっているため、これが実現できたという」
  • 機械学習や統計学を「社会実装」するということ - 渋谷駅前で働くデータサイエンティストのブログ

    (Image by Pixabay) 最近になって、こんな素晴らしい資料が公開されていたことを知りました。 この資料自体は著者のMoe Uchiikeさんが東大での講義に用いられたものだとのことですが、その内容の汎用性の高さから「これは全ての機械学習や統計学を実務で用いる人々が必ず読むべきドキュメント」と言っても過言ではないと思われます。 正直言ってこの資料の完成度が高過ぎるのでこんなところで僕がああだこうだ論じるまでもないと思うので、内容の詳細については皆さんご自身でまずは上記リンクから精読していただければと思います。その上で、今回の記事では「機械学習や統計学を『社会実装』する」ということがどういうことなのかについて、この資料を下敷きとした上でさらに僕自身の経験や見聞を加えて考察したことを綴ってみます。 機械学習や統計学と、社会との「ギャップ」 機械学習や統計学を、社会に「馴染ませる」

    機械学習や統計学を「社会実装」するということ - 渋谷駅前で働くデータサイエンティストのブログ
    masadream
    masadream 2020/07/19
    データ分析や機械学習は目的じゃないからね。「業務」をどう変えるんだということから出発しないプロジェクトは絶対うまく行かない(そこから出発できても全てがうまくいくわけではないが
  • 佐川急便、JDSCら5者で「AIと電力データを用いた不在配送解消」に向け実証実験

    佐川急便、JDSCら5者で「AIと電力データを用いた不在配送解消」に向け実証実験:電力データで在宅か不在宅かを判定し、配送効率向上 佐川急便は日データサイエンス研究所(JDSC)、東京大学大学院 越塚登研究室・田中謙司研究室、横須賀市、グリッドデータバンク・ラボ有限責任事業組合(GDBL)と共同で、「AIと電力データを用いた不在配送問題の解消」の実証実験を実施する。

    佐川急便、JDSCら5者で「AIと電力データを用いた不在配送解消」に向け実証実験
    masadream
    masadream 2020/07/19
    オプトイン前提だと思われるが、なんかやばいデータな気が。結局全世帯のデータは取れないのでどこまで意味が出るのかな。
  • オンワード、ZOZOと協業でジャケットなどオーダーメイド、体形データを活用 _流通・小売業界 ニュースサイト【ダイヤモンド・チェーンストアオンライン】

    男性用ジャケットで73サイズ、パンツで128サイズに対応する オンワードホールディングス(HD)は、ファッションEC(インターネット通販)サイト「ZOZOTOWN(ゾゾタウン)」を運営するZOZOとジャケットとパンツのオーダーメイド販売で協業する。ZOZOが持つ体形データを生かして、購入者にぴったりのサイズの商品を手軽にオーダーメイドできるようにする。8月下旬から販売を開始し、5年後には100億円の売り上げを目指す。 ZOZOは全身採寸用の「ZOZOSUIT(ゾゾスーツ)」から得た100万件以上の体形データを蓄積しており、ZOZOTOWNでは身長と体重を選択するだけで衣料品のサイズを推奨するサービス「マルチサイズ」を展開している。購入者は表示される多数のサイズの中から自分の好みなどに応じて商品を選ぶ。 オンワードHDは、ZOZOのマルチサイズサービスを使ってオーダーメイドブランド「KASH

    オンワード、ZOZOと協業でジャケットなどオーダーメイド、体形データを活用 _流通・小売業界 ニュースサイト【ダイヤモンド・チェーンストアオンライン】
    masadream
    masadream 2020/07/19
    ZOZOスーツのデータで新しいビジネスのプラットフォームが作られている。うまい。
  • 機械学習に欠かせない、特徴量とその選択手法とは | AI専門ニュースメディア AINOW

    最終更新日: 2023年4月12日 みなさん、こんにちは。この記事では、AI機械学習)の理解には欠かせない”特徴量”とその選択手法について説明していきます。 AIの学習をスタートさせて、最初に躓くのがこの特徴量という概念である人も多いのではないでしょうか。そんな方のためにも、今回は具体例を交えながら解説していきたいと思います。 特徴量とは? それでは題の特徴量という概念の説明に入りましょう。 特徴量とは特徴が数値化されたもののこと 特徴量とは、対象の特徴が数値化されたもののことを指します。 人間を例にとって考えてみましょう。数値化しやすい特徴の例として、私たちに馴染みが深いのは、身長や体重、年齢、性別などでしょうか。 少し視野を広げれば、貯金額や事摂取量、身体活動量などもこの例となるでしょう。 肝心なのは、特徴量とは、特徴そのものではなく、その数値化された値です。データを特徴量に変換

    機械学習に欠かせない、特徴量とその選択手法とは | AI専門ニュースメディア AINOW
    masadream
    masadream 2020/07/19
    おっさんにも分かりやすい比喩→「料理の際には、食材を可食部と非可食部に分けなければならないように」
  • DataRobot Location AIのご紹介 l DataRobot

    プラットフォームの概要 AI Platform 生成 AIおよび予測 AIのプラットフォーム もっと詳しく ドキュメント 新機能 ログイン 無料で始める 運用 自信を持ってAIを拡張し、比類のないエンタープライズ・モニタリングとコントロールでビジネス価値を促進 デプロイと実行 再学習と最適化 監視と介入 ガバナンス AIの環境、チーム、およびワークフローを統合し、大規模な範囲での完全な可視性と監視を実現 レジストリと管理 監査と承認 コンプライアンスドキュメント生成 構築 ニーズの進化に合わせて自由に適応できるオープンなAIエコシステムで、迅速なイノベーションを実現 分析と変換 学習とチューニング 組立てと比較 プラットフォーム統合 インフラストラクチャーへのデプロイ ソリューション 業界ごと ヘルスケア 製造 小売業 金融サービス 成果ごと ユースケースのライブラリー お客様事例 Dat

    DataRobot Location AIのご紹介 l DataRobot
    masadream
    masadream 2020/07/19
    すごい。使って遊んでみたい。
  • 富士通、教師データなしでデータの特徴を正確に獲得できるAI技術 世界初

    富士通研究所は7月13日、教師データなしで通信ログや医療データのような高次元データの特徴を正確に獲得できるAI技術「DeepTwin」(ディープツイン)を世界で初めて開発したと発表した。DeepTwinが見つけた特徴を残したまま高次元データを削減できるようにすることで、高次元データを使って学習するAIの精度向上が期待できるという。 AIの学習には手となる大量の教師データを使うが、正解ラベルを付与した教師データを作る時間やコストの問題で、教師データなしでAIを学習させるニーズが高まっている。しかし、画像や音声などデータ量の大きい高次元データは、次元の数が大きくなるほど特徴を捉えるための計算量が指数関数的に複雑になる「次元の呪い」という課題がある。 この問題を回避するため、ディープラーニングを用いて高次元データを削減する手法が使われてきた。しかし、各データの分布や発生確率を考慮せずに削減する

    富士通、教師データなしでデータの特徴を正確に獲得できるAI技術 世界初
  • AIにおける「次元の呪い」解決へ、富士通研が機械学習の最有力学会で発表

    富士通研究所は2020年7月13日、ディープラーニング(深層学習)における教師なし学習の精度を大幅に向上できる人工知能AI技術「DeepTwin」を発表した。AI分野の長年の課題だった「次元の呪い」を、映像圧縮技術の知見を活用することで解決したとする。同社は論文を機械学習の最有力学会である「ICML 2020」で7月14日に発表する。 「次元の呪い」とは、データの次元(要素数)が大きくなると、そのデータを分析する際の計算量が指数関数的に増大する現象を指す。次元の呪いを回避するため、一般的に機械学習の高次元データは次元を減らす。 ただ従来の手法には、次元の削減に伴ってデータの分布や確率が不正確になる課題があり、それがAIの精度低下を招く一因になっていた。例えば分布や確率が実際と異なると、正常データを異常と誤判定してしまうような間違いを引き起こしてしまう。 富士通研究所は今回、ディープラー

    AIにおける「次元の呪い」解決へ、富士通研が機械学習の最有力学会で発表
    masadream
    masadream 2020/07/19
    「エンコーダーが次元削減したデータの情報量(データのサイズ)が最小になるようにニューラルネットワークを調整していく手法を取る」
  • Linuxカーネルでの「master/slave」と「blacklist」禁止、トーバルズ氏が承認

    Linuxカーネルの生みの親で最終的な調整役を務めるリーナス・トーバルズ氏は7月10日、Linuxカーネルでの包括的用語として「master/slave」(主人/奴隷)と「blacklist」を禁止する提案を承認した。 この提案は4日にメンテナーのダン・ウィリアムズ氏が投稿した。5月25日のジョージ・フロイド氏死亡をきっかけに続いている人種差別反対運動の中で、米Twitterや米GoogleChromeAndroidチーム、米Microsoftとその傘下の米LinkedInと米GitHubなど、多数のIT企業が同様の決定を発表している。 Linuxカーネルで禁止されるのは、シンボル名やドキュメンテーションでのこれらの用語の使用。ABIの維持に必要な場合や、既存のハードウェアやプロトコルに関連するコードの更新の場合は対象外だ。 master/slaveの置き換えとしては、以下を推奨してい

    Linuxカーネルでの「master/slave」と「blacklist」禁止、トーバルズ氏が承認
    masadream
    masadream 2020/07/19
    master/slaveはいいとして、blacklistは明らかに言葉狩り。