並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 2907件

新着順 人気順

Datasetの検索結果161 - 200 件 / 2907件

  • 3DDB Viewer の公開について | 研究チーム | 人工知能研究センター

    近年、社会活動や企業活動の一部として世界的に三次元データの利用が拡大しており、多種多様なデータを容易に検索/閲覧できるシステムが、データの提供者と利用者の双方から求められています。3DDB Viewer は、産総研の3Dデータベース用に開発された Web ユーザインタフェースで、様々な三次元データ(点群/メッシュ/構造物等)を検索/表示/ダウンロードすることができます。マニュアルはこちら。

    • 生成AIグラビアをグラビアカメラマンが作るとどうなる?第十回:実在モデルからSDXL用顔LoRAを作る (西川和久) | テクノエッジ TechnoEdge

      https://www.techno-edge.net/special/560/recent/%E7%94%9F%E6%88%90AI%E3%82%B0%E3%83%A9%E3%83%93%E3%82%A2%E3%82%92%E3%82%B0%E3%83%A9%E3%83%93%E3%82%A2%E3%82%AB%E3%83%A1%E3%83%A9%E3%83%9E%E3%83%B3%E3%81%8C%E4%BD%9C%E3%82%8B%E3%81%A8%E3%81%A9%E3%81%86%E3%81%AA%E3%82%8B%EF%BC%9F続きを読む » Modelに無い顔や彼女の顔を出したい!生成AIでポートレート写真やグラビアを作っていると、同じような雰囲気の顔ばかりが結構出るのに気付く。 もちろん何パターンもあるので、毎回同じでもないのだが、XやInstagramなどの生成AI画像

        生成AIグラビアをグラビアカメラマンが作るとどうなる?第十回:実在モデルからSDXL用顔LoRAを作る (西川和久) | テクノエッジ TechnoEdge
      • 脳が知覚した内容を「Stable Diffusion」が画像化 脳活動を解析 阪大などが技術開発

        Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2 大阪大学大学院生命機能研究科と情報通信研究機構CiNetに所属する研究者らが発表した論文「High-resolution image reconstruction with latent diffusion models from human brain activity」は、潜在拡散モデルを用い、磁気共鳴機能画像法(fMRI)により得られた人間の脳活動から画像を生成する手法を提案した研究報告である。実験参加者に画像を見せた際のfMRI信号から潜在拡散モデルで画像を生成する。 【修正履歴:3月8日午後6時40分更新:掲載当初のタイトルから一部内容を修正

          脳が知覚した内容を「Stable Diffusion」が画像化 脳活動を解析 阪大などが技術開発
        • ZOZO研究所が実施する「検索/推薦技術に関する論文読み会」 - ZOZO TECH BLOG

          こんにちは。ZOZO研究所の山﨑です。 ZOZO研究所では、検索/推薦技術をメインテーマとした論文読み会を進めてきました。週に1回の頻度で発表担当者が読んできた論文の内容を共有し、その内容を参加者で議論します。 本記事では、その会で発表された論文のサマリーを紹介します。 目次 目次 検索/推薦技術に関する論文読み会 発表論文とその概要 SIGIR [SIGIR 2005] Relevance Weighting for Query Independent Evidence [SIGIR 2010] Temporal Diversity in Recommender System [SIGIR 2017] On Application of Learning to Rank for E-Commerce Search [SIGIR 2018] Should I Follow the Crow

            ZOZO研究所が実施する「検索/推薦技術に関する論文読み会」 - ZOZO TECH BLOG
          • GitHub - japan-opendata/awesome-japan-opendata: Awesome Japan Open Data - 日本のオープンデータ情報一覧・まとめ

            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

              GitHub - japan-opendata/awesome-japan-opendata: Awesome Japan Open Data - 日本のオープンデータ情報一覧・まとめ
            • nerman: AllenNLP と Optuna で作る固有表現抽出システム - クックパッド開発者ブログ

              事業開発部の @himkt です.好きなニューラルネットは BiLSTM-CRF です. 普段はクックパッドアプリのつくれぽ検索機能の開発チームで自然言語処理をしています. 本稿では,レシピテキストからの料理用語抽出システム nerman について紹介します. nerman の由来は ner (固有表現抽出 = Named Entity Recognition) + man (する太郎) です. クックパッドに投稿されたレシピから料理に関する用語を自動抽出するシステムであり,AllenNLP と Optuna を組み合わせて作られています. (コードについてすべてを説明するのは難しいため,実際のコードを簡略化している箇所があります) 料理用語の自動抽出 料理レシピには様々な料理用語が出現します. 食材や調理器具はもちろん,調理動作や食材の分量なども料理用語とみなせます. 「切る」という調理

                nerman: AllenNLP と Optuna で作る固有表現抽出システム - クックパッド開発者ブログ
              • dbtを触ってみた感想 - yasuhisa's blog

                データエンジニア系の勉強会で最近dbtがぱらぱらと話題に出てくるようになった & 4連休ということで、夏休みの自由研究がてらdbtを触ってみました。書いてる人のバックグラウンドは以下の通り。 DWHやデータマートの構築のためのETLツールを模索中(特にTの部分) プライベートではDataformを使っている 前職でも仕事の一部で使っていた 開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog 定期バッチ処理はArgo Workflows on GKEでやっている 触ってみないと肌感とか自分で運用できるかのイメージが湧かないのでね。 Dataformとの比較 細かいノウハウ 手元や本番環境での動作 Argo Workflowとの連携 環境によってDWHの提供するバージョンを差し替える DWHやデータマートの外の情報をデータリネージに加える 既存

                  dbtを触ってみた感想 - yasuhisa's blog
                • 機械学習セキュリティのベストプラクティス – Draft NISTIR 8269: A Taxonomy and Terminology of Adversarial Machine Learning –

                  機械学習セキュリティのベストプラクティス – Draft NISTIR 8269: A Taxonomy and Terminology of Adversarial Machine Learning – 論文紹介 概要 「Draft NISTIR 8269: A Taxonomy and Terminology of Adversarial Machine Learning」は、米国のNIST(National Institute of Standards and Technology)が策定を進めている機械学習セキュリティに関するベストプラクティスのドラフトであり、機械学習システムの安全確保を目的として、機械学習にまつわるセキュリティを「攻撃」「防御」「影響」の3つの視点で分類している。 NISTIR8269はブログ執筆時点(2020年7月9日)でドラフト版であるが、「NIST SP8

                    機械学習セキュリティのベストプラクティス – Draft NISTIR 8269: A Taxonomy and Terminology of Adversarial Machine Learning –
                  • 無償入手可能な音声コーパス/音声データベースの一覧 - Qiita

                    無償かつ入手しやすい音声データセットをメモしています。 ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。 コーパスを探すときに有用なサイト コーパス配布元サイト 音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能 緩いライセンスのコーパスでなくても良いときはここ 自発的発話の日本語音声コーパスはだいたいここにある 入手は要申請 所属や責任者を記入する必要があるため、研究者や企業でないと厳しい? (この記事では音声資源コンソーシアムのコーパスは未掲載) Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス 大量の日本語音声コーパスが配布されている 音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情 あなたにどうしても伝えたい30の音声コーパス

                      無償入手可能な音声コーパス/音声データベースの一覧 - Qiita
                    • PyCon JP 2019で見たセッションの聴講記録20個分 / 資料・動画・関連リンクなど - フリーランチ食べたい

                      2019年9月16日/17日に開催されたPyCon JP 2019で自分が直接/YouTubeで聴講したセッションについてのまとめです。主に下記の内容を書いています。 スピーカーURL 配信動画 スライド 発表内で出てきたライブラリなどのURL 自分の感想 「あのセッションで話していたライブラリなんだっけ」と思い出したい方やざっくり内容が知りたい方に読んでいただければ幸いです。PyCon JPに自分も発表者としても参加し、スタッフとして参加し、Webサイトの開発もしたので、それについては改めて書きたいと思います。 pycon.jp PythonとAutoML / 芝田 将 スピーカー: https://twitter.com/c_bata_ 動画: https://www.youtube.com/watch?v=Whkwu46DgBs スライド: https://www.slideshar

                        PyCon JP 2019で見たセッションの聴講記録20個分 / 資料・動画・関連リンクなど - フリーランチ食べたい
                      • Transformerによる時系列データ予測のご紹介 - Platinum Data Blog by BrainPad

                        本記事は、当社オウンドメディア「Doors」に移転しました。 約5秒後に自動的にリダイレクトします。 発展を続ける「自然言語処理」技術。その中でも幅広く使用される深層学習モデルTransformerは、自然言語処理以外の音楽生成や物体検出などの領域でも適用できます。本ブログでは、 Transformerを時系列データに適用する方法をご紹介します。 こんにちは、AIソリューションサービス部の井出と申します。 この記事では、特に自然言語処理分野で幅広く使用される深層学習モデルTransformerを時系列データへ適用する方法に関してご紹介します。 以前の記事では、Transformerの構造や特徴などについて、自然言語処理分野の機械翻訳を例としてご紹介しております。はじめに、こちらの記事をご一読していただくことで、より本記事でご紹介する内容に対する理解が深まるかと思います。 Transform

                          Transformerによる時系列データ予測のご紹介 - Platinum Data Blog by BrainPad
                        • 自然言語からSQLを自動生成するDeep Learning技術 - Qiita

                          本記事は Towards Complex Text-to-SQL in Cross-Domain Database with Intermediate Representation(論文, リポジトリ)のサーベイ記事です。 日鉄ソリューションズ(NSSOL)様での研究開発インターンの一環として執筆しました。 今回紹介するのは、ざっくり言えば、自然言語で記述された質問からSQLクエリを生成するタスク(Text-to-SQL)において、文脈自由な中間表現を導入して性能を上げた研究で、提案モデルはIRNetと呼ばれています。 この研究ではSpider (論文, サイト) というデータセットを用いています。Spiderは従来のText-to-SQLデータセットよりも複雑な事例を多く含んでいます。 Spiderの公式サイトで挙げられている難易度が中くらい(Meidum)の例がこちらです: 複数テーブ

                            自然言語からSQLを自動生成するDeep Learning技術 - Qiita
                          • 傾向スコアを用いた因果推論入門~実装編~ - 下町データサイエンティストの日常

                            0. はじめに 1. 対象データ 2. 先に各手法の結果を確認 3.準備 4. 基礎集計~CMを見た人と見ていない人での目的変数の差~ 5. 因果推論の流れのおさらい 6. 傾向スコアモデリング 6.1 モデリング 6.2 テスト / コントロールの傾向スコアの可視化 6.3Rでの傾向スコアモデリングの実装 7. 傾向スコアマッチング 7.1 結構面倒なpython 7.2 R (Matchingライブラリ) 7.3マッチングの評価 8.IPW 9. ダブルロバスト 9.1 回帰モデル 9.2ダブルロバスト 10.Proximityマッチング 11.改めて、各種手法による推定因果効果のまとめ 12.まとめ 0. はじめに 理論編に引き続き、実装を行なっていきます。 pira-nino.hatenablog.com 実装はpythonとRの両方で行いました。 作業用のコードは以下のgithu

                              傾向スコアを用いた因果推論入門~実装編~ - 下町データサイエンティストの日常
                            • CI/CDのデータを収集するCIAnalyzerの紹介

                              去年のGWにCIAnalyzerというツールを作成し、プライベートと仕事の両方で1年ほど活用してきました。今年の9月にCI/CD Conference 2021にて実際の活用事例を紹介させて頂きましたが、発表時間の都合上CIAnalyzer自体の使い方まで紹介はできなかったためブログにしました。 CIAnalyzerを作成したきっかけ 今の自分の仕事は社内のCI/CDの基盤を整えるのと同時に、ビルドエンジニアの真似事のようなことをしています。この分野のサポートをしていると開発を主にしているエンジニアの方から 「ビルドが遅いし、頻繁に壊れる」 「テストは時間がかかるし、いつも失敗している」 という話を聞く機会がありました。ですが、自分としてはとても意外なことにその実態を定量的に把握することはほとんどできませんでした。 もちろん短期的であれば把握できます。昨日のデプロイはN分かかったとか、ma

                                CI/CDのデータを収集するCIAnalyzerの紹介
                              • 開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog

                                Dataformを初めて使ってみたので、雑に感想を書いておきます。結構よかった。 使ってみようとした背景 Dataformについて 試してみてどうだったか よかった まだまだこれからっぽいところ & 気になり 参考 使ってみようとした背景 今週、社内の開発合宿に参加していた。変更のリードタイムやデプロイ頻度などのFour Keysにあるような指標を計測できるデータ基盤を作るのが目標。様々なチームの開発のパフォーマンスをトラッキングしやすくして、うまくできているチームがなぜうまくいっているのかを明らかにしたり、改善施策を行なった結果指標も改善しているか定量的に確認できるようにして、開発効率を上げる土台を作るというのが目的。この辺の詳しいことは後々別のエントリで書かれると思う。 自分のチームは3人構成で、在宅のオンラインでやっていた。 id:shiba_yu36さん Mackerelチームでも

                                  開発効率を計測するデータ基盤の管理にDataformを使ってみた - yasuhisa's blog
                                • クライアントサイドからサーバサイドまで破壊するテンプレートエンジンを利用した攻撃と対策

                                  ユーザー入力として受け取ったテンプレートをコンパイル テンプレートレベルがProgramming Language Templateは安全にコンパイルするのが難しい 高度なテンプレートはプログラミング言語そのもの コンパイル時に任意のコードが実行できてしまう => ⚠Danger Programming Language Templateをコンパイルする危険例: ローカル メールでマクロ付きのWordファイルを開いて、ローカルで任意のプログラムが実行されてしまうケース マクロはプログラムそのもの 偽装メールが再び拡散、不正マクロを仕込んだ添付ファイルでマルウエア感染:マクロウイルスの再来? - @IT デフォルトではマクロは無効化されており、オプトインで有効化になっている Office ドキュメントのマクロを有効または無効にする - Office サポート Programming Lang

                                  • AutoDev|AI エンジニア「Devin」に驚いていたら、もう Microsoft が「AI駆動開発」ツールを用意し始めてたって話 - Qiita

                                    AutoDev|AI エンジニア「Devin」に驚いていたら、もう Microsoft が「AI駆動開発」ツールを用意し始めてたって話ポエムAI 概要 まず、本記事の背景ですが、本記事を書く数日前に、「Devin AI|話題の世界初 "完全自律型" AIエンジニア「Devin」の公開内容の全訳」 という記事を書きました。 ありがたいことに、フォロワーも少ないのに記事公開後のたった3日間程で 1万超の閲覧(View) をいただけました(YouTube の解説動画も公開3日目で1万回再生を突破しました)。 「AI の進化もすごいし、みんなのアンテナもすごいなぁ」という思いに浸りながら、ふと海外の AI 界隈の記事を漁ってたら、なんと 「Microsoft が自律型 AI ソフトウェア開発ツールを作ってるらしい」 という記事を発見しました。「ツール」と呼ぶよりは、「ソリューション」の方が近いので

                                      AutoDev|AI エンジニア「Devin」に驚いていたら、もう Microsoft が「AI駆動開発」ツールを用意し始めてたって話 - Qiita
                                    • Pytorch Template 個人的ベストプラクティス(解説付き) - Qiita

                                      はじめに Pytorchでコードを書き始めるとき、乱数固定やデータローダー、モデルの訓練や学習結果の取得等、毎度色々なサイトを参照するのは面倒だと思い、現時点の個人的ベストプラクティス・テンプレートを作成してみました。 今後のバージョンアップや便利なライブラリの登場で変わるかもしれませんげ、現在はこれで落ち着いています。 個人的な備忘録も兼ねて、前半に簡単な解説付きのコードと最後に全コードを載せています。 もっと便利な書き方やライブラリなどあれば、コメントいただけると嬉しいです。 テンプレート(解説付き) 1. ライブラリインポートと初期設定 torchやよく利用するライブラリ(numpy, matplotlib)のインポート モデルの訓練時(for文)の進捗を表示するtqdmライブラリ(jupyter notebookとコマンドライン版) 進捗表示は待ち時間の見積もりやエラーに気づくこと

                                        Pytorch Template 個人的ベストプラクティス(解説付き) - Qiita
                                      • 意味的知識グラフとApache Solrを使った関連語検索の実装 - Ahogrammer

                                        Manningから出版予定の『AI-Powered Search』(AIを活用した情報検索の意)を冬休み中に読んでいたら、その中で意味的知識グラフ(Semantic Knowledge Graph)と呼ばれるデータ構造について説明していて、関連語の計算やクエリ拡張などに使えるということで興味深かったので紹介しようと思います。最初に意味的知識グラフについて説明したあと、日本語のデータセットに対して試してみます。 AI-Powered Search(https://www.manning.com/books/ai-powered-search) 本記事の構成は以下のとおりです。 意味的知識グラフとは 意味的知識グラフを用いた関連語の計算 参考資料 意味的知識グラフとは 知識グラフと聞くと、固有表現認識や関係抽出、OpenIEを使って構築するグラフを思い浮かべる方もいると思うのですが、意味的知識

                                          意味的知識グラフとApache Solrを使った関連語検索の実装 - Ahogrammer
                                        • AIが作った画像か判別するAIを4hで作ったらまあまあの精度出たのでWebサービスとして公開した件 - Qiita

                                          AIが作った画像か判断するAIを作りました Webサービスとして提供していましたが、飽きたのでクローズしました ※機械学習やったことない人が書いてます Why ピクシブのお気持ち表明記事の「AI生成作品のフィルタリング機能」というのが気になり、機械学習で作ることが出来るのではと思いやってみることに Step 1 素材を集める 割愛 Step 2 コードを書く AutoGluon というAutoML(全自動で良い感じに機械学習してくれる奴)ツールを使ったので、パラメーターの調整や難しいコードは何も書いてません。 過去に使って良い感じになった奴を流用します。 from autogluon.vision import ImagePredictor, ImageDataset if __name__ == "__main__": # \imagesの中にはAIが生成した画像フォルダとAIが作ってな

                                            AIが作った画像か判別するAIを4hで作ったらまあまあの精度出たのでWebサービスとして公開した件 - Qiita
                                          • 無料でキャラクターイラスト1枚からぬるぬる動くアニメーションを作成するAI「Animated Drawings」をMeta AIがリリース

                                            Metaの人工知能(AI)研究所であるMeta AIのFundamental AI Research(FAIR)チームは、手描きのキャラクターをアニメーションに変換するオープンソースプロジェクト「Animated Drawings」を2023年4月14日にリリースしました。Animated Drawingsは無料でブラウザから体験することができ、頭と体と手足がハッキリしていれば、かなり雑な落書きでも超簡単に動かすことができます。また、Animated Drawingsはオープンソースで公開されているため、GitHubからダウンロードしてより詳細なオプションを設定することも可能です。 Animated Drawings https://sketch.metademolab.com/ First-of-its-kind open source project brings your anima

                                              無料でキャラクターイラスト1枚からぬるぬる動くアニメーションを作成するAI「Animated Drawings」をMeta AIがリリース
                                            • Pythonのスクリプトからウェブアプリを簡単に作れるStreamlitをさわってみた | DevelopersIO

                                              どうも、DA 事業本部の大澤です。 The fastest way to build custom ML toolsと謳っているStreamlit をさわってみました。HTMLやJS、CSSをいじることなく、Pythonのスクリプトからウェブアプリが作れて便利さに感動しました! streamlit/streamlit: Streamlit — The fastest way to build custom ML tools 今回はStreamlitに含まれるサンプルアプリを動かした後に、Pandasのデータフレームを使った簡単なウェブアプリを作ってみたので、その内容を紹介します。 やってみる インストール Streamlit は pip でインストールすることで使えます。 pip install streamlit サンプルを動かす デフォルトでサンプルアプリケーションが用意されているので

                                                Pythonのスクリプトからウェブアプリを簡単に作れるStreamlitをさわってみた | DevelopersIO
                                              • The Four Innovation Phases of Netflix’s Trillions Scale Real-time Data Infrastructure

                                                My name is Zhenzhong Xu. I joined Netflix in 2015 as a founding engineer on the Real-time Data Infrastructure team and later led the Stream Processing Engines team. I developed an interest in real-time data in the early 2010s, and ever since believe there is much value yet to be uncovered. Netflix was a fantastic place to be surrounded by many amazing colleagues. I can’t be more proud of everyone

                                                  The Four Innovation Phases of Netflix’s Trillions Scale Real-time Data Infrastructure
                                                • Neural Network Consoleを使って五等分の花嫁を学習してみた - Qiita

                                                  はじめに 機械学習を使って五等分の花嫁の予測をする記事はいくつかあるのですが、最新10巻までのデータを使ったもの、Neural Network Console(以下NNC)を使ったものが無かったので自分の練習がてら試してみました。 多少のネタバレを含みますので注意してください。 因みに私は三玖派です。 過程はいいから結果だけ見たい方はこちら。 Neural Network Consoleとは? Neural Network Consoleとは、SONYが開発したディープラーニング・ツールで、ドラッグ&ドロップでニューラルネットワークを編集できるため、数学やプログラミングの知識がない人でも簡単にディープラーニングを行うことができるツールです。また、学習にはクラウド上のGPUを使うので、頭もPCも低スペックな私でも簡単に学習モデルを作ることができます。 開発者である小林由幸氏自身による解説動画

                                                    Neural Network Consoleを使って五等分の花嫁を学習してみた - Qiita
                                                  • データカタログにNotionを選択した理由

                                                    実装方法 冪等性を担保したGoogle Cloud Composerの設計と実装で紹介しているとおり、Luupのデータ基盤はGoogle Cloud Composerを軸に動いています。なので今回も、Google Cloud Composerの環境下に作りました。 アウトプットイメージは以下です。 以下のNotion APIのDocumentを参考に実装を進めていきます。 サンプルコードも豊富で、説明も丁寧なので簡単に実装できました。 以下、コード一例です。 # Notionのフォーマットに変換するメソッド def format_standard_property_value(self, property_name: str, value: str): if property_name == "title": return {"title": [{"text": {"content": v

                                                      データカタログにNotionを選択した理由
                                                    • 3D都市モデル(Project PLATEAU)ポータルサイト - G空間情報センター

                                                      航空測量等に基づき取得したデータから建物等の地物を3次元で生成した3D都市モデルです。 商用利用も含め、どなたでも無償で自由にご利用いただけます。 特徴 3D都市モデルとは、都市空間に存在する建物や街路といったオブジェクトに名称や用途、建設年といった都市活動情報を付与することで、都市空間そのものを再現する3D都市空間情報プラットフォームです。 様々な都市活動データが3D都市モデルに統合され、フィジカル空間とサイバー空間の高度な融合が実現します。これにより、都市計画立案の高度化や、都市活動のシミュレーション、分析等を行うことが可能となります。 PLATEAU https://www.mlit.go.jp/plateau/ 整備都市の属性リスト(Excel) このサイトの使い方 地方自治体名の右側の数字をクリックすると、その年に整備したデータのページに移動します。 北海道 札幌市:2020、

                                                      • Amazonのデータセットで始める商品検索

                                                        この記事は 情報検索・検索技術 Advent Calendar 2022 の7日目の記事です。 はじめに 今年の夏、Amazonが多言語 (英語、スペイン語、そして日本語) のラベル付きの商品検索のデータセットを公開しました。 論文: https://arxiv.org/abs/2206.06588 リポジトリ: https://github.com/amazon-science/esci-data 情報検索において商品検索は、ウェブ検索を作りたいという企業より商品検索を作りたい企業の方が多いという意味で、ポピュラーなトピックだと思います。ところが公開データで実験を行おうとするとドメインが違うウェブ検索のデータセットか、ラベルのない商品カタログか、ラベルはあるけど小規模なデータセットかという限られた選択肢しかなく、仕方がないので非公開の独自データセットを作って実験を行うという状況でした。

                                                          Amazonのデータセットで始める商品検索
                                                        • バクラクMLチームの技術スタックの変遷 - LayerX エンジニアブログ

                                                          機械学習エンジニアの吉田です。 夏ですね。7月はLayerXエンジニアブログを活発にしよう月間 です。 昨年バクラクOCRの機械学習モデルの検証から本番投入までの取り組みについて記事を書きました。 tech.layerx.co.jp その後、運用する中で新たな課題が生まれたり、負債を解消するために当初の開発環境を見直しアップデートしてきました。 今回は機械学習周辺の技術スタックに焦点を当ててその変遷について紹介したいと思います。 MLチームでは各サービスからのリクエストを処理するAPIやデータ基盤、社内のアノテーションツールなどの開発も行っており、これらは主にGo, TypeScriptで開発されていますが今回は対象外としています。 技術スタックの変遷 本番リリース時と現在の主な技術スタックの比較です。 リリース時 現在 言語 Python Python パッケージ管理 pip Poetr

                                                            バクラクMLチームの技術スタックの変遷 - LayerX エンジニアブログ
                                                          • サイバースペースにおける「言論の自由」の社会実験の失敗/上 - 清義明|論座アーカイブ

                                                            サイバースペースにおける「言論の自由」の社会実験の失敗/上 Qアノンと日本発の匿名掲示板カルチャー【5】 清義明 ルポライター 先日のアメリカ大統領選挙の数日前のことだ。友人からこんな話を聞いた。年上のお世話になっている人が、毎日LINEでこんなメールを送りつけてきて、どう反応していいのか困っているのだという。 そして、そのメールを見せてくれたのだが、本人は善意で注意喚起してくれているのだろう。こんなことが書いてある。 「世界各国で政権交代が起き軍事作戦が展開される。すでに中国軍がメキシコとカナダの国境に展開されている。アメリカの国境警備隊はすでにドローンで迎撃する準備をしている。大統領選挙でバイデンが勝つ可能性は1%もないが、もしなったとしても1カ月も大統領は続けられない。ワシントンでは着々とペロシなどの逮捕の時間がせまっている。そうすれば世界中パニックになる。日本人には影響はないので、

                                                              サイバースペースにおける「言論の自由」の社会実験の失敗/上 - 清義明|論座アーカイブ
                                                            • 意外と奥が深い、HDFの世界(Python・h5py入門) - Qiita

                                                              ※数値はWhat is the fastest way to upload a big csv file in notebook to work with python pandas?より引用 pickleがPythonオブジェクトをダイレクトに扱う(そのための制約やセキュリティ関係での配慮の必要性などが少しある)のを考えれば、CSVなどと比べればHDF5でも必要十分と言えそうです。 他の言語でも使える pickleだと基本的に他の言語で扱えません。私の今いる会社だとPython以外にもRだったりを使っている方がいらっしゃいますし、他の会社ではJavaなりGoなりで扱う必要が出てくるケースもあるかもしれません。 また、pickleではPythonバージョンによるプロトコル番号的なところも絡んできます。 (とはいえ、もうPython2系を新しく使い始めるケースはほぼ無いと思いますし、万一必要

                                                                意外と奥が深い、HDFの世界(Python・h5py入門) - Qiita
                                                              • Coronavirus (COVID-19) Vaccinations

                                                                Our vaccination dataset uses the most recent official numbers from governments and health ministries worldwide. Population estimates for per-capita metrics are based on the United Nations World Population Prospects. Income groups are based on the World Bank classification. A full list of our country-specific sources is available at the bottom of this page, and we also answer frequently-asked quest

                                                                  Coronavirus (COVID-19) Vaccinations
                                                                • 物体検出ライブラリの紹介と所感 - arutema47's blog

                                                                  記事について 画像はDetectron2より 物体検出をほとんど使っていない方を対象として、2021年末の物体検出ライブラリを俯瞰することが本記事の目的。 ある程度物体検出の経験ある方は学ぶことは少ないと思う。またあくまで書いてあるのは筆者の感想であるので人によっては全く違う意見になることもあるかと。また本記事ではモデルの技術的な説明はありません。それらについて理解を深める際は参考ページや元論文を当ってみると良いかと思います。 また大変遅くなりましたが、本記事はKaggleアドベントカレンダー(裏)の24日目でもあります(年明けちゃってすみません)。 qiita.com 記事について 紹介するライブラリ一覧 所感 アンサンブルについて 精度vs速度トレードオフ ライブラリ紹介 yolov5 学習について 推論について Yolox 学習について Efficientdet 学習コード torc

                                                                    物体検出ライブラリの紹介と所感 - arutema47's blog
                                                                  • GPT in 60 Lines of NumPy | Jay Mody

                                                                    January 30, 2023 In this post, we'll implement a GPT from scratch in just 60 lines of numpy. We'll then load the trained GPT-2 model weights released by OpenAI into our implementation and generate some text. Note: This post assumes familiarity with Python, NumPy, and some basic experience training neural networks. This implementation is missing tons of features on purpose to keep it as simple as p

                                                                    • OpenAI Whisper に追加学習をさせる試み | IIJ Engineers Blog

                                                                      地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。 【IIJ 2022 TECHアドベントカレンダー 12/8(木)の記事です】 Whisperの追加学習に挑む2022年の冬 2022年アドベントカレンダー企画だそうです。 いかがお過ごしでしょうか。 私はもう興味を引くものに没頭するしか楽しみがないもんで、PCに向かってぼんやり面白いネタはないかなーと探す日々です。 最近はすっかりディープラーニングにズブズブで、とうとう数式かくのが面倒なあまり手書き入力のためのペンタブレットを買いました。てへ。 今回は9月から10月にかけてStabl

                                                                        OpenAI Whisper に追加学習をさせる試み | IIJ Engineers Blog
                                                                      • Introducing Amazon Managed Workflows for Apache Airflow (MWAA) | Amazon Web Services

                                                                        AWS News Blog Introducing Amazon Managed Workflows for Apache Airflow (MWAA) As the volume and complexity of your data processing pipelines increase, you can simplify the overall process by decomposing it into a series of smaller tasks and coordinate the execution of these tasks as part of a workflow. To do so, many developers and data engineers use Apache Airflow, a platform created by the commun

                                                                          Introducing Amazon Managed Workflows for Apache Airflow (MWAA) | Amazon Web Services
                                                                        • これぞ革命!?ゼロから大規模言語モデルを学習できるReLORA登場(7/18追記あり)|shi3z

                                                                          導入 本当に革命的な技術なのか? 「君たちはどう生きるか」で驚いている間にすごい論文が世界の話題を掻っ攫っていた。 その名も「ReLORA」簡単に言えば、「事前学習にLoRAを使う」というものである。 これは本当に革命的な発見かもしれないので、僕の仮説も含めて丁寧に説明する。 まず、大前提として、「LoRA」という技術について LoRAは、「Low Rank Adaptation(日本語で言うとすれば低階適応)」という技術で、これまでは主にファインチューニングに使われてきた。 ファインチューニングとは、あらかじめ学習されたニューラルネットワークに対して追加で学習させ、概念を強調させたり新しく覚えさせたりする。 たとえば、僕の顔でStableDiffusionをファインチューニングすれば、僕みたいな顔の絵がどんどん出てくる。 言語モデルにおけるLoRAも同様で、新しい概念や「こういうやりとり

                                                                            これぞ革命!?ゼロから大規模言語モデルを学習できるReLORA登場(7/18追記あり)|shi3z
                                                                          • IT初心者がAmazon Forecast を使ってシャンプーの売上傾向を予測【誰でも出来る】 - Qiita

                                                                            はじめに 2020年!AIぽいことしたいなーということでAWSのMachineLearningらしいサービスを使ってみました。 初心者さん、機械学習に詳しくない方でも使えるので、その使い方を分かりやすくご紹介していきます! Amazon Forecastとは? 過去の何らかの時間単位で整列されたデータ(時系列データ)から価格、PR、経済的業績指標などを利用し、予測をすることができるサービスです。 完全マネージド型 オートML機能によって予測できる モデルを構築するための機械学習の専門知識いらず サーバーをたてたり、機械学習モデルの構築、トレーニング、デプロイも不要 実際に使用した分に対してのみ料金が発生 自動的にデータのロードと検査、適切なアルゴリズムの選択、モデルのトレーニング、正確なメトリクスの提供、予測の生成 予測をコンソールで可視化できる バッチでエクスポートしたり、API を使用

                                                                              IT初心者がAmazon Forecast を使ってシャンプーの売上傾向を予測【誰でも出来る】 - Qiita
                                                                            • 【理論から実践まで】動かしながら学ぶ!ゼロからわかる再帰的ニューラルネットワーク(RNN) - LABOT 機械学習ブログ

                                                                              この記事では再帰的ニューラルネットワーク (RNN) について解説をします。RNN の理論的な説明から入り、Keras を用いて実際に RNN を動かしてみます。単純RNN (SimpleRNN), LSTM, 双方向RNN (bidirectional RNN), deep RNN を用いてモデリングをします。なおこの記事はGoogle Colaboratory で動かすことができ、実行しながら読むことをおすすめします。 ノートブックを開く 再帰的ニューラルネットワーク 再帰的ニューラルネットワーク(リカレントニューラルネットワーク、RNN))は系列データのモデルです。 各時刻 $t_1, t_2, \cdots,t_n$で$\vec{x_1}, \cdots, \vec{x_n}$が入力されたときベクトル$\vec{y_1}, \cdots, \vec{y_n}$ を予測するモデルです

                                                                              • 「外形監視」という訳語の間違い - Webパフォーマンスについて

                                                                                要約 Synthetic Monitoringに「外形監視」という訳語を当てている方がいるのですが、Syntheticの意味は「外形」ではありません。 Syntheticは「合成」という意味です。 ですから、日本語訳を付けるのであれば、「合成監視」です。 また、External Monitoringの訳語として、「外形監視」という訳語を当てて書いている人も見かけます。 正しくは、 Synthetic Monitoring ... 合成監視 External Monitoring ... 外部監視 です。 何故、Synthetic Monitoringは、「合成監視」なのでしょうか? その歴史と背景を解説します。 Synthetic Monitoringとは何か? Synthetic Monitoringとは、計測システムから、対象システムに対して能動的にアクセスして、性能や可用性に関するデ

                                                                                  「外形監視」という訳語の間違い - Webパフォーマンスについて
                                                                                • ディープラーニングで肉体変化のタイムラプスを劇的に見やすくした - Qiita

                                                                                  はじめに トレーニー(筋トレを愛している人)の多くが習慣化している「自撮り(肉体)」。トレーニング後にパンプした肉体を撮りためて、後で見返すのが至福のときですよね。さらに、撮りためた画像をタイムラプスのようにアニメーションで表示させたら、より筋肉の成長が手に取るようにわかりますよね! この記事はディープラーニングを使って、肉体のタイムラプスを劇的に見やすくした話を書いています。 まずは結果から 2017/12~2020/3の体の変化 ※データサイズの都合上、画像をクロップ&圧縮しています。 目次 1.手作業での補正 1-1.そのまま表示 1-2.位置の固定 1-2-1.乳首おへそ座標付与ツール 1-2-2.動画作成 2.ディープラーニングを用いた自動補正 2-1.アノテーションデータ作成 2-2.学習 2-3.未知画像への適用 2-4.後処理 2-4-1.各ピクセルの出力値が閾値以下のもの

                                                                                    ディープラーニングで肉体変化のタイムラプスを劇的に見やすくした - Qiita