並び順

ブックマーク数

期間指定

  • から
  • まで

281 - 320 件 / 2892件

新着順 人気順

Datasetの検索結果281 - 320 件 / 2892件

  • LighthouseのPerformance項目で40点上げた方法 - SMARTCAMP Engineer Blog

    スマートキャンプのエンジニア井上です! 多くの開発要望がある中で、エンジニアのみでインパクトのある改善をするときにによくあげられるのがサイトの パフォーマンス改善 かと思います。 今回はサイトのスピート計測ツールである、 Google PageSpeed Insightsで使用されているLighthouseのスコア を参考にして、実際に効果があった施策をご紹介します! Google PageSpeed Insightsとは Lighthouseとは Performance項目改善の進め方 実際の対策 レンダリングブロック対応 指摘内容 対策 画像圧縮対応 指摘内容 対策 オフスクリーン画像の遅延読み込み 指摘内容 対策 IntersectionObserver APIとは 実際の実装イメージ 不要なJS・CSS削除 指摘内容 対策 必須のドメインへの事前接続 指摘内容 対策 Resourc

      LighthouseのPerformance項目で40点上げた方法 - SMARTCAMP Engineer Blog
    • LightGBMを超わかりやすく解説(理論+実装)【機械学習入門33】

      こんにちは,米国データサイエンティストのかめ(@usdatascientist)です. 機械学習入門講座第33回です.(講座全体の説明と目次はこちら) 追記) 機械学習超入門本番編ではLightGBMについてさらに詳しく解説をしています.勾配ブースティング決定木アルゴリズムのスクラッチ実装もするので,さらに理解を深めたい方は是非受講ください:) 前回の記事で決定木の勾配ブースティングアルゴリズムであるXGBoostを紹介しましたが,今回は同じ決定木の勾配ブースティングの別のアルゴリズムであるLightGBMについて解説します. LightGBMはXGBoostが発表されてから2~3年後に発表され,今やXGBoostよりも高速で高精度なアルゴリズムとして認識され,XGBoostに代わる最強のアルゴリズムの一つとなっています. XGBoostと同じ決定木の勾配ブースティングをベースにしているの

        LightGBMを超わかりやすく解説(理論+実装)【機械学習入門33】
      • 機械学習と公平性

        1 2 3 4 The field of study that gives computers the ability to learn without being explicitly programmed. — A. L. Samuel ※ Programming computers to learn from experience should eventually eliminate the need for much of this detailed programming effort. — A. L. Samuel [Samuel 59] The field of machine learning is concerned with the question of how to construct computer programs that automatically im

        • kaggle LLMコンペ 上位解法まとめ

          はじめに 科学分野の5択問題を解くLLMの精度を競うKaggle - LLM Science Exam というkaggleコンペが2023/10/11まで開催されていました。 コンペ終了後に公開された上位チームの解法からたくさん学びがあったので、備忘録も兼ねてまとめていきたいと思います。 コンペ概要 問題文(prompt)とA~Eの選択肢(option)が与えられ、それを解くモデルの精度を競うコンペでした。 テストデータはSTEM分野のWikipedia記事からGPT3.5に作成させたことがDataタブで明言されていました。 上位チーム解法まとめ 1. Approach 全てのチームが、問題の生成元となった記事をwikiテキストデータセットから検索(Retrieval)し、関連するテキスト(context)もモデルに入力するRAGと呼ばれるアプローチを採用していました。 RAGを行わないと

            kaggle LLMコンペ 上位解法まとめ
          • Sakana.aiが公開した「Evolutionary Model Merge」手法を「mergekit」で実施してみる - Taste of Tech Topics

            皆さんこんにちは 機械学習チームYAMALEXの@tereka114です。 YAMALEXは Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。 (詳細はリンク先をご覧ください。) 日々、LLMが進化していて、画像が本職(のはず)の私ですら、ここ数年LLMの勉強をはじめています。 学習してモデル公開しましたといった記事はよく見ますが、今回は今、非常に注目されている日本に拠点があるAIスタートアップである「Sakana.ai」が公開した「Evolutionary Model Merge」を使う話をします。 Evolutionary Model Merge 「Evolutionary Model Merge」は「Sakana.ai」から発表された進化的モデルマージと呼ばれる技術です。 端的に言ってしまえば、複数のモデルを利用して新し

              Sakana.aiが公開した「Evolutionary Model Merge」手法を「mergekit」で実施してみる - Taste of Tech Topics
            • AWS IAM PolicyのForAllValuesを勘違いしてた件 - LayerX エンジニアブログ

              LayerX Fintech事業部(※)で、ガバナンス・コンプラエンジニアリングをしている 鈴木 (@ken5scal )です。 ※三井物産デジタル・アセットマネジメントに出向しています。 今回は、AWS IAMポリシーの条件における「ForAllValues」の仕様を誤って理解していたことから、安全でないアクセス制御を実装していたという内容です。もし同様の勘違いをされている方がいたら参考になれば幸いです。 ユースケース AWS IAMユーザーを、ロールの trust policy がユーザーのタグで制御するケースで考えます。 具体的には、「Group A あるいは Group B」に所属し、且つ「Admin」権限のあるユーザーのみが行使できる役割「AdminABRole」があるとしましょう。 この場合、Group と Admin のタグが存在し、下記のようなパターン(※)が考えられます。

                AWS IAM PolicyのForAllValuesを勘違いしてた件 - LayerX エンジニアブログ
              • ゼロから作るDeep Learning ❸

                大ヒットを続ける人気シリーズの第3弾。今回は「DeZero」というディープラーニングのフレームワークをゼロから作ります。DeZeroは本書オリジナルのフレームワークです。最小限のコードで、フレームワークのモダンな機能を実現します。本書では、この小さな――それでいて十分にパワフルな――フレームワークを、全部で60のステップで完成させます。それによって、PyTorch、TensorFlow、Chainerなどの現代のフレームワークに通じる知識を深めます。キャッチフレーズは――作るからこそ、見えるモノ。 関連ファイル サンプルコード 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載しています。以下のリストに記載の年月は、正誤表を作成し、増刷書籍を印刷した月です。お手持ちの書籍では、すでに修正が施されている場合がありますので、書籍最終ページの奥付でお手持ちの書籍の刷

                  ゼロから作るDeep Learning ❸
                • コンピュータビジョン分野のトップカンファレンスであるECCV2022の論文紹介(後編) - NTT Communications Engineers' Blog

                  目次 目次 はじめに ECCV2022のトラッキング論文 ピックアップした論文 Towards Grand Unification of Object Tracking Tracking Objects As Pixel-Wise Distributions Particle Video Revisited: Tracking through Occlusions Using Point Trajectories XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model 最後に はじめに この記事は前回の記事の後編です。ECCV2022で紹介されたトラッキングに関する論文をいくつかご紹介します。 engineers.ntt.com ECCV2022のトラッキング論文 1645本の論文の中

                    コンピュータビジョン分野のトップカンファレンスであるECCV2022の論文紹介(後編) - NTT Communications Engineers' Blog
                  • TrOCRでファインチューニング - Qiita

                    from transformers import TrOCRProcessor processor = TrOCRProcessor.from_pretrained("microsoft/trocr-small-printed") TrOCRProcessorは、特徴抽出器とトークナイザをラップしただけです。任意の特徴抽出器とトークナイザを使えます。google/vit-base-patch16-224-in21k や cl-tohoku/bert-base-japaneseなど 事前学習モデルを選択 事前学習モデルが9種類ありますが、すべて10epochsほど試し一番いいので学習させるのがよいかもです。 from transformers import VisionEncoderDecoderModel import torch device = torch.device("cuda"

                      TrOCRでファインチューニング - Qiita
                    • 真にチラつかないダークモードをついに実現したぞ。実現方法と気付きを書く | stin's Blog

                      真にチラつかないダークモードをついに実現したぞ。実現方法と気付きを書く2024/07/14 14:36 nextjsreact このサイトはダークモードに対応しています。なぜならダークモードは基本的人権だからです(要出典)。 しばらく、サイトに訪問した直後ライトモードとダークモードが切り替わってチラつく現象が発生していました。これを改善したので、実装方法と気付いたことを残しておきます。 ダークモードの実装方法一般に、ダークモードの実装方法は3タイプあります。 OSによるモード設定を反映する メディアクエリー@media (prefers-color-scheme: dark)を使うと、OS側でダークモードを指定している時だけ有効になるスタイルを書くことが出来ます。 JavaScriptでも判定が必要な場合はmatchMedia("(prefers-color-scheme: dark)")

                        真にチラつかないダークモードをついに実現したぞ。実現方法と気付きを書く | stin's Blog
                      • BigQueryの承認済みビューを利用した社内データ公開設計 - enechain Tech Blog

                        はじめに 旧BigQuery構成と課題点 新GCP Project/BigQuery構成 承認済みビューの設定 結果 終わりに はじめに enechainのデータプラットフォームデスクで2年目エンジニアをしている菱沼です。 本記事では、社内ユーザに対する閲覧権限をBigQueryの承認済みビューを用いて改善した例をご紹介します。 事業規模の拡大に伴い、各種データへのアクセス権限整備の重要性が増し、BigQuery上のデータも厳密な権限管理が求められるようになりました。 今回は、我々が抱えていたBigQueryアーキテクチャの権限管理上の課題と、その課題に対する取り組みについて具体的にご紹介します。 ぜひ最後までお付き合いください! 旧BigQuery構成と課題点 データプラットフォームデスクで構築しているデータ基盤の1つに、 外部データソースから取得したデータを収集・蓄積するためのETLパ

                          BigQueryの承認済みビューを利用した社内データ公開設計 - enechain Tech Blog
                        • PySparkはじめました - 分散処理デビューする前にやったこと - JX通信社エンジニアブログ

                          「JX通信社Advent Calendar 2019」10日目の記事です. 昨日は, @rychhrさんの「Pure WebSocketsをサポートしたAWS AppSyncでWebとiOS間のリアルタイムチャットを作ってみた(1)」でした. 改めまして, こんにちは. JX通信社でシニア・エンジニア&データ基盤エンジニアをしています, @shinyorke(しんよーく)と申します. JX通信社では, データ駆動での意思決定および施策実施をより円滑に進めるため, データ基盤の構築・運用を進めながらトライアル的に様々なFrameworkやツールの検証を行っています.*1 このエントリーでは, 私がシュッとPySparkで分散処理をする...前に, 手元で試したときの感想とその知見 のお話を残していきたいと思います. なお, 分散処理そのものの知見・ノウハウではなく, する前にPySparkに

                            PySparkはじめました - 分散処理デビューする前にやったこと - JX通信社エンジニアブログ
                          • 自社プロダクトのデータ基盤における BigQuery SQLテストシステムについて - Platinum Data Blog by BrainPad

                            「データ活用をより多くの人が、より効率的に実施できるようになる取り組み」をエンジニア観点から自発的に実施するカルチャーを持つ、自社開発プロダクト「Rtoaster(アールトースター)」のエンジニアチーム。今回は、データ基盤チームで作成した BigQuery でのテストシステムを紹介します! こんにちは、プロダクトビジネス本部開発部の柴内(データ基盤チーム)です。今回は、自社製品である「Rtoaster」プロダクトのデータ基盤チームで作成した BigQuery でのテストシステムについてご紹介します。 背景 データ基盤チームでは、 Rtoaster製品からリアルタイムに連携される、WebやアプリのトラッキングといったデータをGCSや BigQuery に蓄積するデータレイク データレイクにあるデータを BigQuery で加工・変換して利用しやすい形式にしたデータマートやデータウェアハウス

                              自社プロダクトのデータ基盤における BigQuery SQLテストシステムについて - Platinum Data Blog by BrainPad
                            • 公平性に配慮した機械学習 | メルカリエンジニアリング

                              こんにちは。メルペイのMachine Learningチームの@hiroです。Merpay Advent Calendar 2021 の18日目の記事をお届けします。 機械学習の社会的重要性の高まり 近年、機械学習という技術領域が人口に膾炙し、多くの産業やプロダクトに用いられるようになってきています。機械学習は、アルゴリズムによって、蓄積されたデータのパターンを学習し、従来ひとの判断やルールベースで行ってきた意思決定を自動化、高精度化することで、様々な産業の生産性向上に寄与し、私達の生活を豊かにしてきました。私達の社会にとってなくてはならない技術領域のひとつになっています。 一方、そうした機械学習の自動判断において、結果的に差別的な振る舞いをしてしまったり、お客さまに不愉快な体験をさせてしまったりといった、社会にネガティブな影響を与えてしまう事案も発生しています。この記事で具体的な事例をと

                                公平性に配慮した機械学習 | メルカリエンジニアリング
                              • エシカルデータの潮流

                                世界を変える生成AIを攻略し、便利な生活とさらなる成果を手に入れよ! エンジニアでもない、理系でもないビジネスパーソンに捧ぐ、最高の相棒"ChatGPT"との付き合い方… https://amzn.to/3pOtfvJ本記事は上記の「ChatGPT攻略」に収録されている怪文書コラムのフルバージョンです。いろいろとFワード入りの実例とか、実在の企業を取り扱っていたら、編集段階でバッサリとカットされてしまいました。 角川ってお堅いのね、こっちじゃ全然アリよ。 なので、フル版をここに掲載しておきます。面白かったら買ってね。 追記、この話を大学で講演してきました エシカルデータの潮流このコラムでは、機械学習AIの分野で近い将来に生まれるであろう、エシカルデータという発想・ムーブメントについて、いま現在起こっている出来事をもとに予想したものです。ちなみにエシカルデータは私の造語なので、検索しても出て

                                  エシカルデータの潮流
                                • TensorFlow Certificateに1日で合格する方法 - Qiita

                                  TensorFlow Developer Certificateに合格しました。受験体験記を共有したいと思います。 合格するためにやったこと DeepLearning.AI テンソルフロー開発者 プロフェッショナル認定 - Coursera ローレンスさんとアンドリューさんの講座をやりました。 無料で動画の視聴ができ、登録しても7日以内に解約すれば無料でテストが受けれます。 https://www.coursera.org/professional-certificates/tensorflow-in-practice 4コースx4Weekありますが、集中してやれば1日で終わります。日本語字幕で動画の自動再生をオンにするのがオススメです。 内容を完全に理解する必要はありません。とにかく、最後まで視聴することが大事です。 試験中はコードを書くことは一切ありません。ローレンスのコードをコピペす

                                    TensorFlow Certificateに1日で合格する方法 - Qiita
                                  • 画像検索のwebアプリを雑に作ってみる - Re:ゼロから始めるML生活

                                    可愛かったのでアイキャッチ画像にしました ちょっと画像検索が必要になることがあり、良い機会なので復習しようということになりました。 過去にはこんなのをやってみたりしました。 www.nogawanogawa.com 今回は改めて、主にこちらの資料を参考に画像検索に関して復習してみました。 docs.google.com 今回はこちらを参考にアプリを作ってみたのでそのメモです。 画像検索 TBIRとCBIR CBIRの実現方法 画像検索として使用する特徴量 RGB Histgram Average Hash Perceptual Hash SIFT SURF NN Embedding 類似度の評価方式 Bag of keypoints Earth Mover's Distance SVM ハミング距離 コサイン類似度 要するに 作ってみる 対象画像 画面まわり 検索周り pHash - ハミ

                                      画像検索のwebアプリを雑に作ってみる - Re:ゼロから始めるML生活
                                    • Optuna の拡張機能 LightGBM Tuner によるハイパーパラメータ自動最適化 - Preferred Networks Research & Development

                                      Optuna 開発メンバの小嵜 (@smly) です。この記事では Optuna の拡張機能として開発している LightGBM Tuner について紹介します。 LightGBM Tuner は LightGBM に特化したハイパーパラメータ自動最適化のためのモジュールです。Pyhton コードの import 文を 1 行変更するだけで簡単に利用できます。LightGBM Tuner はエキスパートの経験則を自動化しコードに落とし込むことで、従来より短い時間で最適なハイパーパラメータを探索できます。また記事の後半では従来手法と比較したベンチマーク結果についても紹介します。ベンチマークをとることで、従来の方法と比較して効率的に探索できることを確認しました。 ナイーブな LightGBM のハイパーパラメータチューニング LightGBM は勾配ブースティング法の高速な実装を提供する人気の

                                        Optuna の拡張機能 LightGBM Tuner によるハイパーパラメータ自動最適化 - Preferred Networks Research & Development
                                      • 2021年7月静岡県熱海市の土石流災害に関する空間データの可視化と共有 - Qiita

                                        2021年7月3日に静岡県熱海市伊豆山地区で発生した土石流災害に関連して、静岡県では兼ねてから災害に備えて3次元点群データの蓄積・オープンデータ化が進められていたほか、災害発生直後より比較的短期間にもかかわらず、2次元・3次元を含めてさまざまな空間データ・デジタル地図等が共有されました。執筆者自身がSNS等から把握し、原典を調べてまとめた情報のため、網羅性・完全性は担保できませんが、二次利用可能なものを中心にリスト化しました(以下、順不同)。もし追加等あれば教えてください。【作成:瀬戸寿一 |本記事は、CC BY 4.0としますが、サムネイル画像はデータ公開元によって異なるライセンスを用いている場合がありますので二次利用される場合はご注意下さい】 静岡県庁 静岡県熱海市土砂災害動画(MOV形式 - CC BY 4.0/ODbL のデュアルライセンス) https://www.geospat

                                          2021年7月静岡県熱海市の土石流災害に関する空間データの可視化と共有 - Qiita
                                        • 10万件のSelectBoxが作りたい

                                          10秒で概要 10万件のデータをサジェストするAutocompleteなSelectBoxを作りたい。 しかし、1万件を超えたあたりから通常のAutocompleteではレンダリングに時間がかかる。 以下の方針が有る。 react-windowによるレンダリング以外の範囲の仮想化 フロントエンドではデータを保持せず、入力値に応じてSearchのAPIコールを実施する Reactのレンダリングによる課題 Reactのレンダリングは、大まかに以下のフローで行われます。 Triggering a render 新規画面への描画時、またDOM要素の差分を検出したことをTriggerがとして、レンダリングが発生します。 Committing to the DOM 描画要素に違いがあるDOM要素のみ、DOMノードを変更します。 Autocompleteで表示するデータである<li>要素についても当然D

                                            10万件のSelectBoxが作りたい
                                          • 地図作成のための機械学習用データセット(GSIデータセット)

                                            概要 GSIデータセット(愛称。正式名称は「CNNによる地物抽出用教師データセット」。以下、「本データセット」といいます)は、地上画素寸法20cm級の空中写真画像を対象として、画像内に写っている地物の範囲を、セマンティックセグメンテーションという手法で抽出する際に用いる機械学習用のデータセットです。道路や建物といった、多くの研究で取り組まれている主要な地物だけでなく、高塔や水制といったマイナーな地物や、広葉樹林や針葉樹林などの自然植生、水田や畑などの既耕地も対象としています。 本データセットは、国土地理院の特別研究「AIを活用した地物自動抽出に関する研究(平成30年度~令和4年度)」の研究成果として作成されたものです。このデータセットを使って学習させたモデルによる地物抽出性能が一定以上(抽出性能の評価に用いられる一般的な指標の一つであるF値という値が0.600以上となったもの。:当初はF≧

                                            • オノマトペ(擬音語)から環境音を合成するニューラルネットワーク(Onoma-to-Wave)をPyTorchで実装した - 備忘録

                                              はじめに 事前準備 ソースコード 実装の概要と動かし方 補助的に作成したモジュールの概要 おまけ:訓練済みモデルのリリース 環境音合成実験 音響イベントによる条件付けなし 音響イベントによる条件付けあり 実装の舞台裏とかTIPS おわりに 参考文献 はじめに 下記の雑誌論文が最近出版された。 Yuki Okamoto, Keisuke Imoto, Shinnosuke Takamichi, Ryosuke Yamanishi, Takahiro Fukumori and Yoichi Yamashita, "Onoma-to-wave: Environmental Sound Synthesis from Onomatopoeic Words", APSIPA Transactions on Signal and Information Processing: Vol. 11: No.

                                                オノマトペ(擬音語)から環境音を合成するニューラルネットワーク(Onoma-to-Wave)をPyTorchで実装した - 備忘録
                                              • 特徴量エンジニアリングのライブラリ xfeat を使ってみて便利だったこと - Taste of Tech Topics

                                                こんにちは。機械学習エンジニアをしている古賀です。 最近は愉快な上司@tereka114 のもと、精度の上がらないモデルに四苦八苦しています。 そんな私が普段データ分析をする際に難しいことの一つとして、特徴量エンジニアリングがあります。 特徴量エンジニアリングとは、元のデータに新たな特徴量を追加することでモデルの精度を向上させるプロセスのことです。 この結果によってモデルの精度が大きく変わりますが、正しく実行するにはデータへの深い理解やデータ分析力が必要になります。 私もあまり得意ではないのですが、これを簡単にする xfeat という便利なライブラリがあると上司が教えてくれたので、実際に使ってみて便利だったことをまとめました。 ※本記事は、Pythonその3 Advent Calendar 2020 の15日目の内容になります。 目次は以下です。 xfeat とは 準備 実行環境 xfea

                                                  特徴量エンジニアリングのライブラリ xfeat を使ってみて便利だったこと - Taste of Tech Topics
                                                • コンピュータビジョン分野における世界最高峰の国際会議CVPR2022の論文紹介(後編) - NTT Communications Engineers' Blog

                                                  目次 目次 はじめに 論文紹介 The Norm Must Go On: Dynamic Unsupervised Domain Adaptation by Normalization OcclusionFusion: Occlusion-aware Motion Estimation for Real-time Dynamic 3D Reconstruction EPro-PnP: Generalized End-to-End Probabilistic Perspective-N-Points for Monocular Object Pose Estimation Cascade Transformers for End-to-End Person Search TrackFormer: Multi-Object Tracking With Transformers Global T

                                                    コンピュータビジョン分野における世界最高峰の国際会議CVPR2022の論文紹介(後編) - NTT Communications Engineers' Blog
                                                  • Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models - Cerebras

                                                    Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models Cerebras open sources seven GPT-3 models from 111 million to 13 billion parameters. Trained using the Chinchilla formula, these models set new benchmarks for accuracy and compute efficiency. Abstract State-of-the-art language models are extremely challenging to train; they require huge compute budgets, complex distributed com

                                                      Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models - Cerebras
                                                    • データマーケティングの強い味方!?BigQueryと大規模言語モデル(LLM)の統合で始める検索意図分析の事例|田口 信元

                                                      データマーケティングの強い味方!?BigQueryと大規模言語モデル(LLM)の統合で始める検索意図分析の事例 初めまして、Ubie Product Platformのグロースチームでエンジニアをしてる田口です。「健康が空気のように自然になる世界」を目指し、症状検索による発症から受診までのサポートするサービス症状検索エンジン「ユビ―」を提供しています。 さて、サービスを成長させる上で、ユーザーの行動を理解することが不可欠です。ユーザーが何を求め、どのようにサービスを利用しているのかを知ることで、サービスの満足度を向上させるための改善策が見えてきます。 しかし、大規模なウェブサイトの場合、分析すべき検索クエリが膨大になっているという課題がありました。 今回は、ML.GENERATE_TEXTを用いてプロンプトベースのデータパイプラインを作り、ユーザーの検索意図分析を行ってみた事例を紹介します

                                                        データマーケティングの強い味方!?BigQueryと大規模言語モデル(LLM)の統合で始める検索意図分析の事例|田口 信元
                                                      • 機械学習で住宅価格が予測できるなら「あつ森」の家具の価格も予測できるんじゃないか説 - Qiita

                                                        はじめに🐶🐱🐰 kaggleのデータセットでこれを見つけてしまって、試さずにはいられませんでした。 データセットはこちらです。 👉 https://www.kaggle.com/jessicali9530/animal-crossing-new-horizons-nookplaza-dataset あつまれどうぶつの森(以下、あつ森)のマスターデータといった感じのデータセットです。 家具やむし、さかな、などはもちろん村人(どうぶつ)のデータも入っています。 AutoMLで分析🤖 今回は無料で使えるAutoMLツールのVARISTAを利用していきます。 👉 https://www.varista.ai/ さっそく分析開始🚀 まずはデータをアップロードして中身を確認してみましょう。 「housewares.csv」を利用します。 3,275行 x 32列 897.56 KBの家具

                                                          機械学習で住宅価格が予測できるなら「あつ森」の家具の価格も予測できるんじゃないか説 - Qiita
                                                        • 最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you

                                                          こんにちは。@shunk031 です。 普段は最先端の技術が大好きなパソコンのオタクですが、京都へ旅行して古き良き日本の文化に感化されました。 この記事は 法政大応情 Advent Calendar 2020 21 日目の記事です。 From http://codh.rois.ac.jp/ 今回は日本古典籍の分類タスクについて取り組んでみようと考え、近年の日本古典籍における「くずし字認識」に着目して調査をしました *1。 日本古典籍といった古文書に対して、OCR 等の文字認識技術によって文字情報をデジタル化し、それらの情報をもとに解析を行う流れは現代では自然だと考えています。 しかしながら、一般的に OCR は難しく、また古文書を機械に解析させることはさらなる困難があるのは容易に想像できます。 くずし字認識に対して、近年の取り組みでは ROIS-DS 人文学オープンデータ協働センターが K

                                                            最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you
                                                          • Googleが開発した多言語の埋め込みモデル「LaBSE」を使って多言語のテキスト分類 - Ahogrammer

                                                            自然言語処理において、テキストをその意味を考慮しつつ固定長のベクトルに変換する埋め込みモデルは重要です。文の意味をよく表現したベクトルを作ることができれば、テキスト分類や情報検索、文類似度など、さまざまなタスクで役立ちます。本記事では、Googleが開発した多言語の埋め込みモデル「LaBSE」を使って、テキスト分類をする方法を紹介します。単なるテキスト分類では面白くないため、学習には英語のデータセットを使い、評価には日本語とフランス語のデータセットを使います。 記事では要点だけを紹介するので、コードについては以下のノートブックを参照してください。 Text Classification with LaBSE LaBSE LaBSEは、Googleが「Language-agnostic BERT Sentence Embedding」という論文で提案したモデルです。109の言語に対応しており

                                                              Googleが開発した多言語の埋め込みモデル「LaBSE」を使って多言語のテキスト分類 - Ahogrammer
                                                            • マイクロソフトが「OpenAI」に巨額を投じる理由 (1/3)

                                                              1月初旬、マイクロソフトがチャットボットAI「ChatGPT」や画像生成AI「Dall-E2」の開発で有名なOpenAIに100億ドル(約1兆2800億円)の投資をする可能性が報じられました。1月24日には同社から継続投資に関する発表もありましたが、報じられた金額の大きさに驚いた方も多いのではないかと思われます。 https://www.bloomberg.co.jp/news/articles/2023-01-23/ROXZ7KDWX2PT01 今回の記事ではマイクロソフトが今回のような巨額投資をする程にOpenAI、ひいては「AI技術への期待値をなぜ今抱いているのか?」を理解するために、「現状のAI発展トレンドを俯瞰する」ことで考えてみたいと思います。 結論から言えば、マイクロソフトはOpenAIとの関わりの中で、「指示待ち人間レベル(≒proto-AGI)の知能がほんの数年以内に実現

                                                                マイクロソフトが「OpenAI」に巨額を投じる理由 (1/3)
                                                              • Stable Diffusionを利用し、Apple Silicon Macローカルでテキストから画像を生成できるアプリ「AI Photo」がリリース。

                                                                Stable Diffusionを利用し、Apple Silicon Macローカルでテキストから画像を生成できるアプリ「AI Photo」がリリースされています。詳細は以下から。 Stable Diffusionは独ミュンヘン大学のCompVisグループが開発したtext-to-imageモデルで、ディープラーニングを利用しテキストから画像を生成することができますが、このStable DiffusionのMacクライアントとなる「AI Photo」が新たにリリースされています。 Run Stable Diffusion locally on your Mac. AI Photo is a user-friendly text-to-image generator app that creates photos and artworks in literal seconds, all of

                                                                  Stable Diffusionを利用し、Apple Silicon Macローカルでテキストから画像を生成できるアプリ「AI Photo」がリリース。
                                                                • Japan’s Shift to the Right: Computational Propaganda, Abe Shinzō’s LDP, and Internet Right-Wingers (Netto Uyo) - The Asia-Pacific Journal: Japan Focus

                                                                  Abstract: In recent years, academic research and investigative reports have brought to light several cases of computational propaganda (i.e. orchestrated attempts to manipulate public opinion or the outcome of elections via social media), as well as proof that filter algorithms amplify right-wing conservative content on Japanese social media. Piecing together the scattered pieces of a puzzle, this

                                                                    Japan’s Shift to the Right: Computational Propaganda, Abe Shinzō’s LDP, and Internet Right-Wingers (Netto Uyo) - The Asia-Pacific Journal: Japan Focus
                                                                  • BigQueryのストレージ料金プランを変更して、年間数千万円を節約する - ZOZO TECH BLOG

                                                                    こんにちは、最近気になるニュースはサザエの学名が数年前に初めて命名されたこと1な、MLデータ部データ基盤ブロックの塩崎です。BigQueryのストレージに関する新料金プランが先日発表されたので、その検証をしました。我々の環境では年間で数千万円という費用削減を達成できることが分かりましたので、BigQueryに多くのデータを蓄積している会社は是非お試しください。 ストレージ費用の悩み データ基盤を長期間運用していると、データ量の増加が問題になることがしばしばあります。特にユーザーの行動ログやスタースキーマにおけるファクト系テーブルなどはデータがどんどん蓄積されます。古いデータを削除することでデータ量の増加を緩和できますが、それでもサービスの成長に伴いデータ量は増加する傾向になります。 BigQueryはコンピューティングとストレージが高度に分離されているので、初期のAmazon Redshi

                                                                      BigQueryのストレージ料金プランを変更して、年間数千万円を節約する - ZOZO TECH BLOG
                                                                    • DWH改善に生かす! 入門elementary - yasuhisa's blog

                                                                      前提: これは何? dbtを使ったデータプロダクトを作っている社内のチームメンバー向けに書いた勉強会用のドキュメントです 社外に公開できるように少し抽象化して書いてます DWHに限らずdbtを使ったデータプロダクトで生かせる話ですが、分かりやすさのためにDWHを題材にしています 3行まとめ elementaryはdbtを利用しているデータパイプラインに対してData Observabilityを強化するツールであり、付属のリッチなレポートやSlachへのアラート通知が便利です しかし、実はelementaryが内部で生成している成果物はDWHの改善に役に立つものがたくさんあります 本エントリではelementaryの成果物や役に立つ実例を多めに紹介します 前提: これは何? 3行まとめ 背景: DWHとデータ品質 Observability / Data Observabilityについて

                                                                        DWH改善に生かす! 入門elementary - yasuhisa's blog
                                                                      • Stories of reaching Staff-plus engineering roles - StaffEng

                                                                        At most technology companies, you'll reach Senior Software Engineer, the career level, in five to eight years. At that point your path branches, and you have the opportunity to pursue engineering management or continue down the path of technical excellence to become a Staff Engineer. Over the past few years we've seen a flurry of books unlocking the engineering manager career path, like Camille Fo

                                                                          Stories of reaching Staff-plus engineering roles - StaffEng
                                                                        • Replit — How to train your own Large Language Models

                                                                          Header ImageHow Replit trains Large Language Models (LLMs) using Databricks, Hugging Face, and MosaicML IntroductionLarge Language Models, like OpenAI's GPT-4 or Google's PaLM, have taken the world of artificial intelligence by storm. Yet most companies don't currently have the ability to train these models, and are completely reliant on only a handful of large tech firms as providers of the techn

                                                                            Replit — How to train your own Large Language Models
                                                                          • Vertex AI Pipelinesによる機械学習ワークフローの自動化 - ZOZO TECH BLOG

                                                                            はじめに こんにちは。検索基盤部の倉澤です。 私たちは、ZOZOTOWNの検索機能の改善に取り組んでいます。ZOZOTOWNのおすすめ順検索ではランキング学習を用いた検索機能の改善に取り組んでおり、A/Bテストにて効果を測定しています。 ランキング学習やElasticsearch Learning to Rankプラグインについては過去の記事で紹介していますので、併せてご覧ください。 techblog.zozo.com techblog.zozo.com 私たちは、機械学習モデルの開発からデプロイまでの一連の処理を実行するワークフローの構築にGoogle Cloud Platform(GCP)のVertex AI Pipelinesを利用しています。 本記事では、Vertex AI Pipelines採用前の運用とその課題点について説明し、次にVertex AI Pipelinesで構築し

                                                                              Vertex AI Pipelinesによる機械学習ワークフローの自動化 - ZOZO TECH BLOG
                                                                            • iALSによる行列分解の知られざる真の実力

                                                                              以下では、この表データは \(X\) という行列にまとめられているとします。上記テーブルに含まれる user_id 数を \(N_U\) , item_id 数を \(N_I\) とするとき、 \(X\) は \( N_U \times N_I\) 行列であり、その第 \(i\) 行は user_id として \(\mathrm{user}[i]\) を持つユーザーに、第 \(j\) 列 は item_id として \(\mathrm{item}[j]\) を持つアイテムに対応するとします。このマッピングのもと、 \(X\) の \(i\) 行 \(j\) 列の要素は、以下の式で与えられます。 $$ X_{ij} = \begin{cases} 1 & (\text{if } \mathrm{user}[i] \text{ and } \mathrm{item}[j] \text{ had

                                                                                iALSによる行列分解の知られざる真の実力
                                                                              • 【YOLOv5】マスクしてる人・してない人を物体検出 - Qiita

                                                                                YOLOv5がリリースされたとのことなので試してみました。 https://github.com/ultralytics/yolov5/ 目次 使用データと目的 実装例 データ準備 COCOデータのpretrainedモデルのダウンロード コードのダウンロード 環境準備 コード実行 コード説明 最後に 1. 使用データと目的 以下のサイトから物体検出用の画像を拾ってきました。 https://public.roboflow.ai/object-detection/ 色んなデータがありますが、コロナの時期なのでマスク有り無しのデータを選択してみました。 目的は図のようにマスクをしている人・していない人の物体検出を行うことです。 2. 実装例 2-1. データ準備 まずデータをダウンロードします。 以下のURLにアクセスします。 https://public.roboflow.ai/objec

                                                                                  【YOLOv5】マスクしてる人・してない人を物体検出 - Qiita
                                                                                • DBLog: A Generic Change-Data-Capture Framework

                                                                                  Andreas Andreakis, Ioannis Papapanagiotou OverviewChange-Data-Capture (CDC) allows capturing committed changes from a database in real-time and propagating those changes to downstream consumers [1][2]. CDC is becoming increasingly popular for use cases that require keeping multiple heterogeneous datastores in sync (like MySQL and ElasticSearch) and addresses challenges that exist with traditional

                                                                                    DBLog: A Generic Change-Data-Capture Framework