並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 2907件

新着順 人気順

Datasetの検索結果41 - 80 件 / 2907件

  • 図書館オープンデータを使って図書館データポータルサイトを作りました - Qiita

    国立国会図書館では、さまざまなオープンデータが公開されています。 その中に「図書館及び関連組織のための国際標準識別子(ISIL)」試行版LODがあります。 これは、日本全国の図書館に関する情報が網羅的にまとめられているRDFデータとなります。 提供されているデータはXMLファイルなので個別にデータを取得するためにはプログラムなどで処理する必要があるので、Webブラウザで各データを見やすく提供するWebサイト「図書館施設データポータル」を作成しました。 ここでは、 図書館施設データポータル を紹介します。 図書館及び関連組織のための国際標準識別子(ISIL)」試行版LOD とは 元データは、「図書館及び関連組織のための国際標準識別子(ISIL)」という図書館等につけられる国際的な識別子で、国立国会図書館では、このISILが付与される図書館の情報をオープンデータ(XMLファイルのRDFデータ)

      図書館オープンデータを使って図書館データポータルサイトを作りました - Qiita
    • SQLを使った監視でデータ基盤の品質を向上させる - MonotaRO Tech Blog

      こんにちは、データ基盤グループの吉田(id:syou6162)です。データ基盤グループでは安定してデータを利用できるように様々な取り組みを行なっています。本エントリでは、データ品質に問題がある場合にすぐに気付けるようにしたSQLによる監視の仕組みを紹介します。 背景 SQLを使った監視基盤の構築 実際の監視項目例 他チームがdailyで転送しているデータがバッチの失敗により遅れていないか BigQueryのエラーレートが急激に増加していないか 承認済みビューの設定が意図せず消えていないか 今後の展望 背景 データ基盤の運用をしていると、日々様々なトラブルと向き合う必要があります。例えば、以下のようなものがあります。 他チームがdailyで転送しているデータがバッチの失敗により遅れている TerraformなどのIaCで承認済みビューの権限管理を行なっているが、コードの設定ミスで意図せぬ状態

        SQLを使った監視でデータ基盤の品質を向上させる - MonotaRO Tech Blog
      • Pythonでいい感じにバッチを作ってみる - prefectをはじめよう - JX通信社エンジニアブログ

        JX通信社シニア・エンジニアで, プロダクトチームのデータ活用とデータサイエンスのあれこれ頑張ってるマン, @shinyorke(しんよーく)です. 最近ハマってるかつ毎朝の日課は「リングフィットアドベンチャー*1で汗を流してからの朝食」です. 35日連続続いています. 話は遡ること今年の7月末になりますが, JX通信社のデータ基盤の紹介&「ETLとかバッチってどのFW/ライブラリ使えばいいのさ🤔」というクエスチョンに応えるため, このようなエントリーを公開しました. tech.jxpress.net このエントリー, 多くの方から反響をいただき執筆してよかったです, 読んでくださった方ありがとうございます! まだお読みでない方はこのエントリーを読み進める前に流して読んでもらえると良いかも知れません. 上記のエントリーの最後で, 次はprefect編で会いましょう. という挨拶で締めさせ

          Pythonでいい感じにバッチを作ってみる - prefectをはじめよう - JX通信社エンジニアブログ
        • Hosting SQLite databases on Github Pages - (or IPFS or any static file hoster) - phiresky's blog

          Hosting SQLite databases on Github Pages(or IPFS or any static file hoster) Apr 17, 2021 • Last Update Jun 04, 2023I was writing a tiny website to display statistics of how much sponsored content a Youtube creator has over time when I noticed that I often write a small tool as a website that queries some data from a database and then displays it in a graph, a table, or similar. But if you want to

          • Redis Explained

            Redis Explained InfographicWhat is Redis?Redis (“REmote DIctionary Service”) is an open-source key-value database server. The most accurate description of Redis is that it's a data structure server. This specific nature of Redis has led to much of its popularity and adoption amongst developers. 👋🏾You are reading Architecture Notes! Crave some byte-sized bites of this? Join me on Twitter. If it's

              Redis Explained
            • Stable Diffusion 2.0 Release

              We are pleased to announce the open-source release of Stable Diffusion Version 2. The original Stable Diffusion V1 led by CompVis changed the nature of open source AI models and spawned hundreds of other models and innovations worldwide. It had one of the fastest climbs to 10K GitHub stars of any software, rocketing through 33K stars in less than two months. The dynamic team of Robin Rombach (Stab

                Stable Diffusion 2.0 Release
              • 機械学習による株価予測 - Qiita

                こんにちは。私がAidemyでデータ分析講座コースを受講いたしました。今回は学んだスキルを活用して、上場企業を株価予測をしてみました。 ※私の環境: Python3 Chrome Google Colaboratory Windows 10 目次 1.目的 2. データセット 3. 機械学習モデル 4. 予測モデルの構築と検証 5. 結果 6. 反省 1.目的 上場会社の株価データセットを用いて、株価予測するLSTMの機械学習モデルを構築すること。 2.データセット Yahoo Financeである上場企業Lasertec(6920.T)の時列データ 3.機械学習モデル LSTM(Long Short-Term Memory: ニューラルネットワークの一種で、長期的な依存関係を学習することができる特徴ある。 4.予測モデルの構築と検証 4-1. ライブラリのインポート import ker

                  機械学習による株価予測 - Qiita
                • 新型コロナウイルス感染者数を数理モデルで推定 - 四谷ラボ公式ブログ

                  お詫びと訂正 本記事で、数理モデルによる新型コロナウイルス感染者数の推移の分析において、感染者数の計算に不備があることが、ユーザーの方からのご指摘で分かりました。 このため設計通りの分析結果が得られていない状態で情報を提供しておりました。 私たちが直面している、非常に関心の高い内容にも関わらず、十分な検証を実施せず情報提供をしていましたことを深くお詫び申し上げます。 申し訳ございません。 感染者数の計算処理を修正し、分析結果、グラフ及びプログラム(github)を訂正致しました。 また、タイトルとサムネイルだけをご覧になって、誤解される方もいらっしゃるかもしれませんので、数理モデルが推定した収束時期は削除しました。 さらに、感染者データのCSVファイルが更新されていましたので、3月11日までの感染者数データをダウンロードして使用しています。 お気づきの点等ございましたら、ご指摘いただければ

                    新型コロナウイルス感染者数を数理モデルで推定 - 四谷ラボ公式ブログ
                  • rinna社、日本語に特化したGPT-2の大規模言語モデルを開発しオープンソース化

                    rinna株式会社(本社:東京都渋谷区/代表取締役:ジャン“クリフ”チェン、以下rinna社)は、日本語に特化したGPT-2の大規模言語モデルを構築し、オープンソースとして公開しました。 ■背景 rinna社は、MicrosoftのAI&リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業です。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表してきました。これらの最新技術は、当社が運営するAIチャットボット「りんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボットである「AIキャラクター」の開発に応用され、企業のマーケティングなどにお使いいただいています

                      rinna社、日本語に特化したGPT-2の大規模言語モデルを開発しオープンソース化
                    • ブログをAstro に移行しました - As a Futurist...

                      式年遷宮の様な感じですが、数年おきにブログを作り直してます(前回)。今回は Gatsby でデザインした UI をほぼそのままに、フレームワークを Astro に移行しました。静的サイトの作成では Astro の開発者体験が最高に優れているので、2 年間ほぼ塩漬けにしてしまっていた Gatsby のコードを無事に移行できてよかったです。 Astro とは? Astro は 一言で言うと、Better HTML です。Astro というフォーマットでサイトが記述できるのですが、普通の(素の)HTML も Astro としてそのまま使えます。厳密には違いますが、HTML のスーパーセットみたいな感じです。その HTML の要素群を component としてまとめることで関心を分離できて(この辺は Web Components でも実現できます)、必要に応じてビルド時にロジックも走らせることが

                        ブログをAstro に移行しました - As a Futurist...
                      • 歴代チャットボットと最近のLLMのまとめ - Qiita

                        LLMs The History of Chatbots ELIZA (1966) 初期の人工知能プログラムのひとつ。 ルールベースの簡単なパターンマッチングで返答していた。 心理療法士の会話を模したELIZA(DOCTOR)が有名。 PARRY (1972) PARRYは偏執病的統合失調症患者をシミュレートしようとしたもの。 ELIZA(DOCTOR)と通信し話題となった。 Jabberwacky (1982, 1988, 1997) ユーモラスな人間同士の自然な会話をシミュレートすることを目的としていた。 ユーザーとの会話の大規模なデータベースを構築し、言語と文脈を学習することができた。 プロジェクト自体は1982年から開始されていたが、当初は学習機能は有していなかった。 ローブナー賞を2005年(George)、2006年(Joan)に受賞している。 ローブナー賞(Loebner P

                          歴代チャットボットと最近のLLMのまとめ - Qiita
                        • 我が家の BigQuery による台所事情分析 - nownab.log

                          弊家では銀行やクレジットカードの明細を BigQuery に取り込んでダッシュボードを作ったりしています。 また、そのために作った BigQuery 向けの Go 製 ETL フレームワークを OSS として公開しました。 本記事ではざっくりどんなもんかを紹介して、どう作るのかを説明します。 Google Cloud Platform Advent Calendar 2020 の 13 日目の記事です。 Google Cloud Japan の Customer Engineer の Advent Calendar もぜひご覧ください。 TL; DR 明細が BigQuery にあると、可視化もできるしアラートも出せるし、まぁなんでもできて便利 銀行明細レベルのデータならほぼ無料で保存、ETL、分析できる ETL フレームワーク bqloader を OSS として公開したから使ってくれよ

                            我が家の BigQuery による台所事情分析 - nownab.log
                          • Convert PNG, JPG files to SVG vectors online - Vectorizer.AI

                            PICK Pick a bitmap image that you want to vectorize and drag and drop it onto the page. Bitmap images, such as JPEGs and PNGs, are represented as a grid of little squares called 'pixels', each with its own color. PROCESS We analyze, process, and convert your image from pixels to geometric shapes. The resulting vector image can be scaled to any resolution without getting blurry, and can be used to

                              Convert PNG, JPG files to SVG vectors online - Vectorizer.AI
                            • 2019-nCoVについてのメモとリンク

                              リンク集目次 国内外の状況 政府機関・国際機関等 学術情報 疫学論文 分子生物学/ウイルス学論文 臨床論文 インフォデミック関係 ワクチン関係 変異株関係 時系列メモ目次 新型コロナウイルス(2020年1月6日,11日) インペリグループによる患者数推定(2020年1月18日) 患者数急増,西浦さんたちの論文(2020年1月20日,23日) WHOはPHEIC宣言せず(2020年1月23-24日) 絶対リスクと相対リスク(2020年1月26日) 研究ラッシュが起こるかも(2020年1月27日) なぜ新感染症でなく指定感染症なのか? なぜ厚労省令でなく閣議決定なのか?(2020年1月27日) コロナウイルスに対する個人防御(2020年1月27日) 国内ヒト=ヒト感染発生(2020年1月28日) フォローアップセンター設置,緊急避難等(2020年1月29日) PHEICの宣言(2020年1月3

                              • ローカルで動く大規模言語モデル(Rinna-3.6B)を使ってあなただけのAIパートナーを作ろう - Qiita

                                はじめに はじめまして。株式会社ずんだもんのアルバイトエンジニアのinadaです。 今日は誰でも作れるずんだもんと題してローカルPCにずんだもんAIを作ります。この記事はそのチュートリアル記事です。 (誰でもと書いてますが、RTX 3060(12G)搭載以上のPC推奨です。CPUマシンでも出来る部分はありますが非推奨です。RTX 3060(12G)のグラボは5万ぐらいで買えるので持ってなければ買っちゃいましょう。) 対象読者/記事の範囲 ローカルPCで動かせる大規模言語モデルを、学習用のデータの用意から、学習、動かすところまで一通りどんなものか、お試ししてみたい人。 自分だけの世界にただ一人だけのうちの子、またはパートナー(うちの嫁)を作り育てたい。そんな沼にはまりたい、興味がある人。 AIの仕組みや用語は当記事では解説しません。AIの用語(モデル, loss, epoch, checkp

                                  ローカルで動く大規模言語モデル(Rinna-3.6B)を使ってあなただけのAIパートナーを作ろう - Qiita
                                • 深層距離学習(Deep Metric Learning)の基礎から紹介 - OPTiM TECH BLOG

                                  こんにちは、R&Dチームの河野(@ps3kono)です。深層学習モデルの開発を担当しております。 今回は、画像分類、画像検査、顔認識や異常検知など様々な分野に利用されている深層距離学習(Deep Metric Learning)について紹介したいと思います。 Deep Metric Learningとは 定番のクラス分類と距離学習によるクラス分類の違い 距離学習の進化 1. 対照的(contrastive)アプローチ サンプル選択(sample selection) 代表的な学習手法 Contrastive loss Triplet loss さらなる改善と進化 対照的アプローチの問題点 2. Softmaxをベースにしたアプローチ 代表的な学習手法 Center loss SphereFace CosFace ArcFace さらなる改善と進化(2019年以降) 推論 深層距離学習の利点

                                    深層距離学習(Deep Metric Learning)の基礎から紹介 - OPTiM TECH BLOG
                                  • Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer

                                    最近の自然言語処理では、大規模なテキストから単語の分散表現や言語モデルを学習させて使っています。学習する際のテキストとしては、分量や利用しやすさの都合からWikipediaが選ばれることが多いですが、その前処理は意外と面倒で時間のかかる作業です。そこで、本記事では比較的最近リリースされた前処理済みのデータセット「Wiki-40B」とその使い方を紹介します。 Wiki-40Bとは? Wiki-40Bは、40言語以上のWikipediaを前処理して作られたデータセットです。このデータセットは言語ごとに学習/検証/テスト用に分かれているので、単語分散表現や言語モデルの学習・評価に使えます。言語ごとの対応状況については、以下のページを参照するとよいでしょう。 wiki40b | TensorFlow Datasets 前処理としては、大きくは以下の2つに分けられます。 ページのフィルタリング ペー

                                      Wikipediaの前処理はもうやめて「Wiki-40B」を使う - Ahogrammer
                                    • 画像生成AI「Stable Diffusion」でイラストを描くのに特化したモデルデータ「Waifu-Diffusion」使い方まとめ

                                      2022年8月に一般公開された画像生成AI「Stable Diffusion」を二次元イラスト490万枚以上のデータセットでチューニングした画像生成AIが「Waifu-Diffusion」です。このWaifu-DiffusionをローカルのWindows環境で実行するために、実際にモデルデータをダウンロードして導入してみました。 GitHub - harubaru/waifu-diffusion: stable diffusion finetuned on danbooru https://github.com/harubaru/waifu-diffusion ◆Waifu Diffusionでの生成例 実際に、プロンプト・Sampling Steps・Sampling method・CFG Scale・シード値をまったく同じに設定して、Stable Diffusion(左)とWaifu-

                                        画像生成AI「Stable Diffusion」でイラストを描くのに特化したモデルデータ「Waifu-Diffusion」使い方まとめ
                                      • 「グランド・セフト・オートV」のグラフィックをほぼ実写化するAIが開発される

                                        2013年にリリースされたオープンワールドゲーム「グランド・セフト・オートV(GTA5)」は、PlayStation 5向けの拡張・強化版が開発中であることが報じられるなど、10年近く愛されている人気ゲームです。そんなGTA5のグラフィックを高い精度で実写風に変化させるAIが、Intelの研究チームによって開発されました。 Enhancing photorealism enhancement (PDFリンク)http://vladlen.info/papers/EPE.pdf Enhancing Photorealism Enhancement https://isl-org.github.io/PhotorealismEnhancement/ 開発されたAIによってGTA5のグラフィックがどのように変化するかは、以下のムービーを見るとよく分かります。 Enhancing Photorea

                                          「グランド・セフト・オートV」のグラフィックをほぼ実写化するAIが開発される
                                        • Goodbye to sequential integers, hello UUIDv7!

                                          At Buildkite, we've historically stored our data with two keys. We use sequential primary keys for efficient indexing, and UUID secondary keys for external use. The upcoming UUIDv7 standard offers the best of both worlds; its time-ordered UUID primary keys can be utilized for indexing and external use. This blog post will take you on the journey Buildkite took that led to our eventual adoption of

                                            Goodbye to sequential integers, hello UUIDv7!
                                          • GPT-3.5-turboの新機能を使ってCVPRの論文を良い感じに検索・推薦・要約するシステム

                                            はじめに 5月からTuringに中途入社した棚橋です。リクルートで広告配信システムの開発や量子アニーリングに関する研究開発に関わっていました。現在、Turingのリサーチチームで完全自動運転システムの研究開発に取り組んでいます。 3行でまとめ 今月開催されるCVPR2023では約2400本もの論文が発表されるため、見るべき論文を事前に検索しておきたい。 社内で行われた大規模言語モデル(LLM)ハッカソンをきっかけに、LLMのEmbeddingを用いて論文の「検索・推薦・要約」システムを作成し公開した。 検索クエリに文章を使った曖昧な検索が行えたり、類似論文の推薦ができる。6/13にアップデートされたGPT3.5の新機能であるファンクション機能を使うことで、複数観点に分けて研究内容の要約を出力させた。 ↓ 今回作成した、LLMを使ったCVPR論文検索システム 事の発端 Turingは、ハンド

                                              GPT-3.5-turboの新機能を使ってCVPRの論文を良い感じに検索・推薦・要約するシステム
                                            • ABEJAの技術スタックを公開します (2019年11月版) - ABEJA Tech Blog

                                              2021/10/22追記:最新版は下記記事になります!こちらもご一読くださいませ。 tech-blog.abeja.asia どうも、Tech Blog編集長(自称)の緒方(@conta_)です。 よくエンジニアの方にご質問いただく ABEJAってよく聞くけど、実際どんなことやってるのかよくわからない という点をクリアにするために、事業内容と技術視点でのABEJAの取り組みを紹介したいと思います。 ABEJAに興味のある方や、未来の一緒に働くメンバーに読んでいただけると嬉しいです! 割とAIコンサルの会社と思われているらしいので、ちゃんとプロダクト作ってますよ!ということを伝えていきたい ABEJAの事業紹介 ABEJAは2012年から約7年間、機械学習・ネットワークやIoTデバイスを活用したプロダクトの研究・開発・運用を行っています。 様々な産業・業種へ機械学習の適用・運用を培ってきたナ

                                                ABEJAの技術スタックを公開します (2019年11月版) - ABEJA Tech Blog
                                              • "壊れにくい"データ基盤を構築するためにMackerelチームで実践していること - Hatena Developer Blog

                                                こんにちは。MackerelチームにおいてCRE(Customer Reliability Engineer)をしているid:syou6162です。主にカスタマーサクセスを支えるデータ基盤の構築や、データ分析を担当しています。 今回は、壊れにくいデータ基盤を構築するため、Mackerelチームで実践していることを紹介します。 なぜ壊れにくいデータ基盤を構築するのか データ基盤が“壊れている”とはどういうことか 壊れてないだけでなく、壊れたら気付ける 前提とするシステム構成 壊れたことに気付けるよう監視する 1. バッチジョブが失敗したことに気付く 2. 投入されたデータの性質を監視する 3. ビューが壊れてないかを監視する 4. 利用状況を監視する そもそも壊れてない状態を保つ 1. データリネージを元に修正できるようにする 2. 使われていないテーブルやビューは定期的に掃除 おわりに 参

                                                  "壊れにくい"データ基盤を構築するためにMackerelチームで実践していること - Hatena Developer Blog
                                                • 学習が何で律速してるか、把握してますか? - arutema47's blog

                                                  (最新SSD IOはPCIe x4でした。ご指摘ありがとうございます。) はじめに どの処理で律速しているか調べる 各処理の速度改善方法 データ読み込み速度の改善 データ前処理速度の改善 GPU処理速度の改善 コンピューティングについての他記事 はじめに Kaggle Advent Calendar 2022 8日目です。 突然ですが、あなたはDNN学習時にどの処理で学習速度が律速しているか把握してますか? DNN学習には図に示すように大きく3つの要素があります: (SSDからの)データ読み込み (CPUによる)データ前処理 (GPUによる)DNN計算 学習時のデータの流れとしては SSDからデータが読み込まれ、CPUに送られる(SATA or PCIe) CPUにてaugmentationや正規化などの前処理が行われ、GPUにデータが送られる(PCIe x16) GPUにてDNNの計算・

                                                    学習が何で律速してるか、把握してますか? - arutema47's blog
                                                  • 電子ペーパを使ったダッシュボードを設置した

                                                    Likebook Mars 7.8(電子ペーパ) + Dashbling + Fully Kiosk Browserで、電子ペーパを使ったダッシュボードを作って動かすようにしたメモです。 電子ペーパーのダッシュボードを壁に設置した。 likebook mars + Fully kiosk Browser + dashbling. 結局材料みつけられなかったので、 余ってたエレコムのケーブル結束クリップで貼り付けた。 壁にマスキングテープ⇨梱包テープ⇨結束クリップで固定してるので簡単に剥がせる。 pic.twitter.com/LpLARCP3at — azu (@azu_re) February 2, 2021 最近Likebook Marsをあまり使ってなかったので物理的?なダッシュボードとして使うことにしてみました。 きっかけはDashblingの作者がKindleを使ったダッシュボー

                                                      電子ペーパを使ったダッシュボードを設置した
                                                    • TabFS

                                                      Going through the files inside a tab's folder. For example, the url.txt, text.txt, and title.txt files tell me those live properties of this tab (Read more up-to-date documentation for all of TabFS's files here.) This gives you a ton of power, because now you can apply all the existing tools on your computer that already know how to deal with files -- terminal commands, scripting languages, point-

                                                        TabFS
                                                      • Secrets from the Algorithm: Google Search’s Internal Engineering Documentation Has Leaked

                                                        Google, if you’re reading this, it’s too late. Ok. Cracks knuckles. Let’s get right to it. Internal documentation for Google Search’s Content Warehouse API has leaked. Google’s internal microservices appear to mirror what Google Cloud Platform offers and the internal version of documentation for the deprecated Document AI Warehouse was accidentally published publicly to a code repository for the c

                                                          Secrets from the Algorithm: Google Search’s Internal Engineering Documentation Has Leaked
                                                        • Logging Best Practices: The 13 You Should Know

                                                          Log Analytics Logging Best Practices: The 13 You Should Know When you search for things on the internet, sometimes you find treasures like this post on logging, e.g. creating meaningful logs. This post is authored by Brice Figureau (found on Twitter as @_masterzen_). His blog clearly shows he understands the multiple aspects of DevOps and is worth a visit. Our thanks to Brice for letting us adapt

                                                            Logging Best Practices: The 13 You Should Know
                                                          • 顔画像生成のためのデータセットを作る - すぎゃーんメモ

                                                            動機 TensorFlowの登場をきっかけに 機械学習によるアイドル顔識別 という取り組みをしていて、3年以上かけてコツコツとアイドルの自撮りを収集してラベルをつけてデータセットを作ってきたけど、 アイドルヲタクはもう辞めてしまって 現場にも全然行かなくなり、卒業・脱退の情報を追いながらラベルを更新していく作業を続ける情熱はすっかり薄れてしまった。 もうアイドル顔識別プロジェクトは終了にしよう、と思った。 しかし折角今まで集めたデータを捨ててしまうのは勿体無い。せめて最後に何か活用できないものか。 と考えて、「画像生成」に再び取り組んでみることにした。 過去に試したことはあったけど、それほど上手くはいっていない。 TensorFlowによるDCGANでアイドルの顔画像生成 TensorFlowによるDCGANでアイドルの顔画像生成 その後の実験など この記事を書いたのが2016年。 この後

                                                              顔画像生成のためのデータセットを作る - すぎゃーんメモ
                                                            • Visual Studio CodeでJupyter Notebookを動かしてみた | DevelopersIO

                                                              どうも、DA事業本部の大澤です。 Visual Studio CodeのPython拡張機能のJupyter Notebook用エディタを触ってみました。Jupyter Notebookと似たインターフェイスでスクリプトが実行でき、エディタのインテリセンスのサポートも受けられて便利そうだったので、今回はその内容をご紹介します。 Working with Jupyter Notebooks in Visual Studio Code やってみる Python拡張機能を有効にする Jupyter Notebookをネイティブサポートするエディタを利用するにはPython拡張機能を有効化する必要があります。有効化してなければマーケットプレイスから検索し、有効化しましょう。 Python - Visual Studio Marketplace Python の環境を選択する コマンドパレットからP

                                                                Visual Studio CodeでJupyter Notebookを動かしてみた | DevelopersIO
                                                              • NovelAI Improvements on Stable Diffusion

                                                                As part of the development process for our NovelAI Diffusion image generation models, we modified the model architecture of Stable Diffusion and its training process. These changes improved the overall quality of generations and user experience and better suited our use case of enhancing storytelling through image generation. In this blog post, we’d like to give a technical overview of some of the

                                                                  NovelAI Improvements on Stable Diffusion
                                                                • データ基盤の管理に役立つ監視用のSQLを紹介します - 10X Product Blog

                                                                  Analytics Engineerの吉田(id:syou6162)です。BigQueryを中心に10X社内のデータ関連の管理をしています。10Xに入社してそろそろ一年になろうかとしていますが、データ基盤を適切に管理 / 運用するためにSQLによる監視を少しずつ取り入れています。この記事では、具体的にどのようなSQLを書いて監視しているのか紹介したいと思います。 なお、SQLを使ったデータ基盤の監視自体については私の前職のTech Blogで詳細に書いていますので、そちらを参照してください。 SQLを使った監視でデータ基盤の品質を向上させる - MonotaRO Tech Blog データ管理に役立つメタデータに関する勉強会を社内外で開催しました - MonotaRO Tech Blog 本エントリはこれをベースに「dbtをフルに活用している10Xの環境向けに入れた監視」や「BigQuer

                                                                    データ基盤の管理に役立つ監視用のSQLを紹介します - 10X Product Blog
                                                                  • 公開されている日本の企業名辞書の紹介 - MNTSQ Techブログ

                                                                    特許・契約書・有価証券報告書・企業関連ニュースなど、実応用上の自然言語処理では、会社名を認識したいという場面に非常に多く出くわす。 会社名らしい文字列をテキストから抽出することは、形態素解析器の辞書を用いたり固有表現抽出モデルを学習することである程度実現される一方で、抽出した会社名をレコード化して分析などに用いる際には、いわゆる名寄せの問題が発生する。 自然言語処理における名寄せに似た問題は、エンティティリンキングや共参照解析といったアプローチで探求されており、実応用上は前者のアプローチが採られることが多い印象がある。*1 名寄せタスクをエンティティリンキング的に解くためには、帰着先の知識ベース・辞書が予め存在していることが必要だが、研究の文脈では知識ベースとしてWikipediaが採用されることが多い。 Wikipediaを用いる利点は多くあり、様々なエンティティ種に対してそこそこのカバ

                                                                      公開されている日本の企業名辞書の紹介 - MNTSQ Techブログ
                                                                    • 【速報】OpenAI APIでGPT-3.5-turboがfine-tuningできるようになりました!! | DevelopersIO

                                                                      ただし、GPT-4と比較すると安価にはなっていますので、性能比較をしながら良い塩梅を探すとコスト的にメリットがある可能性があります。 また学習のコストですが、以下のように学習データ全体のトークン数 x エポック数という形で費用が掛かるので注意が必要です。 (エポック数は後述するようにパラメータとして指定可能です) For example, a gpt-3.5-turbo fine-tuning job with a training file of 100,000 tokens that is trained for 3 epochs would have an expected cost of $2.40. 公式ページは以下となりますので、併せてご確認ください。 レート制限 fine-tuningのレート制限については、以下に記載があります。 fine-tuningについては以下のように

                                                                        【速報】OpenAI APIでGPT-3.5-turboがfine-tuningできるようになりました!! | DevelopersIO
                                                                      • Open Interpreter - Qiita

                                                                        text = """ SeabornのTitanicデータセットを使いLightGBM,XGBoost,CatBoostおよび3つのモデルのアンサンブルした場合で どれが最も精度が良いか検証してください.検証する際は4foldのクロスバリデーションの結果の平均値としてください. 全て日本語で対応してください. """ # return_massagesは出力結果のデータを変数として保持するため引数 # 出力結果はmassagesにも保存される messages = interpreter.chat(text, return_messages=True) 了解しました。以下の手順で進めていきます。 1 必要なライブラリをインストールします。これには、seaborn(データセットの取得)、pandas(データの操作)、numpy cikit-learn(クロスバリデーションと精度評価)、lig

                                                                          Open Interpreter - Qiita
                                                                        • 脳みそが固くなったおじさんSEが機械学習を勉強してみた - Qiita

                                                                          【はじめに】 本記事は 「機械学習をどう学んだか by 日経 xTECH ビジネスAI② Advent Calendar 2019」 の19日目になります。 おじさんSEの私がどうやって機械学習を勉強したかを記します。 きっかけは当時抱えていた分類課題において、「機械学習が使えるんじゃね?」というところから始まりました。 闇雲にやっていたので正直記憶は曖昧です。 経歴 プログラム歴は30年近くあります。 小学生の時に覚えたMS BASICから始まり、Z80アセンブラ、MC68000アセンブラ、FORTRAN、C(UNIX)、C++(Mac)、VB、Java(Android)、VB.NET、C#と触ってきました。 いろいろな言語に触れてきましたが、どれも極めるほどガッツリやっていたわけではありません。 機械学習に関しては20年以上前、いわゆる第二次AIブームの終わり頃に卒論のテーマでニューラ

                                                                            脳みそが固くなったおじさんSEが機械学習を勉強してみた - Qiita
                                                                          • 【保存版】オープンデータ・データセット100選 -膨大なデータを活用しよう! | AI専門ニュースメディア AINOW

                                                                            最終更新日: 2020年3月4日 AIの高まりとともにデータの大切さが再認識される今、オープンにさまざまなデータが公開され、気軽に活用できるようになっています。 オープンデータの存在は、膨大なデータから学習を行う機械学習にとって不可欠で、構築したいAIに合わせてオープンデータを選択し、活用することが必要です。 一方、オープンデータのみでは競合優位性のあるAIは構築できません。マクロなオープンデータと、独自に収集したミクロなデータを組み合わせて、独自のAIを構築していくことが重要です。 オープンデータを活用したサービスを構築する際には、サービスのUX(ユーザー体験)を高め、いかにユニークなデータを取得できるかが勝負なのでオープンデータに頼りすぎないようにしましょう。 今回、オープンデータ・データセットを6カテゴリに分類し、100個選出しました。自身のサービスやAIの構築に活かせそうなデータを

                                                                              【保存版】オープンデータ・データセット100選 -膨大なデータを活用しよう! | AI専門ニュースメディア AINOW
                                                                            • GoでSQLの複雑なクエリのテストを書いてみた - ZOZO TECH BLOG

                                                                              はじめに こんにちは。ブランドソリューション開発本部FAANSバックエンドブロックの佐野です。普段はサーバーサイドエンジニアとして、FAANSのバックエンドシステムを開発しています。 FAANSとは、弊社が2022年8月に正式ローンチした、アパレル店舗で働くショップスタッフの販売サポートツールです。例えば、コーディネート投稿機能や成果確認機能などを備えています。投稿されたコーディネートはZOZOTOWNやWEAR、Yahoo!ショッピング、ブランド様のECサイトへの連携が可能です。成果確認機能では、投稿されたコーディネート経由のEC売上やコーディネート閲覧数などの成果を可視化しています。 本記事では、成果データの集計処理におけるBigQueryのクエリ実行処理のユニットテストをGoで実装した取り組みと、その際の工夫についてご紹介します。 目次 はじめに 目次 成果データの集計処理とは 抱え

                                                                                GoでSQLの複雑なクエリのテストを書いてみた - ZOZO TECH BLOG
                                                                              • 「実践Redis入門」所感 ~「E.G.コンバット」の観点から語る~ | フューチャー技術ブログ

                                                                                積読を消化しようというテーマの、読書感想文連載 の2冊目です。 導入『自分たちは、クラウドネイティブじゃなくてマネージドネイティブなんだよ…』 TIGの原木です。 最近、冒頭のような開発者の嘆きを人づてに聞く機会があり、今も脳裏に残り続けています。 昨今のITシステムにおいて、クラウドサービスは欠かせないものとなっています。しかしユーザー、そして開発者として大きな利便性を享受する裏で、クラウドサービスによって巧妙に隠蔽された裏のソフトウェアを意識する機会は減り続けているのではないでしょうか? Webサービスにおいて、RedisやMemcachedに代表されるキャッシュサーバーもそのようなソフトウェアの1つです。 キャッシュサーバーは、Webアプリケーションなどデータの読み込みや保存を効率化するために欠かせない存在ですが、同じデータストアであるRDBMSなどと比較していま一歩隠れた存在だと思

                                                                                  「実践Redis入門」所感 ~「E.G.コンバット」の観点から語る~ | フューチャー技術ブログ
                                                                                • DALL·E: Creating images from text

                                                                                  We’ve trained a neural network called DALL·E that creates images from text captions for a wide range of concepts expressible in natural language. DALL·E is a 12-billion parameter version of GPT-3 trained to generate images from text descriptions, using a dataset of text–image pairs. We’ve found that it has a diverse set of capabilities, including creating anthropomorphized versions of animals and

                                                                                    DALL·E: Creating images from text