並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 8587件

新着順 人気順

*datasetの検索結果1 - 40 件 / 8587件

  • いたばし花火大会に関して

    火事が起きて途中中止になったけど花火は最期まで上がっていたといういたばし花火大会だが、実は戸田市との共同開催になっていて、荒川を挟んで板橋側だけが中止になったのだ。荒川を挟んで両岸で打ち上げまくるのね。 でも板橋区の方では「いたばし花火大会」としてしかアナウンスされないし、戸田市側の方は「戸田橋花火大会」としてしか案内されないから、東京都民or板橋区民の中には戸田市の方でも打ち上げてるのを知らない人が結構いるし、反対側の埼玉県民、戸田市民の方も然りで、「中止になったのに最後まで打ちあがってたのは何故???」というなぞなぞみたいな事になってしまった。 そして両岸で共同開催という珍しい形になったのは、荒川の改修工事が元になっている。 荒川放水路工事と河道直線化赤羽の岩淵に岩淵水門という隅田川入口を締め切る水門があるんだが、そこから下流の荒川は大正から昭和初めに掛けて開削した放水路だ。それまでは

      いたばし花火大会に関して
    • 日本のウェブデザインの特異な事例

      sabrinas.spaceより。 8週間もかからなかったはずのプロジェクト 日本のウェブデザインはどう違うのか? 2013年のRandomwireのブログ投稿で、著者(David)は、日本のデザインの興味深い相違点を強調しました。日本人はミニマリストのライフスタイルで海外に知られていますが、ウェブサイトは奇妙なほどマキシマリストです。ページには様々な明るい色(3色デザイン原則を破っている)、小さな画像、そして多くのテキストが使われています。2022年11月に撮影されたこれらのスクリーンショットで、自分の目で確かめて下さい。 ブログ投稿には、文化的専門家、デザイナー仲間、そして不満を抱く市民によって支持されている、考えられる理由がいくつか挙げられていました。 この理論が今でも正しいのか、また、もっと定量的なアプローチが可能なのか気になったのでやってみました。 私が見つけたもの 各国の最も人

        日本のウェブデザインの特異な事例
      • 論文読みの日課について - ジョイジョイジョイ

        かれこれ三年以上ほぼ毎朝論文を読んでいます。 ほぼ毎朝、というのは本当にほぼ毎朝です。この三年のうち読まなかった日はワクチンの副反応でダウンしている日など、あわせて 10 ~ 20 日ほどでしかありません。この日課だけでも 1000 本以上は論文を読んだことになります。 論文読みの日課についての知見が溜まってきたのでこの記事で共有します。 主な想定読者は研究者と学生の皆さんですが、それ以外の論文読みに興味のある皆さんにも有用な情報が詰まっているはずです。 日課の流れ Readable について 🧐 論文の選び方 自分の研究内容と直接関係あるものを読む(特におすすめ) 完全にランダムに選ぶ 被引用数の多い順に選ぶ(特におすすめ) トピックごとに重要な論文を読んでいく 研究者ごとに論文を読んでいく 📝 論文メモの書き方 ⏳ 時間を計測する 🤗 論文メモを公開する 📜 表現集の作成 🔨

          論文読みの日課について - ジョイジョイジョイ
        • ゼロから始める、データ分析と可視化 - Kyash Product Blog

          はじめまして。Kyashでデータエンジニアリングを担当しているKyashデータマンです。この記事では、Kyash社内のデータ分析の基礎に関するドキュメントを紹介します。 Kyashでは、データエンジニアリング・ガバナンス・セキュリティなど様々な角度から、公正なデータの取扱いと活用を推進しています。従来は、一部の訓練された技術者がデータ分析を一手に担っていましたが、社内でもデータ活用のニーズも多く、その担当者に分析や集計の業務が集中するという課題がありました。 この課題に対して、データへの適切なアクセス管理を行い、そして適切なBIツールを導入することで、データを取り扱う人が自分でデータ分析・そして活用できるようになることを目指しています。アクセス管理には、個人情報やそれに準ずる機密データに対して、ポリシータグによるアクセス権のコントロール、そしてアクセス権のリネージなどのソリューションの導入

            ゼロから始める、データ分析と可視化 - Kyash Product Blog
          • 「リモートで組織内のサイロ化が進む」「全員出勤日を設けるなど工夫する必要がある」コロナ禍でMicrosoftがフルリモートになった影響を調べた調査の結果が出た

            n @_sh0he1 - ビデオ通話・対面などの同期コミュニケーションが減り、チャット・メールなど情報量が少ない非同期コミュニケーションが増えた - グループ内にリモートに転向した同僚がいると、オフィスに残った同僚でも同様の変化が見られた(!) (2/n) n @_sh0he1 結論:リモート化は組織内のサイロ化を進める、質と量で劣る非同期コミュニケーションの増加を招き、労働者のアウトプットに長期的に影響する恐れがある。また、ハイブリッド型勤務でも”全員出勤日・リモート日”を設けるなど工夫しないとリモートの悪影響を受けることがわかった。 リンク Nature Human Behaviour The effects of remote work on collaboration among information workers - Nature Human Behaviour Using

              「リモートで組織内のサイロ化が進む」「全員出勤日を設けるなど工夫する必要がある」コロナ禍でMicrosoftがフルリモートになった影響を調べた調査の結果が出た
            • 二子玉川の堤外地問題と小字地図に関して幾つか指摘その1

              二子玉川の堤外地に建つマンションが高値を付けてる事に嘆いて小字地図という面白いものを公開してくれた人がいる。 でもその事をまとめたtogetterではそれに対して間違ったり不適当なツイートばかり拾ってるので指摘するよ。 https://b.hatena.ne.jp/entry/s/togetter.com/li/2381841 過去の経緯二子玉川には堤防の切れ目があった。陸閘ともいう。閘はパナマ運河などの閘門の閘で、板で締め切って水をブロックして水位を変化させるものだ。それが陸にあるから陸閘。 https://maps.app.goo.gl/DKKV4c1kefy3BVSE9 余談だがこの道は結構重要な道で、江戸時代の矢倉沢往還(青山通り大山道)だった。真っ直ぐ行って多摩川に出たところに渡船(二子の渡し)があったのだ。川を渡って崖を上ると二子の宿場に着く。 ここは瀬田村の一部で、スレッドで

                二子玉川の堤外地問題と小字地図に関して幾つか指摘その1
              • Googleが大量の機械学習用データベースを無料公開してた - Qiita

                個人用メモです。 機械学習は素材集めがとても大変です。 でもこの素材集め、実は無理してやらなくても、元から良質な無料データベースがあったようなのです。 URLはこちら YouTube8-M https://research.google.com/youtube8m/explore.html 提供されているサービスは以下の通り 800万個の動画 19億個のフレーム 4800個の分類 使い方はExploreから画像セットを探し、ダウンロードするだけ。 他の方法も見つけた open images dataset 「すごい神だな」と思ったのは これもう完成されてますよね もちろんこの認識前の画像もセットでダウンロードできます。 Youtube-8Mとは、画像数を取るか、精度で取るか、という違いでしょうか。 他にも良い素材集を教えていただきました (はてなブックマーク情報 @sek_165 さん )

                  Googleが大量の機械学習用データベースを無料公開してた - Qiita
                • 大公開!バッチアプリケーションの品質を高めるZOZOの『バッチ開発ガイドライン』 - ZOZO TECH BLOG

                  こんにちは。MA部の田島です。 弊社では開発ガイドラインというものを用いて、システムの品質を担保しています。今回私がテックリードを務めているということもあり、バッチアプリケーションを開発するためのガイドラインを作成しました。本記事では「開発ガイドライン」と「バッチ開発ガイドライン」を紹介します。 バッチアプリケーション開発に限定したTipsはまとまっているものが多くないため参考にしていただければと思います。 開発ガイドラインについての紹介 冒頭でも紹介した通り弊社では、開発ガイドラインというものを用いてシステムの品質を担保しています。バッチ開発ガイドラインを紹介する前に、まず開発ガイドラインを紹介します。 開発ガイドラインの種類 開発ガイドラインは現在、以下の種類が存在します。 共通 Android iOS Frontend Backend Infra API Batch DB(Datab

                    大公開!バッチアプリケーションの品質を高めるZOZOの『バッチ開発ガイドライン』 - ZOZO TECH BLOG
                  • 市区町村マスタを手に入れろ、そして更新し続けろ - エムスリーテックブログ

                    全国の市区町村の名前とコードをデータベーステーブル化したもの、すなわち市区町村マスタはITシステムを作っていれば何かしらの場面で必要になるものです。 ではその市区町村マスタを作るための元データはどこから手に入れたらいいものか。 そして「作る」というのもありますが、市区町村は再編されるものですから最新の変更にどう追従するか、しかもそれを自動化できるかというのも大いに気になるところですね。 エムスリーエンジニアリンググループ三浦(@yuba@reax.work) [記事一覧 ]です。 Unit1(製薬プロモーション)およびUnit9(治験臨床研究支援)のエンジニアです。 今回は私も皆様とまったく同じように市区町村マスタのデータ源に悩んでいろいろ調べましたので、それで得た知見を共有させていただこうと思います。今回は代表的な3つのデータソースをご紹介し比較していきます。 ほしいのはこんな感じのデ

                      市区町村マスタを手に入れろ、そして更新し続けろ - エムスリーテックブログ
                    • ゲームプレーヤーを精神疾患にするディストピア――久里浜医療センター「ゲーム障害の有病率5.1%」論文のからくり/井出草平 - SYNODOS

                      ゲームプレーヤーを精神疾患にするディストピア――久里浜医療センター「ゲーム障害の有病率5.1%」論文のからくり 井出草平 社会学 社会 エグゼクティブ・サマリ 久里浜医療センターの樋口進氏らのグループが発表した論文から、ゲーム障害を過剰診断していく方針が読み取れる。この論文は厚労省・文科省の政策にも影響があると考えられ、ゲーム好きの健康な子どもや若者たちが、精神疾患とレッテルを貼られ精神科病棟に入れられる未来も現実味を帯びてきた。 先日、ゲーム障害の有病率調査が久里浜医療センターによって発表された。【注1】英語論文として発表されたため、まだ一般には知られていないが、専門家の間ではかなり話題になっている。というのも、久里浜医療センターはゲーム障害でない人を診断しようとしているのではないか、と、いわゆる過剰診断を懸念する声が湧き上がっているからである。 本稿では、久里浜医療センターの研究を紹介

                        ゲームプレーヤーを精神疾患にするディストピア――久里浜医療センター「ゲーム障害の有病率5.1%」論文のからくり/井出草平 - SYNODOS
                      • 「モザイク画像の解像度を64倍にする研究」が人種差別の議論に発展、非難を集めた研究者はアカウントを停止

                        計算機科学の分野において功績を収めた人物に贈られるチューリング賞を2018年に受賞した、Facebookの人工知能部門におけるチーフ研究者、ヤン・ルカン氏は、人工知能および機械学習における人種差別の議論で多くの非難を受け、Twitterアカウントを停止することを発表しました。 Yann LeCun Quits Twitter Amid Acrimonious Exchanges on AI Bias | Synced https://syncedreview.com/2020/06/30/yann-lecun-quits-twitter-amid-acrimonious-exchanges-on-ai-bias/ きっかけは2020年6月20日に、デューク大学が人工知能アルゴリズムを用いた高品質の画像生成に関する研究結果をTwitter上で公表したことから始まりました。 Face Depi

                          「モザイク画像の解像度を64倍にする研究」が人種差別の議論に発展、非難を集めた研究者はアカウントを停止
                        • 加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実

                          加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実 2024.06.21 Updated by Ryo Shimizu on June 21, 2024, 18:19 pm JST 世界中の企業や政府が狂ったようにNVIDIAのGPUを買い漁る流れはそろそろ潮時かもしれない。 いくつかの興味深い事象が起きているからだ。 昨日発表されたKarakuri社のLLM、「KARAKURI LM 8x7B Instruct v0.1」は、非常に高性能な日本語LLMだ。Karakuri社は今年の一月にも非常に高性能な70Bモデルを引っ提げて業界に旋風を巻き起こした。この最新のLLNは、日本語向けオープンLLMとしては初の「命令実行」チューニングを施されている。それだけでなく、RAGと呼ばれる、複数の知識を組み合わせてより正解に近い答えを導く技術や、Function

                            加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実
                          • ChatGPTはどのように学習を行なっているのか

                            はじめに ChatGPTのインパクトが個人的にすごかったので、どういった学習が行われているのか、どういう課題があるのか等を理解しようと思い、OpenAIの記事をベースに情報をピックアップしてざっとまとめました。 あくまで私なりの解釈で情報を整理してまとめたものになりますので、いくつか専門性の低い分野に対しては曖昧な記述になっていたり、理解を誤って記載しているかもしれません。 もし間違い等がありましたらご指摘いただけると大変ありがたいです。 ChatGPT: Optimizing Language Models for Dialogue 参考 ChatGPTは、OpenAIによって開発された、対話に特化した言語モデルである。 特徴としては、 前の対話内容に続く質問への回答が可能。 間違いを認めることもできる。 正しくない前提に対する異議を唱えることもできる。 不適切なリクエストには応じない。

                              ChatGPTはどのように学習を行なっているのか
                            • テキストから御朱印を自動生成するシステム、筑波大が開発 寺社1000カ所以上から御朱印収集、データ化

                              Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 筑波大学落合研究室の研究チームが開発した「Goshuin 2.0: Construction of the World’s Largest Goshuin Dataset and Automatic Generation System of Goshuin with Neural Style Transfer」(御朱印2.0)は、テキストから御朱印を自動生成する学習ベースのシステムだ。訓練用のデータセットは、寺社1000カ所以上を訪問し取得した御朱印を基に大規模にデータ化した。 御朱印とは、日本の神社やお寺に参拝した証として集められるものだ。御朱印はおおむね、印章と寺社の名称や本尊/祭神の

                                テキストから御朱印を自動生成するシステム、筑波大が開発 寺社1000カ所以上から御朱印収集、データ化
                              • 時系列予測で使えるpythonライブラリ一覧 - ざこぷろのメモ

                                本記事では、時系列予測に利用できるpythonのライブラリの使い方について説明をします。 パッとライブラリを使うことを目指すため具体的なアルゴリズムの説明は省きます。 ※説明が間違えている場合があればご指摘いただけると助かります。 目次 利用データ ライブラリ Prophet PyFlux Pyro Pytorch Lightgbm 補足:Darts まとめ ソースコード このブログで記載されているソースコードはGitHubに上げておいたのでもしよろしければ参考にしてください。 github.com 利用データ 今回用いるデータはkaggleのM5 Forecasting - Accuracyと呼ばれるコンペティションで利用されたデータを用います。 作成したランダムなデータよりも実データのほうが予測をしている感があるからです。 予測に使うデータはwalmartの売上データです。 下図はその

                                  時系列予測で使えるpythonライブラリ一覧 - ざこぷろのメモ
                                • OpenAI API の ファインチューニングガイド|npaka

                                  1. ファインチューニングの利点ファインチューニングの利点は、次のとおりです。 (1) プロンプトよりも高品質な応答 (2) プロンプトに収まりきらないより多くの例の適用 (3) プロンプトの短縮によるトークン数 (コスト) の節約 (4) プロンプトの短縮による処理時間の短縮 モデルは膨大な量のテキストで事前学習されており、このモデルを効果的に利用するため、プロンプトに手順や応答の例を指定する手法が使われます。この例を使用してタスクの実行方法を示すことを「Few-Shot」と呼びます。 ファインチューニングで、プロンプトに収まりきらないより多くの例で学習することにより、さまざまなタスクでより良い結果を達成できるようになります。プロンプトに多くの例を指定する必要はなくなります。これによりトークン (コスト) が節約され、処理時間も短縮されます。 2. ファインチューニングの使用料金ファイン

                                    OpenAI API の ファインチューニングガイド|npaka
                                  • 「施策デザインのための機械学習入門」を完全に理解したサトシくんがポケモン捕獲アルゴリズムを実装する話 - kanayamaのブログ

                                    プロローグ ストーリー編 第1章 感銘 step1. KPIの設定 step2. データの観測構造をモデル化する step3. 解くべき問題を特定する step4. 観測データのみを用いて問題を解く方法を考える step5. 機械学習モデルを学習する step6. 施策を導入する 第2章 絶望 第3章 反省 第4章 再起 step1(再) KPIの設定 step2(再) データの観測構造をモデル化する step3(再) 解くべき問題を特定する step4(再) 観測データのみを用いて問題を解く方法を考える step5(再) 機械学習モデルを学習する step6(再) 施策を導入する 第5章 俺たちの戦いはこれからだ! 実装編 準備 擬似データの生成 意思決定モデルの学習 モデルのオフ方策評価 モデルの真の性能の評価 まとめ この記事を読んだ方はこんな記事も読んでいます(多分) @tkana

                                      「施策デザインのための機械学習入門」を完全に理解したサトシくんがポケモン捕獲アルゴリズムを実装する話 - kanayamaのブログ
                                    • 2024年最新版:Pythonデータ解析ライブラリ総まとめ - 実践的ガイド - Qiita

                                      はじめに Pythonのデータ解析エコシステムは日々進化を続けています。2024年現在、効率的なデータ処理、直感的な可視化、高度な機械学習の自動化など、様々な新しいツールが登場しています。本記事では、最新のPythonデータ解析ライブラリを紹介し、それぞれの特徴や使用例、実際のユースケース、そして導入方法まで詳しく解説します。 1. データ操作ライブラリ 1.1 Polars: 高速データ処理の新標準 Polarsは、Rustで実装された高速なデータ操作ライブラリです。pandasに似たAPIを持ちながら、大規模データセットでより高速に動作します。 特徴: 高速な処理速度 メモリ効率が良い pandasに似たAPI 使用例: import pandas as pd # サンプルデータを作成 data = { "age": [25, 32, 28, 35, 40, 50], "categor

                                        2024年最新版:Pythonデータ解析ライブラリ総まとめ - 実践的ガイド - Qiita
                                      • エムスリーのデータ基盤を支える設計パターン - エムスリーテックブログ

                                        こんにちは、エムスリー エンジニアリンググループ の鳥山 (@to_lz1)です。 ソフトウェアエンジニアとして 製薬企業向けプラットフォームチーム / 電子カルテチーム を兼任しています。 ソフトウェアエンジニアという肩書きではありますが、私は製薬企業向けプラットフォームチームで長らくデータ基盤の整備・改善といったいわゆる "データエンジニア" が行う業務にも取り組んできました。 本日はその設計時に考えていること / 考えてきたことをデータ基盤の設計パターンという形でご紹介しようかと思います。多くの企業で必要性が認識されるようになって久しい "データ基盤" ですが、まだまだ確立された知見の少ない領域かと思います。少しでもデータエンジニアリングを行う方の業務の参考になれば幸いです。 データ基盤の全体像 収集部分の構成 RDBデータ ログデータ 活用部分の構成 データマートの実例 「データ基

                                          エムスリーのデータ基盤を支える設計パターン - エムスリーテックブログ
                                        • 英語の学術論文をChatGPT-4で執筆する際の手順メモ|Kan Hatakeyama

                                          はじめに英語の論文をGPT4に執筆させた際の手順を記します。 普段からChatGPTを使っている人にとっては、当たり前のやり取りしかしていないのですが、意外と使えていない方がnon-AI分野では多いので、丁寧にプロンプトを示していきます。 (ワークショップで解説する必要が出てきたので、そのためのメモ書きです) GPT-4に論文は書けるのか?ゼロから書かせるのは難しいですが、日本語の下書きを英訳するのは得意で、少なくとも筆者が満足する品質のテキストが得られます。 GPTを使って執筆をするメリットDeepLやGoogle翻訳と違い、英文のスタイル(e.g., 論文調)を明示的に指示できるので、翻訳のクオリティが高い 日本語ネイティブにとっては、日本語で書いた方が圧倒的に楽※ スペルミスや文法ミスを犯さないので、校正の手間も減る。※ 基本的に翻訳タスクしか行っていないので、GPTが過去の類似文章

                                            英語の学術論文をChatGPT-4で執筆する際の手順メモ|Kan Hatakeyama
                                          • GPTが出した回答の確からしさを見えるようにしてみる - Taste of Tech Topics

                                            皆さんこんにちは。データサイエンティストチームYAMALEXのSsk1029Takashiです。 YAMALEXは Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。 この記事はGPTでチャットボットを作ってみるシリーズ第3弾です。 第1弾と第2弾もぜひご覧ください。 acro-engineer.hatenablog.com acro-engineer.hatenablog.com 第1弾では、GPTになるべく正確な回答をさせるために、回答の情報を持つ文書を検索し、それをもとに回答を生成するという内容を試しました。 文書をもとに回答を生成することで比較的正確な回答を取得することができました。 ただし、この回答も必ずしも正確な回答とは限らないので、どれくらい信頼していいのかを自動で判定する仕組みが欲しくなります。 今回は第1弾のシ

                                              GPTが出した回答の確からしさを見えるようにしてみる - Taste of Tech Topics
                                            • Three.jsで新宿駅構内図を3Dで可視化してみる - Qiita

                                              これは MIERUNE AdventCalendar 2023 24日目の記事です! 昨日は@northprintさんによるSvelteKitでURLクエリパラメーターの操作をするでした。 はじめに この記事では新宿駅の屋内地図データを使用して、Three.jsで3Dによる可視化をします。 DEMOはコチラ 使用するデータ 今回は、G空間情報センターで公開されている「新宿駅屋内地図オープンデータ」の統合版(ShapeFile)を使用します。 データについての詳細は製品仕様書に記載されています。 この記事のように、データの加工利用には以下の出典が必要となります。 コンテンツを編集・加工等して利用する場合は、上記出典とは別に、編集・加工等を行ったことを記載してください。なお、編集・加工した情報を、あたかも国(又は府省等)が作成したかのような態様で公表・利用してはいけません。(コンテンツを編集・

                                                Three.jsで新宿駅構内図を3Dで可視化してみる - Qiita
                                              • RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳

                                                大規模言語モデル (LLM) の学習データに含まれない知識(各社の特有の書類など)を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。 今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org RAGとは LLMはそれ単体で回答させると、質問によってはハルシネーションや学習時のデータにはなかった情報を生成時に加味できないといった問題から正しくない回答を生成することが多々あります。例えば世間一般に公開されていない自社の就業規則や業務標準についてをChatGPTに質問しても、正しい回答は得られません。 そのような問題への対応としてRAGが使われます。 「LLM単体で適切な回答を生成できないなら、ユーザーの質問を元に

                                                  RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳
                                                • Announcing D1: our first SQL database

                                                  This post is also available in Français, Deutsch, Español, 简体中文, 日本語 and 繁體中文. We announced Cloudflare Workers in 2017, giving developers access to compute on our network. We were excited about the possibilities this unlocked, but we quickly realized — most real world applications are stateful. Since then, we’ve delivered KV, Durable Objects, and R2, giving developers access to various types of st

                                                    Announcing D1: our first SQL database
                                                  • BigQueryでクエリ一撃で29万円溶かしたけど助かった人の顔

                                                    SolanaのPublic DataをBigQueryで取得したかった# えー、お笑いを一席. ブロックチェーンSolanaのデータがGoogle Cloud BigQueryで使えるようになったというニュースをたまたまネット推薦記事でみかけた1. おや, 面白そうだ. ちょっとやってみようかな… BigQueryはさわるのが1年以上つかってないかも, どうやるんだっけ… とりあえずカラムとかサンプルでちょっとデータをみたいよな, こんな感じだっけか? とりあえず動かしてみよう, ポチッとな. … 5秒でレスポンスが帰ってくる. おー、速い. えーっと, あれ課金データ309TB?! いちげきひっさつ、ハサンギロチン2. BigQueryでクエリ一撃5 秒で29万円溶かした人の顔# 話題の画像生成AI, DALL・Eをつかって BigQueryでお金溶かした人の顔を表現してもらった3. あ

                                                    • ChatGPTにお前はどうやって実装されてんの?って聞いてみたら

                                                      マジレスされてチビッた.こりゃGoogleさんもビビるわけだ. ぼく: How were you implemented? Is it deep learning-based? ChatGPT: I am a language model called GPT-3 (Generative Pre-trained Transformer 3) that was developed by OpenAI. It is a deep learning-based model that uses a type of neural network called a transformer, which was trained on a large dataset of text to learn patterns of language. GPT-3 is trained using a techni

                                                        ChatGPTにお前はどうやって実装されてんの?って聞いてみたら
                                                      • データ分析を元にFAQサイトを継続的に改善する - yasuhisa's blog

                                                        FAQサイト、サポート問い合わせをせずとも自分で疑問を解決できて便利ですよね。でも、検索した単語が一件もヒットしないと、ちょっとガッカリしてしまします。そういったガッカリを減らすために、簡単なデータ分析を使ってFAQサイトを継続的に改善する話を書いてみます。 ...というのも、自分が仕事で関わっているMackerelでは最近FAQをリニューアルしたからなのでした。 MackerelのFAQではZendesk Guideを利用していますが、Zendesk Guideは便利なAPIが用意されているので、それと既存のデータ基盤を組み合わせて改善していく形です。 FAQサイト内の検索語を列挙する まず、FAQサイト内でどういった単語が検索されているのかを列挙します。Google Tag Manager経由でFirebase Analyticsにデータを飛ばすと閲覧状況が分かりますが、そのログをBi

                                                          データ分析を元にFAQサイトを継続的に改善する - yasuhisa's blog
                                                        • 機械学習で逆ストリートビューを作り、写真から港区らしさを判定する - エムスリーテックブログ

                                                          テストデータでの予測結果 先日新橋を散歩していたときの会話。 妻 "こういう路地って新橋らしさあるよねー" 私 "本当です?どういうところで当てられるの?" 妻 "歩道の雰囲気?" 私 "うーん" ということで、MLエンジニアたるもの、そんなことが本当にできるのか機械学習で検証してみましょう。 写真から撮影場所を当てる 作るもの 港区らしさとは 柵でわかる中央区・千代田区・江東区 最もXX区に間違えそうなYY区の写真とは 技術的な話 参考論文: PlaNet Google Streetview API と Geolonia API 学習について 他の地域の分類機を作る 自分の撮った写真の地域を当てる Limitation まとめ We are hiring! おまけ: モデルと勝負! 写真から撮影場所を当てる こんにちは、AI・機械学習チームリーダーの大垣(id:Hi_king)です。 こ

                                                            機械学習で逆ストリートビューを作り、写真から港区らしさを判定する - エムスリーテックブログ
                                                          • ドキュメントをMarkdownやJSONに変換してくれる「Docling」を試す

                                                            ここで知った。 試しに、神戸市が公開している観光に関する統計・調査資料のうち、「令和5年度 神戸市観光動向調査結果について」のPDFで一度試していたのだけども: (出典) 神戸市Webサイトの「観光に関する統計・調査」のページ 上記にある「令和5年度 神戸市観光動向調査結果について」のPDF 日本語でも、概ね問題なく、表などもきれいにパースされる ただし、表が画像 になってる場合に、うまく解釈されない(表は解釈されるが、中の文字が化ける) OCRが正しくできていない可能性 というのがあって、ドキュメント読んだけどわからなくて、それ以上深追いしてなかった。 ただ、X界隈を見る限りは評判は良さそうで、いろいろ記事も出てきたみたいなので、改めて試してみる。 GitHubレポジトリ ドキュメント Docling Doclingは、ドキュメントを解析し、簡単かつ迅速に希望の形式にエクスポートします。

                                                              ドキュメントをMarkdownやJSONに変換してくれる「Docling」を試す
                                                            • Microsoftがたった13億のパラメーターでGPT-3.5超えのHumanEval50.6%をたたき出す「phi-1」を発表

                                                              LLaMaやFalconといった小型の大規模言語モデル(LLM)が矢継ぎ早にリリースされる中、Microsoft ResearchのAI研究チームが、プレプリントサーバーのarXivで、Transformerベースのモデル「phi-1」を発表しました。このモデルは、パラメーター数がGPT-3.5の100分の1以下の13億しかないにもかかわらず、テスト用データセット・HumanEvalでGPT-3.5を上回る成績を収めたことが報告されています。 [2306.11644] Textbooks Are All You Need https://doi.org/10.48550/arXiv.2306.11644 Microsoft Releases 1.3 Bn Parameter Language Model, Outperforms LLaMa https://analyticsindiama

                                                                Microsoftがたった13億のパラメーターでGPT-3.5超えのHumanEval50.6%をたたき出す「phi-1」を発表
                                                              • SQLを使った監視でデータ基盤の品質を向上させる - MonotaRO Tech Blog

                                                                こんにちは、データ基盤グループの吉田(id:syou6162)です。データ基盤グループでは安定してデータを利用できるように様々な取り組みを行なっています。本エントリでは、データ品質に問題がある場合にすぐに気付けるようにしたSQLによる監視の仕組みを紹介します。 背景 SQLを使った監視基盤の構築 実際の監視項目例 他チームがdailyで転送しているデータがバッチの失敗により遅れていないか BigQueryのエラーレートが急激に増加していないか 承認済みビューの設定が意図せず消えていないか 今後の展望 背景 データ基盤の運用をしていると、日々様々なトラブルと向き合う必要があります。例えば、以下のようなものがあります。 他チームがdailyで転送しているデータがバッチの失敗により遅れている TerraformなどのIaCで承認済みビューの権限管理を行なっているが、コードの設定ミスで意図せぬ状態

                                                                  SQLを使った監視でデータ基盤の品質を向上させる - MonotaRO Tech Blog
                                                                • Pythonでいい感じにバッチを作ってみる - prefectをはじめよう - JX通信社エンジニアブログ

                                                                  JX通信社シニア・エンジニアで, プロダクトチームのデータ活用とデータサイエンスのあれこれ頑張ってるマン, @shinyorke(しんよーく)です. 最近ハマってるかつ毎朝の日課は「リングフィットアドベンチャー*1で汗を流してからの朝食」です. 35日連続続いています. 話は遡ること今年の7月末になりますが, JX通信社のデータ基盤の紹介&「ETLとかバッチってどのFW/ライブラリ使えばいいのさ🤔」というクエスチョンに応えるため, このようなエントリーを公開しました. tech.jxpress.net このエントリー, 多くの方から反響をいただき執筆してよかったです, 読んでくださった方ありがとうございます! まだお読みでない方はこのエントリーを読み進める前に流して読んでもらえると良いかも知れません. 上記のエントリーの最後で, 次はprefect編で会いましょう. という挨拶で締めさせ

                                                                    Pythonでいい感じにバッチを作ってみる - prefectをはじめよう - JX通信社エンジニアブログ
                                                                  • Hosting SQLite databases on Github Pages - (or IPFS or any static file hoster) - phiresky's blog

                                                                    Hosting SQLite databases on Github Pages(or IPFS or any static file hoster) Apr 17, 2021 • Last Update Jun 04, 2023I was writing a tiny website to display statistics of how much sponsored content a Youtube creator has over time when I noticed that I often write a small tool as a website that queries some data from a database and then displays it in a graph, a table, or similar. But if you want to

                                                                    • Stable Diffusion 2.0 Release

                                                                      We are pleased to announce the open-source release of Stable Diffusion Version 2. The original Stable Diffusion V1 led by CompVis changed the nature of open source AI models and spawned hundreds of other models and innovations worldwide. It had one of the fastest climbs to 10K GitHub stars of any software, rocketing through 33K stars in less than two months. The dynamic team of Robin Rombach (Stab

                                                                        Stable Diffusion 2.0 Release
                                                                      • 機械学習による株価予測 - Qiita

                                                                        こんにちは。私がAidemyでデータ分析講座コースを受講いたしました。今回は学んだスキルを活用して、上場企業を株価予測をしてみました。 ※私の環境: Python3 Chrome Google Colaboratory Windows 10 目次 1.目的 2. データセット 3. 機械学習モデル 4. 予測モデルの構築と検証 5. 結果 6. 反省 1.目的 上場会社の株価データセットを用いて、株価予測するLSTMの機械学習モデルを構築すること。 2.データセット Yahoo Financeである上場企業Lasertec(6920.T)の時列データ 3.機械学習モデル LSTM(Long Short-Term Memory: ニューラルネットワークの一種で、長期的な依存関係を学習することができる特徴ある。 4.予測モデルの構築と検証 4-1. ライブラリのインポート import ker

                                                                          機械学習による株価予測 - Qiita
                                                                        • 新型コロナウイルス感染者数を数理モデルで推定 - 四谷ラボ公式ブログ

                                                                          お詫びと訂正 本記事で、数理モデルによる新型コロナウイルス感染者数の推移の分析において、感染者数の計算に不備があることが、ユーザーの方からのご指摘で分かりました。 このため設計通りの分析結果が得られていない状態で情報を提供しておりました。 私たちが直面している、非常に関心の高い内容にも関わらず、十分な検証を実施せず情報提供をしていましたことを深くお詫び申し上げます。 申し訳ございません。 感染者数の計算処理を修正し、分析結果、グラフ及びプログラム(github)を訂正致しました。 また、タイトルとサムネイルだけをご覧になって、誤解される方もいらっしゃるかもしれませんので、数理モデルが推定した収束時期は削除しました。 さらに、感染者データのCSVファイルが更新されていましたので、3月11日までの感染者数データをダウンロードして使用しています。 お気づきの点等ございましたら、ご指摘いただければ

                                                                            新型コロナウイルス感染者数を数理モデルで推定 - 四谷ラボ公式ブログ
                                                                          • KPIのモニタリング自動化と運用体制の整備 - ZOZO TECH BLOG

                                                                            はじめに こんにちは。データシステム部/推薦基盤ブロックの佐藤 (@rayuron) です。私たちはZOZOTOWNのパーソナライズを実現する推薦システムを開発・運用しています。推薦システムごとにKPIを策定していますが、データの欠損やリリース時の不具合によってKPIが意図しない値を取ることがあるため定常的に確認する必要があり、これをKPIのモニタリングと呼んでいます。 先日、推薦システムの実績をLookerでモニタリングするというテックブログで推薦システムのKPIをモニタリングする方法を紹介しましたが、運用していく中でいくつかの課題が見えてきました。本記事では、より効率的かつ効果的なKPIのモニタリングを実現するための取り組みについて詳しくご紹介します。 はじめに 改善の背景と課題 背景 課題 トレンドを考慮した異常検知が不可能 モニタリングの設定が面倒 アラート対応フローが不明確 サマ

                                                                              KPIのモニタリング自動化と運用体制の整備 - ZOZO TECH BLOG
                                                                            • 歴代チャットボットと最近のLLMのまとめ - Qiita

                                                                              LLMs The History of Chatbots ELIZA (1966) 初期の人工知能プログラムのひとつ。 ルールベースの簡単なパターンマッチングで返答していた。 心理療法士の会話を模したELIZA(DOCTOR)が有名。 PARRY (1972) PARRYは偏執病的統合失調症患者をシミュレートしようとしたもの。 ELIZA(DOCTOR)と通信し話題となった。 Jabberwacky (1982, 1988, 1997) ユーモラスな人間同士の自然な会話をシミュレートすることを目的としていた。 ユーザーとの会話の大規模なデータベースを構築し、言語と文脈を学習することができた。 プロジェクト自体は1982年から開始されていたが、当初は学習機能は有していなかった。 ローブナー賞を2005年(George)、2006年(Joan)に受賞している。 ローブナー賞(Loebner P

                                                                                歴代チャットボットと最近のLLMのまとめ - Qiita
                                                                              • ブログをAstro に移行しました - As a Futurist...

                                                                                式年遷宮の様な感じですが、数年おきにブログを作り直してます(前回)。今回は Gatsby でデザインした UI をほぼそのままに、フレームワークを Astro に移行しました。静的サイトの作成では Astro の開発者体験が最高に優れているので、2 年間ほぼ塩漬けにしてしまっていた Gatsby のコードを無事に移行できてよかったです。 Astro とは? Astro は 一言で言うと、Better HTML です。Astro というフォーマットでサイトが記述できるのですが、普通の(素の)HTML も Astro としてそのまま使えます。厳密には違いますが、HTML のスーパーセットみたいな感じです。その HTML の要素群を component としてまとめることで関心を分離できて(この辺は Web Components でも実現できます)、必要に応じてビルド時にロジックも走らせることが

                                                                                  ブログをAstro に移行しました - As a Futurist...
                                                                                • Convert PNG, JPG files to SVG vectors online - Vectorizer.AI

                                                                                  PICK Pick a bitmap image that you want to vectorize and drag and drop it onto the page. Bitmap images, such as JPEGs and PNGs, are represented as a grid of little squares called 'pixels', each with its own color. PROCESS We analyze, process, and convert your image from pixels to geometric shapes. The resulting vector image can be scaled to any resolution without getting blurry, and can be used to

                                                                                    Convert PNG, JPG files to SVG vectors online - Vectorizer.AI