並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 204件

新着順 人気順

Datasetの検索結果1 - 40 件 / 204件

  • 無料で使える「住所マスターデータ」公開、表記統一や緯度経度への変換に活用可能 全国の町丁目レベル18万9540件の住所データを記録

      無料で使える「住所マスターデータ」公開、表記統一や緯度経度への変換に活用可能 全国の町丁目レベル18万9540件の住所データを記録
    • 無料 BGM・効果音のフリー音源素材 | Springin’ Sound Stock

      無料 BGM・効果音のフリー音源素材 誰でも 報告不要で 商用利用無料! 今すぐ使える BGM・効果音 1,000点以上! 動画制作やイベントに もちろんスプリンギン アプリでも利用可

        無料 BGM・効果音のフリー音源素材 | Springin’ Sound Stock
      • PLATEAU [プラトー] | 国土交通省が主導する、日本全国の3D都市モデルの整備・オープンデータ化プロジェクト

        3D都市モデルが実装されることで、未来はどのような展望を見せるのか。 インタビューやレポートを通じて、多角的な視点で3D都市モデル、そしてPLATEAUのさまざまな可能性を読み解きます。

          PLATEAU [プラトー] | 国土交通省が主導する、日本全国の3D都市モデルの整備・オープンデータ化プロジェクト
        • 個人情報テストデータジェネレーター

          アプリケーションのテストなどで利用できる、リアルな架空の個人情報データ(疑似データ)を生成するツールです。

            個人情報テストデータジェネレーター
          • いたばし花火大会に関して

            火事が起きて途中中止になったけど花火は最期まで上がっていたといういたばし花火大会だが、実は戸田市との共同開催になっていて、荒川を挟んで板橋側だけが中止になったのだ。荒川を挟んで両岸で打ち上げまくるのね。 でも板橋区の方では「いたばし花火大会」としてしかアナウンスされないし、戸田市側の方は「戸田橋花火大会」としてしか案内されないから、東京都民or板橋区民の中には戸田市の方でも打ち上げてるのを知らない人が結構いるし、反対側の埼玉県民、戸田市民の方も然りで、「中止になったのに最後まで打ちあがってたのは何故???」というなぞなぞみたいな事になってしまった。 そして両岸で共同開催という珍しい形になったのは、荒川の改修工事が元になっている。 荒川放水路工事と河道直線化赤羽の岩淵に岩淵水門という隅田川入口を締め切る水門があるんだが、そこから下流の荒川は大正から昭和初めに掛けて開削した放水路だ。それまでは

              いたばし花火大会に関して
            • 日本のウェブデザインの特異な事例

              sabrinas.spaceより。 8週間もかからなかったはずのプロジェクト 日本のウェブデザインはどう違うのか? 2013年のRandomwireのブログ投稿で、著者(David)は、日本のデザインの興味深い相違点を強調しました。日本人はミニマリストのライフスタイルで海外に知られていますが、ウェブサイトは奇妙なほどマキシマリストです。ページには様々な明るい色(3色デザイン原則を破っている)、小さな画像、そして多くのテキストが使われています。2022年11月に撮影されたこれらのスクリーンショットで、自分の目で確かめて下さい。 ブログ投稿には、文化的専門家、デザイナー仲間、そして不満を抱く市民によって支持されている、考えられる理由がいくつか挙げられていました。 この理論が今でも正しいのか、また、もっと定量的なアプローチが可能なのか気になったのでやってみました。 私が見つけたもの 各国の最も人

                日本のウェブデザインの特異な事例
              • 誰の声でも100人の声に変えられる声変換システム - Dwango Media Village(ドワンゴメディアヴィレッジ,dmv)

                著者の声を録画・録音して声を変換し元の映像と組み合わせてみた映像です。 このときの変換元の音声は撮影用のスマートフォンで録音しており、部屋の残響が含まれるなど声が少し不鮮明になる収録環境ですが、それでもしっかり声変換できていることがわかると思います。 概要 Dwango Media Villageの廣芝です。 誰の声でも狙った複数の人の声に変えることができる声変換システムを開発し、実際に声を変えることができるデモページを公開しました。 (2022年5月 SeirenVoiceシリーズの製品化に伴いデモページは終了しました。) この記事では、声変換技術を研究開発する際に取り組んだ課題について紹介します。 声の変換技術には、リアルタイム性と品質のトレードオフがあります。 既存の声変換システムはリアルタイム性を重視する傾向がある一方、品質を重視したものはあまり見かけません。 品質を優先した声変換

                  誰の声でも100人の声に変えられる声変換システム - Dwango Media Village(ドワンゴメディアヴィレッジ,dmv)
                • 論文読みの日課について - ジョイジョイジョイ

                  かれこれ三年以上ほぼ毎朝論文を読んでいます。 ほぼ毎朝、というのは本当にほぼ毎朝です。この三年のうち読まなかった日はワクチンの副反応でダウンしている日など、あわせて 10 ~ 20 日ほどでしかありません。この日課だけでも 1000 本以上は論文を読んだことになります。 論文読みの日課についての知見が溜まってきたのでこの記事で共有します。 主な想定読者は研究者と学生の皆さんですが、それ以外の論文読みに興味のある皆さんにも有用な情報が詰まっているはずです。 日課の流れ Readable について 🧐 論文の選び方 自分の研究内容と直接関係あるものを読む(特におすすめ) 完全にランダムに選ぶ 被引用数の多い順に選ぶ(特におすすめ) トピックごとに重要な論文を読んでいく 研究者ごとに論文を読んでいく 📝 論文メモの書き方 ⏳ 時間を計測する 🤗 論文メモを公開する 📜 表現集の作成 🔨

                    論文読みの日課について - ジョイジョイジョイ
                  • ゼロから始める、データ分析と可視化 - Kyash Product Blog

                    はじめまして。Kyashでデータエンジニアリングを担当しているKyashデータマンです。この記事では、Kyash社内のデータ分析の基礎に関するドキュメントを紹介します。 Kyashでは、データエンジニアリング・ガバナンス・セキュリティなど様々な角度から、公正なデータの取扱いと活用を推進しています。従来は、一部の訓練された技術者がデータ分析を一手に担っていましたが、社内でもデータ活用のニーズも多く、その担当者に分析や集計の業務が集中するという課題がありました。 この課題に対して、データへの適切なアクセス管理を行い、そして適切なBIツールを導入することで、データを取り扱う人が自分でデータ分析・そして活用できるようになることを目指しています。アクセス管理には、個人情報やそれに準ずる機密データに対して、ポリシータグによるアクセス権のコントロール、そしてアクセス権のリネージなどのソリューションの導入

                      ゼロから始める、データ分析と可視化 - Kyash Product Blog
                    • 「リモートで組織内のサイロ化が進む」「全員出勤日を設けるなど工夫する必要がある」コロナ禍でMicrosoftがフルリモートになった影響を調べた調査の結果が出た

                      n @_sh0he1 - ビデオ通話・対面などの同期コミュニケーションが減り、チャット・メールなど情報量が少ない非同期コミュニケーションが増えた - グループ内にリモートに転向した同僚がいると、オフィスに残った同僚でも同様の変化が見られた(!) (2/n) n @_sh0he1 結論:リモート化は組織内のサイロ化を進める、質と量で劣る非同期コミュニケーションの増加を招き、労働者のアウトプットに長期的に影響する恐れがある。また、ハイブリッド型勤務でも”全員出勤日・リモート日”を設けるなど工夫しないとリモートの悪影響を受けることがわかった。 リンク Nature Human Behaviour The effects of remote work on collaboration among information workers - Nature Human Behaviour Using

                        「リモートで組織内のサイロ化が進む」「全員出勤日を設けるなど工夫する必要がある」コロナ禍でMicrosoftがフルリモートになった影響を調べた調査の結果が出た
                      • デジタル庁のデータ分析基盤「sukuna」|デジタル庁

                        はじめまして。デジタル庁ファクト&データユニット所属、データエンジニアの長谷川です。 本記事ではデジタル庁内でデータ活用を推進するための組織と分析基盤についてご紹介します。 これまでのデジタル庁noteと比べると、技術寄りの話題が多い記事となりますが、庁内のデータ活用に興味のある方はぜひご覧ください。 デジタル庁のデータ活用組織「ファクト&データユニット」ファクト&データユニットとはデジタル庁の特徴の一つに、デジタル分野において各種の専門性をもつ「民間専門人材」が多く所属していることが挙げられます。 民間の専門人材は、デザイン、プロダクトマネジメント、エンジニアリングなど、領域ごとに「ユニット」と呼ばれる組織を構成しており(参考:デジタル庁 - 組織情報)、必要に応じてさまざまなプロジェクトにアサインされて業務を遂行する、人材プールのような役割を果たしています。 ファクト&データユニットも

                          デジタル庁のデータ分析基盤「sukuna」|デジタル庁
                        • 二子玉川の堤外地問題と小字地図に関して幾つか指摘その1

                          二子玉川の堤外地に建つマンションが高値を付けてる事に嘆いて小字地図という面白いものを公開してくれた人がいる。 でもその事をまとめたtogetterではそれに対して間違ったり不適当なツイートばかり拾ってるので指摘するよ。 https://b.hatena.ne.jp/entry/s/togetter.com/li/2381841 過去の経緯二子玉川には堤防の切れ目があった。陸閘ともいう。閘はパナマ運河などの閘門の閘で、板で締め切って水をブロックして水位を変化させるものだ。それが陸にあるから陸閘。 https://maps.app.goo.gl/DKKV4c1kefy3BVSE9 余談だがこの道は結構重要な道で、江戸時代の矢倉沢往還(青山通り大山道)だった。真っ直ぐ行って多摩川に出たところに渡船(二子の渡し)があったのだ。川を渡って崖を上ると二子の宿場に着く。 ここは瀬田村の一部で、スレッドで

                            二子玉川の堤外地問題と小字地図に関して幾つか指摘その1
                          • Googleが大量の機械学習用データベースを無料公開してた - Qiita

                            個人用メモです。 機械学習は素材集めがとても大変です。 でもこの素材集め、実は無理してやらなくても、元から良質な無料データベースがあったようなのです。 URLはこちら YouTube8-M https://research.google.com/youtube8m/explore.html 提供されているサービスは以下の通り 800万個の動画 19億個のフレーム 4800個の分類 使い方はExploreから画像セットを探し、ダウンロードするだけ。 他の方法も見つけた open images dataset 「すごい神だな」と思ったのは これもう完成されてますよね もちろんこの認識前の画像もセットでダウンロードできます。 Youtube-8Mとは、画像数を取るか、精度で取るか、という違いでしょうか。 他にも良い素材集を教えていただきました (はてなブックマーク情報 @sek_165 さん )

                              Googleが大量の機械学習用データベースを無料公開してた - Qiita
                            • 大公開!バッチアプリケーションの品質を高めるZOZOの『バッチ開発ガイドライン』 - ZOZO TECH BLOG

                              こんにちは。MA部の田島です。 弊社では開発ガイドラインというものを用いて、システムの品質を担保しています。今回私がテックリードを務めているということもあり、バッチアプリケーションを開発するためのガイドラインを作成しました。本記事では「開発ガイドライン」と「バッチ開発ガイドライン」を紹介します。 バッチアプリケーション開発に限定したTipsはまとまっているものが多くないため参考にしていただければと思います。 開発ガイドラインについての紹介 冒頭でも紹介した通り弊社では、開発ガイドラインというものを用いてシステムの品質を担保しています。バッチ開発ガイドラインを紹介する前に、まず開発ガイドラインを紹介します。 開発ガイドラインの種類 開発ガイドラインは現在、以下の種類が存在します。 共通 Android iOS Frontend Backend Infra API Batch DB(Datab

                                大公開!バッチアプリケーションの品質を高めるZOZOの『バッチ開発ガイドライン』 - ZOZO TECH BLOG
                              • 無料で10万点以上のパリの美術作品がダウンロード可能に、商用利用・修正・再頒布もOK

                                パリ市立近代美術館などが収蔵する多数の美術品を所管する公共団体Paris Muséesが、10万点以上の美術コレクションの画像を無料かつ自由に利用・修正・再頒布可能なオープンコンテントとしてインターネットに公開しました。 Les collections en ligne des musées de la Ville de Paris http://parismuseescollections.paris.fr/fr Open content : plus de 100 000 œuvres des collections des musées de la Ville de Paris en libre accès | Paris Musées http://www.parismusees.paris.fr/fr/actualite/open-content-plus-de-100-000-

                                  無料で10万点以上のパリの美術作品がダウンロード可能に、商用利用・修正・再頒布もOK
                                • 市区町村マスタを手に入れろ、そして更新し続けろ - エムスリーテックブログ

                                  全国の市区町村の名前とコードをデータベーステーブル化したもの、すなわち市区町村マスタはITシステムを作っていれば何かしらの場面で必要になるものです。 ではその市区町村マスタを作るための元データはどこから手に入れたらいいものか。 そして「作る」というのもありますが、市区町村は再編されるものですから最新の変更にどう追従するか、しかもそれを自動化できるかというのも大いに気になるところですね。 エムスリーエンジニアリンググループ三浦(@yuba@reax.work) [記事一覧 ]です。 Unit1(製薬プロモーション)およびUnit9(治験臨床研究支援)のエンジニアです。 今回は私も皆様とまったく同じように市区町村マスタのデータ源に悩んでいろいろ調べましたので、それで得た知見を共有させていただこうと思います。今回は代表的な3つのデータソースをご紹介し比較していきます。 ほしいのはこんな感じのデ

                                    市区町村マスタを手に入れろ、そして更新し続けろ - エムスリーテックブログ
                                  • バンナム、約42万フレーム分のモーションデータ無償公開 歩行、格闘、ダンスなど 研究用に

                                    ライセンスは「CC BY-NC-ND 4.0」で、利用の際にクレジットを表示すること、非営利でのみ利用すること、内容を改変しないことを求めている。 バンダイナムコは、メタバースやXR技術が広まる中、コンテンツ規模が拡大すると従来のモーション制作過程では限界を迎えると予想。AIを活用したキャラクターのモーションを生成する研究を行っている。 一方、AIによるモーション研究はデータセットの入手が難しいため研究開発が進んでいないとして、自社で使っているデータの一部を提供することにしたという。 関連記事 実在しない顔の画像3000点を無償配布、AI学習用データセットに 法人向け・商用利用可 AI活用のコンサルティング事業を手掛けるAPTOなど2社が、AIの学習データとして利用できる、実在しない男女の顔写真3000枚の無償配布を始めた。法人を対象に11月30日までの期間限定で提供し、商用利用も認める。

                                      バンナム、約42万フレーム分のモーションデータ無償公開 歩行、格闘、ダンスなど 研究用に
                                    • ゲームプレーヤーを精神疾患にするディストピア――久里浜医療センター「ゲーム障害の有病率5.1%」論文のからくり/井出草平 - SYNODOS

                                      ゲームプレーヤーを精神疾患にするディストピア――久里浜医療センター「ゲーム障害の有病率5.1%」論文のからくり 井出草平 社会学 社会 エグゼクティブ・サマリ 久里浜医療センターの樋口進氏らのグループが発表した論文から、ゲーム障害を過剰診断していく方針が読み取れる。この論文は厚労省・文科省の政策にも影響があると考えられ、ゲーム好きの健康な子どもや若者たちが、精神疾患とレッテルを貼られ精神科病棟に入れられる未来も現実味を帯びてきた。 先日、ゲーム障害の有病率調査が久里浜医療センターによって発表された。【注1】英語論文として発表されたため、まだ一般には知られていないが、専門家の間ではかなり話題になっている。というのも、久里浜医療センターはゲーム障害でない人を診断しようとしているのではないか、と、いわゆる過剰診断を懸念する声が湧き上がっているからである。 本稿では、久里浜医療センターの研究を紹介

                                        ゲームプレーヤーを精神疾患にするディストピア――久里浜医療センター「ゲーム障害の有病率5.1%」論文のからくり/井出草平 - SYNODOS
                                      • 「モザイク画像の解像度を64倍にする研究」が人種差別の議論に発展、非難を集めた研究者はアカウントを停止

                                        計算機科学の分野において功績を収めた人物に贈られるチューリング賞を2018年に受賞した、Facebookの人工知能部門におけるチーフ研究者、ヤン・ルカン氏は、人工知能および機械学習における人種差別の議論で多くの非難を受け、Twitterアカウントを停止することを発表しました。 Yann LeCun Quits Twitter Amid Acrimonious Exchanges on AI Bias | Synced https://syncedreview.com/2020/06/30/yann-lecun-quits-twitter-amid-acrimonious-exchanges-on-ai-bias/ きっかけは2020年6月20日に、デューク大学が人工知能アルゴリズムを用いた高品質の画像生成に関する研究結果をTwitter上で公表したことから始まりました。 Face Depi

                                          「モザイク画像の解像度を64倍にする研究」が人種差別の議論に発展、非難を集めた研究者はアカウントを停止
                                        • 加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実

                                          加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実 2024.06.21 Updated by Ryo Shimizu on June 21, 2024, 18:19 pm JST 世界中の企業や政府が狂ったようにNVIDIAのGPUを買い漁る流れはそろそろ潮時かもしれない。 いくつかの興味深い事象が起きているからだ。 昨日発表されたKarakuri社のLLM、「KARAKURI LM 8x7B Instruct v0.1」は、非常に高性能な日本語LLMだ。Karakuri社は今年の一月にも非常に高性能な70Bモデルを引っ提げて業界に旋風を巻き起こした。この最新のLLNは、日本語向けオープンLLMとしては初の「命令実行」チューニングを施されている。それだけでなく、RAGと呼ばれる、複数の知識を組み合わせてより正解に近い答えを導く技術や、Function

                                            加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実
                                          • APIキーもログインも不要!完全無料で使える天気予報API「Open-Meteo」を使ってみた! - paiza times

                                            どうも、まさとらん(@0310lan)です! 今回は、誰でも無料で使える天気予報APIを提供してくれるWebサービスをご紹介します! 面倒なユーザー登録やAPIキーの設定などが不要で、欲しい天気情報のパラメータを含めたURLを好きなように構成するだけで簡単にJavaScriptから制御できるのが特徴です。 日本はもちろん、世界中の詳細な天気情報を取得できるのでご興味ある方はぜひ参考にしてみてください! 【 Open-Meteo 】 ■「Open-Meteo」の使い方 それでは、「Open-Meteo」をどのように使えばいいのか詳しく見ていきましょう! 「Open-Meteo」が提供する天気予報APIを利用するにあたり、何か特別な登録や申請は必要ありません。もっと言えば、ユーザー登録も不要でAPIキーもありません。 非営利プロジェクトであれば誰でも自由に使うことが可能で、以下のエンドポイント

                                              APIキーもログインも不要!完全無料で使える天気予報API「Open-Meteo」を使ってみた! - paiza times
                                            • ChatGPTはどのように学習を行なっているのか

                                              はじめに ChatGPTのインパクトが個人的にすごかったので、どういった学習が行われているのか、どういう課題があるのか等を理解しようと思い、OpenAIの記事をベースに情報をピックアップしてざっとまとめました。 あくまで私なりの解釈で情報を整理してまとめたものになりますので、いくつか専門性の低い分野に対しては曖昧な記述になっていたり、理解を誤って記載しているかもしれません。 もし間違い等がありましたらご指摘いただけると大変ありがたいです。 ChatGPT: Optimizing Language Models for Dialogue 参考 ChatGPTは、OpenAIによって開発された、対話に特化した言語モデルである。 特徴としては、 前の対話内容に続く質問への回答が可能。 間違いを認めることもできる。 正しくない前提に対する異議を唱えることもできる。 不適切なリクエストには応じない。

                                                ChatGPTはどのように学習を行なっているのか
                                              • あなたがまだ使っていないかもしれないHTML5の便利機能10選 - Qiita

                                                こんにちは、たかとーです🧑‍🎤 こちらは、10 useful HTML5 features, you may not be usingの翻訳記事になります。 当記事は、Tapasさんの許可を得て翻訳しています。Tweet 10 useful HTML5 features, you may not be using HTML5は新しいものではありません。最初のリリース(2008年1月)以来いくつかの機能を使用してきました。100DaysOfCodeの取り組みの一環として、HTML5の機能リストをもう一度よく見てみました。何か見つけたかな?私は今のところあまり使っていません。 この記事では、過去にあまり使ったことがなかったが、今では便利になったHTML5の機能を10個挙げています。また、Netlifyでホストされている、実際に動作する例を作成しました。参考になることを願っています。 htt

                                                  あなたがまだ使っていないかもしれないHTML5の便利機能10選 - Qiita
                                                • スマートニュース、国会議案データベースを無償公開 過去20年分をGitHubで

                                                  スマートニュースは7月1日、国会の過去20年分以上の議案データ約1万8000件を収集・整理し、オープンデータ化した国会議案のデータベースを、GitHubで無償公開(衆議院、参議院)した。GitHubを利用しない人向けに、閲覧用のWebページ(衆議院、参議院)も公開した。 国会で審議された法案や予算案、条約、決議案といった議案は、衆参両議院のWebサイトに掲載されている。提出者や審議された委員会、賛成・反対した政党(衆院のみ)などの情報も確認できるが、国会の回次ごと、また議案ごとにページが分かれているため、集計や検索、一覧が難しかった。 今回、同社の「メディア研究所」が、各議案のページに掲載されている情報を収集、整理し、CSVファイルとJSONファイル形式で公開。MITライセンスに準拠し、商用・非商用を問わずオープンデータとして誰でも無償で使えるようした。 主に報道機関や研究者に、選挙報道や

                                                    スマートニュース、国会議案データベースを無償公開 過去20年分をGitHubで
                                                  • テキストから御朱印を自動生成するシステム、筑波大が開発 寺社1000カ所以上から御朱印収集、データ化

                                                    Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 筑波大学落合研究室の研究チームが開発した「Goshuin 2.0: Construction of the World’s Largest Goshuin Dataset and Automatic Generation System of Goshuin with Neural Style Transfer」(御朱印2.0)は、テキストから御朱印を自動生成する学習ベースのシステムだ。訓練用のデータセットは、寺社1000カ所以上を訪問し取得した御朱印を基に大規模にデータ化した。 御朱印とは、日本の神社やお寺に参拝した証として集められるものだ。御朱印はおおむね、印章と寺社の名称や本尊/祭神の

                                                      テキストから御朱印を自動生成するシステム、筑波大が開発 寺社1000カ所以上から御朱印収集、データ化
                                                    • 時系列予測で使えるpythonライブラリ一覧 - ざこぷろのメモ

                                                      本記事では、時系列予測に利用できるpythonのライブラリの使い方について説明をします。 パッとライブラリを使うことを目指すため具体的なアルゴリズムの説明は省きます。 ※説明が間違えている場合があればご指摘いただけると助かります。 目次 利用データ ライブラリ Prophet PyFlux Pyro Pytorch Lightgbm 補足:Darts まとめ ソースコード このブログで記載されているソースコードはGitHubに上げておいたのでもしよろしければ参考にしてください。 github.com 利用データ 今回用いるデータはkaggleのM5 Forecasting - Accuracyと呼ばれるコンペティションで利用されたデータを用います。 作成したランダムなデータよりも実データのほうが予測をしている感があるからです。 予測に使うデータはwalmartの売上データです。 下図はその

                                                        時系列予測で使えるpythonライブラリ一覧 - ざこぷろのメモ
                                                      • OpenAI API の ファインチューニングガイド|npaka

                                                        1. ファインチューニングの利点ファインチューニングの利点は、次のとおりです。 (1) プロンプトよりも高品質な応答 (2) プロンプトに収まりきらないより多くの例の適用 (3) プロンプトの短縮によるトークン数 (コスト) の節約 (4) プロンプトの短縮による処理時間の短縮 モデルは膨大な量のテキストで事前学習されており、このモデルを効果的に利用するため、プロンプトに手順や応答の例を指定する手法が使われます。この例を使用してタスクの実行方法を示すことを「Few-Shot」と呼びます。 ファインチューニングで、プロンプトに収まりきらないより多くの例で学習することにより、さまざまなタスクでより良い結果を達成できるようになります。プロンプトに多くの例を指定する必要はなくなります。これによりトークン (コスト) が節約され、処理時間も短縮されます。 2. ファインチューニングの使用料金ファイン

                                                          OpenAI API の ファインチューニングガイド|npaka
                                                        • ダミーデータ作成のお供に! VS Code 拡張機能「vscode-random」で人名やカラーコードなどを自動生成してもらおう! | DevelopersIO

                                                          はじめに ダミーデータを作成しなければならないときってありますよね? テストデータやサンプル画面を作るときに値をどうするか困ったことありませんか? そういった悩みを VS Code で解決するための拡張機能が vscode-random です。 https://marketplace.visualstudio.com/items?itemName=jrebocho.vscode-random デモ (GitHub リポジトリより引用) 拡張機能としてはカーソル位置にランダムな値を挿入するという単純なものなのですが、VS Code のマルチカーソル機能と組み合わせることで非常に強力な体験を得ることができます。 名前やメールアドレスの項目がある JSON や YAML に対し、複数の項目にまとめて値を挿入して作り上げるのは気持ちいいこと間違いなし! 対応コマンド コマンド 説明 生成例

                                                            ダミーデータ作成のお供に! VS Code 拡張機能「vscode-random」で人名やカラーコードなどを自動生成してもらおう! | DevelopersIO
                                                          • 「施策デザインのための機械学習入門」を完全に理解したサトシくんがポケモン捕獲アルゴリズムを実装する話 - kanayamaのブログ

                                                            プロローグ ストーリー編 第1章 感銘 step1. KPIの設定 step2. データの観測構造をモデル化する step3. 解くべき問題を特定する step4. 観測データのみを用いて問題を解く方法を考える step5. 機械学習モデルを学習する step6. 施策を導入する 第2章 絶望 第3章 反省 第4章 再起 step1(再) KPIの設定 step2(再) データの観測構造をモデル化する step3(再) 解くべき問題を特定する step4(再) 観測データのみを用いて問題を解く方法を考える step5(再) 機械学習モデルを学習する step6(再) 施策を導入する 第5章 俺たちの戦いはこれからだ! 実装編 準備 擬似データの生成 意思決定モデルの学習 モデルのオフ方策評価 モデルの真の性能の評価 まとめ この記事を読んだ方はこんな記事も読んでいます(多分) @tkana

                                                              「施策デザインのための機械学習入門」を完全に理解したサトシくんがポケモン捕獲アルゴリズムを実装する話 - kanayamaのブログ
                                                            • 2024年最新版:Pythonデータ解析ライブラリ総まとめ - 実践的ガイド - Qiita

                                                              はじめに Pythonのデータ解析エコシステムは日々進化を続けています。2024年現在、効率的なデータ処理、直感的な可視化、高度な機械学習の自動化など、様々な新しいツールが登場しています。本記事では、最新のPythonデータ解析ライブラリを紹介し、それぞれの特徴や使用例、実際のユースケース、そして導入方法まで詳しく解説します。 1. データ操作ライブラリ 1.1 Polars: 高速データ処理の新標準 Polarsは、Rustで実装された高速なデータ操作ライブラリです。pandasに似たAPIを持ちながら、大規模データセットでより高速に動作します。 特徴: 高速な処理速度 メモリ効率が良い pandasに似たAPI 使用例: import pandas as pd # サンプルデータを作成 data = { "age": [25, 32, 28, 35, 40, 50], "categor

                                                                2024年最新版:Pythonデータ解析ライブラリ総まとめ - 実践的ガイド - Qiita
                                                              • エムスリーのデータ基盤を支える設計パターン - エムスリーテックブログ

                                                                こんにちは、エムスリー エンジニアリンググループ の鳥山 (@to_lz1)です。 ソフトウェアエンジニアとして 製薬企業向けプラットフォームチーム / 電子カルテチーム を兼任しています。 ソフトウェアエンジニアという肩書きではありますが、私は製薬企業向けプラットフォームチームで長らくデータ基盤の整備・改善といったいわゆる "データエンジニア" が行う業務にも取り組んできました。 本日はその設計時に考えていること / 考えてきたことをデータ基盤の設計パターンという形でご紹介しようかと思います。多くの企業で必要性が認識されるようになって久しい "データ基盤" ですが、まだまだ確立された知見の少ない領域かと思います。少しでもデータエンジニアリングを行う方の業務の参考になれば幸いです。 データ基盤の全体像 収集部分の構成 RDBデータ ログデータ 活用部分の構成 データマートの実例 「データ基

                                                                  エムスリーのデータ基盤を支える設計パターン - エムスリーテックブログ
                                                                • OCR処理プログラム及び学習用データセットの公開について | NDLラボ

                                                                  2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館(以下、「当館」とします。)が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。 このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。 機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。 リポジトリ : https://github.com/ndl-lab/

                                                                  • 英語の学術論文をChatGPT-4で執筆する際の手順メモ|Kan Hatakeyama

                                                                    はじめに英語の論文をGPT4に執筆させた際の手順を記します。 普段からChatGPTを使っている人にとっては、当たり前のやり取りしかしていないのですが、意外と使えていない方がnon-AI分野では多いので、丁寧にプロンプトを示していきます。 (ワークショップで解説する必要が出てきたので、そのためのメモ書きです) GPT-4に論文は書けるのか?ゼロから書かせるのは難しいですが、日本語の下書きを英訳するのは得意で、少なくとも筆者が満足する品質のテキストが得られます。 GPTを使って執筆をするメリットDeepLやGoogle翻訳と違い、英文のスタイル(e.g., 論文調)を明示的に指示できるので、翻訳のクオリティが高い 日本語ネイティブにとっては、日本語で書いた方が圧倒的に楽※ スペルミスや文法ミスを犯さないので、校正の手間も減る。※ 基本的に翻訳タスクしか行っていないので、GPTが過去の類似文章

                                                                      英語の学術論文をChatGPT-4で執筆する際の手順メモ|Kan Hatakeyama
                                                                    • GPTが出した回答の確からしさを見えるようにしてみる - Taste of Tech Topics

                                                                      皆さんこんにちは。データサイエンティストチームYAMALEXのSsk1029Takashiです。 YAMALEXは Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。 この記事はGPTでチャットボットを作ってみるシリーズ第3弾です。 第1弾と第2弾もぜひご覧ください。 acro-engineer.hatenablog.com acro-engineer.hatenablog.com 第1弾では、GPTになるべく正確な回答をさせるために、回答の情報を持つ文書を検索し、それをもとに回答を生成するという内容を試しました。 文書をもとに回答を生成することで比較的正確な回答を取得することができました。 ただし、この回答も必ずしも正確な回答とは限らないので、どれくらい信頼していいのかを自動で判定する仕組みが欲しくなります。 今回は第1弾のシ

                                                                        GPTが出した回答の確からしさを見えるようにしてみる - Taste of Tech Topics
                                                                      • Three.jsで新宿駅構内図を3Dで可視化してみる - Qiita

                                                                        これは MIERUNE AdventCalendar 2023 24日目の記事です! 昨日は@northprintさんによるSvelteKitでURLクエリパラメーターの操作をするでした。 はじめに この記事では新宿駅の屋内地図データを使用して、Three.jsで3Dによる可視化をします。 DEMOはコチラ 使用するデータ 今回は、G空間情報センターで公開されている「新宿駅屋内地図オープンデータ」の統合版(ShapeFile)を使用します。 データについての詳細は製品仕様書に記載されています。 この記事のように、データの加工利用には以下の出典が必要となります。 コンテンツを編集・加工等して利用する場合は、上記出典とは別に、編集・加工等を行ったことを記載してください。なお、編集・加工した情報を、あたかも国(又は府省等)が作成したかのような態様で公表・利用してはいけません。(コンテンツを編集・

                                                                          Three.jsで新宿駅構内図を3Dで可視化してみる - Qiita
                                                                        • RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳

                                                                          大規模言語モデル (LLM) の学習データに含まれない知識(各社の特有の書類など)を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。 今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org RAGとは LLMはそれ単体で回答させると、質問によってはハルシネーションや学習時のデータにはなかった情報を生成時に加味できないといった問題から正しくない回答を生成することが多々あります。例えば世間一般に公開されていない自社の就業規則や業務標準についてをChatGPTに質問しても、正しい回答は得られません。 そのような問題への対応としてRAGが使われます。 「LLM単体で適切な回答を生成できないなら、ユーザーの質問を元に

                                                                            RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳
                                                                          • Announcing D1: our first SQL database

                                                                            This post is also available in Français, Deutsch, Español, 简体中文, 日本語 and 繁體中文. We announced Cloudflare Workers in 2017, giving developers access to compute on our network. We were excited about the possibilities this unlocked, but we quickly realized — most real world applications are stateful. Since then, we’ve delivered KV, Durable Objects, and R2, giving developers access to various types of st

                                                                              Announcing D1: our first SQL database
                                                                            • BigQueryでクエリ一撃で29万円溶かしたけど助かった人の顔

                                                                              SolanaのPublic DataをBigQueryで取得したかった# えー、お笑いを一席. ブロックチェーンSolanaのデータがGoogle Cloud BigQueryで使えるようになったというニュースをたまたまネット推薦記事でみかけた1. おや, 面白そうだ. ちょっとやってみようかな… BigQueryはさわるのが1年以上つかってないかも, どうやるんだっけ… とりあえずカラムとかサンプルでちょっとデータをみたいよな, こんな感じだっけか? とりあえず動かしてみよう, ポチッとな. … 5秒でレスポンスが帰ってくる. おー、速い. えーっと, あれ課金データ309TB?! いちげきひっさつ、ハサンギロチン2. BigQueryでクエリ一撃5 秒で29万円溶かした人の顔# 話題の画像生成AI, DALL・Eをつかって BigQueryでお金溶かした人の顔を表現してもらった3. あ

                                                                              • ChatGPTにお前はどうやって実装されてんの?って聞いてみたら

                                                                                マジレスされてチビッた.こりゃGoogleさんもビビるわけだ. ぼく: How were you implemented? Is it deep learning-based? ChatGPT: I am a language model called GPT-3 (Generative Pre-trained Transformer 3) that was developed by OpenAI. It is a deep learning-based model that uses a type of neural network called a transformer, which was trained on a large dataset of text to learn patterns of language. GPT-3 is trained using a techni

                                                                                  ChatGPTにお前はどうやって実装されてんの?って聞いてみたら
                                                                                • データ分析を元にFAQサイトを継続的に改善する - yasuhisa's blog

                                                                                  FAQサイト、サポート問い合わせをせずとも自分で疑問を解決できて便利ですよね。でも、検索した単語が一件もヒットしないと、ちょっとガッカリしてしまします。そういったガッカリを減らすために、簡単なデータ分析を使ってFAQサイトを継続的に改善する話を書いてみます。 ...というのも、自分が仕事で関わっているMackerelでは最近FAQをリニューアルしたからなのでした。 MackerelのFAQではZendesk Guideを利用していますが、Zendesk Guideは便利なAPIが用意されているので、それと既存のデータ基盤を組み合わせて改善していく形です。 FAQサイト内の検索語を列挙する まず、FAQサイト内でどういった単語が検索されているのかを列挙します。Google Tag Manager経由でFirebase Analyticsにデータを飛ばすと閲覧状況が分かりますが、そのログをBi

                                                                                    データ分析を元にFAQサイトを継続的に改善する - yasuhisa's blog