You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
よくある失敗例 • アンチパターン • とりあえず専門文章を準備してみる • とりあえず学習させてみる • 期待した精度が出ない • プロジェクト失敗 生成AIプロジェクト、3分の1が2025年までに中止か--ガートナー予測 コスト以外にも、AIプロジェクトを失敗に導きかねない要因として、「不十分なリスク管理」 や「質の低いデータ」があるとGartnerは指摘している。 https://japan.zdnet.com/article/35223490/ 3 https://japan.zdnet.com/article/35223490/ 課題: LLMは「物覚え」が悪い • Transformer系のアーキテクチャや、学習プロセスの問題? • アンチパターン: これらの知見を「見てみぬふり」しながら、とりあえず専門データを準備して学習させる • OpenAI アルトマン (2024年1月
データを利活用してカスタマー・クライアント双方の「不」の解消を目指してきたリクルートが、今注力する領域は「データを用いた意思決定の質向上」とそのための「データの整備」です。 そこにフルコミットするため、新たに生まれた職種がアナリティクスエンジニアです。例えば、図書館を作るのがデータエンジニアで、図書館に収納された本を使って価値を生み出すのがデータサイエンティストだとすれば、本の整理や目録の作成などを通じてさながら司書のような役割を果たすのがアナリティクスエンジニアです。言うなれば「データの整備人」。 リクルートにおいては、データを用いた意思決定を加速させるうえで、必要不可欠の存在です。 とはいえ、まだまだ一般的には知られていないアナリティクスエンジニアの仕事。彼らは組織のなかでどのような役割を果たし、どのように事業へ貢献しているのでしょうか。そしてどんなバックグラウンドを持っているのでしょ
Featureful hex view Byte patching Patch management Infinite Undo/Redo "Copy bytes as..." Bytes Hex string C, C++, C#, Rust, Python, Java & JavaScript array ASCII-Art hex view HTML self-contained div Simple string and hex search Goto from start, end and current cursor position Colorful highlighting Configurable foreground highlighting rules Background highlighting using patterns, find results and b
背景: データ品質を担保するにはデータソースの品質が重要 データソースの品質を担保する手段としてのData Contract Data Contractの表現方法の一つとしてのProtocol Buffers Data ContractとしてProtocol Buffersを使う データの入出力を一箇所に集約、Protocol Buffersで抑えるパターン ストレージのスキーマをProtocol Buffersで抑えるパターン 発展的な話題 & 読書会の案内 参考文献 背景: データ品質を担保するにはデータソースの品質が重要 私はデータエンジニアをしており、DWHやデータマートのデータ品質について考えることが多い。BigQueryなどにデータが取り込まれた後のレイヤリングやテスト、改善に向けたデータ品質の可視化について、以前発表した。 データが取り込まれた後の整理は進んでいるものの、やは
データバージョンの管理とは? データバージョンの管理とは、バイナリデータのバージョンを管理することを指します。データバージョンの管理は、Git 等でのコードのバージョン管理をバイナリデータに拡張しています。実験の再現性を高められるメリットがあります。 DVC とは? データのバージョンを管理する機能をもつオープンソースソフトウェアです。データのハッシュをテキストファイルで保持し git でバージョン管理します。また、yaml ファイルで実行パイプラインを定義して監視対象データが更新された際にハッシュを更新することで、新しいハッシュ値を含んだデータをバージョン管理します。更新されたデータファイルはキャッシュディレクトリに保存され、必要なタイミングで自動的に復元されます。 データのリモートリポジトリを定義することで、データ一式を簡単なコマンド操作で S3 等へ push / pull すること
ランキング参加中プログラミング はじめに この記事では、Immutable Data Modelと呼ばれる設計手法をもとに、リレーショナル・データベースにおける、テーブル設計の話を書いています。また、今回の実践で利用する、別の考え方の背景を理解するために、Out of the tar pitという小論文の内容にも言及します。 「状態とは何か?」というややこしい話がたくさん出てきますし、データベースのテーブル設計についての話であることから、たくさんのSQLが出てきます。なので、データモデリングとか状態管理とか、特にSQLとかに興味がない人には面白くないと思います。 そのあたりに興味ある方は、読んでみて欲しいです。 Immutable Data Modelを、実際のアプリケーションで使うデータベースに採用するにあたり、どういう考え方で、どのようにテーブルを構成したか、自分なりの経験を書いていま
https://bungaku-report.com/blog/2022/07/tei1.html 初めての日本語によるTEIガイドラインの入門書が刊行されました。『人文学のためのテキストデータ構築入門』[1]というタイトルで、株式会社文学通信によるものです。TEI ガイドラインは、人文学のためのテキストデータ構築におけるデファクト標準として国際的に普及しており、とくに欧米先進国ではこれに準拠したテキストデータの膨大な蓄積があるが、日本語文化圏においては諸般の事情により普及が進んでいなかったものです。日本語文化圏でも、TEI ガイドラインに取り組むにあたっては Web に様々な情報が各所に蓄積されて点在しており、検索すれば必要な情報は大体集まる形になっていました。とはいえ、Web の海に浮かぶそれらは、論文であったり、Web コラボレーションシステムに組み込まれたサイトであったり、英語で書
Google が公開している、より良いデータ分析のためのガイドブック「Good Data Analysis」で、データ分析の要所が簡潔にまとめられていて感動した 2022-03-08 Google の非公式ブログで、The Unofficial Google Data Science Blog というデータサイエンスをテーマにしたブログがある。 その中で、 Practical advice for analysis of large, complex data sets の記事を元にして作られた Google Developers Guides: Machine Learning Guides > Good Data Analysis を昨日見かけて読んでいたら素晴らしいドキュメントだったので、ここでその感動を共有したかったので筆をとったしだい。 Good Data Analysis の概
はじめまして。Kyashでデータエンジニアリングを担当しているKyashデータマンです。この記事では、Kyash社内のデータ分析の基礎に関するドキュメントを紹介します。 Kyashでは、データエンジニアリング・ガバナンス・セキュリティなど様々な角度から、公正なデータの取扱いと活用を推進しています。従来は、一部の訓練された技術者がデータ分析を一手に担っていましたが、社内でもデータ活用のニーズも多く、その担当者に分析や集計の業務が集中するという課題がありました。 この課題に対して、データへの適切なアクセス管理を行い、そして適切なBIツールを導入することで、データを取り扱う人が自分でデータ分析・そして活用できるようになることを目指しています。アクセス管理には、個人情報やそれに準ずる機密データに対して、ポリシータグによるアクセス権のコントロール、そしてアクセス権のリネージなどのソリューションの導入
はじめに 色々ありましたが,初心に立ち返って,弁護士業務の解説をしようと思いまして,このテーマを取り上げました。 標題の「登記情報提供サービス」と「登記簿図書館」について語ります。 あちこちで布教しているのですが,あまり広がっているように思えません。 そこで,皆さんにご紹介するために筆を執りました。なお,私には本記事を執筆したことにより一銭も入りませんのでどうぞご安心ください。べ,別に泣いてないのでどうぞご安心ください。 登記情報提供サービス 概説 電気通信回線による登記情報の提供に関する法律(平成11年法律第226号)の第4条第1項の業務を行う者(指定法人)に指定されているのが「一般財団法人民事法務協会」で,その「一般財団法人民事法務協会」が運営しているのが「登記情報提供サービス」です。 www1.touki.or.jp ざっくりと言うと,不動産登記,商業登記,動産・債権譲渡登記をネット
みなさんこんにちは、SET(Software Engineer in Test)のRueyです。 弊SETチームの活動として、自動テストの実施依頼を受けています。 最近は大規模な範囲にページ内の特定な要素を追加する施策の自動テストを対応しました。 テスト内容はURLへアクセスして特定のタグがあるかを確認することなので、データ駆動型テストで対応しました。 開発チームの実装後、こちらからデータ駆動型テストを実施し、結果を報告する形になります。 テスト結果報告後に開発チームはバグ修正を行い、すべてのテストケースがPassするまで「再テスト➡︎再修正」の繰り返しを行いました。 すべてのテストを実行すると実行時間がかかりフィードバックが遅れるため、前回失敗したテストケースのみを再実行したいです。 なので、そのような仕組みがあった方が対応しやすいと考えました。 今回の記事では、データ駆動型テストにおい
ニュース 研究データマネジメント部会において、「大学における研究データポリシー策定のためのガイドライン」を作成し、公開しました。 WebでのPDF公開の他、会員機関向けに冊子体の配布も実施します。詳細は下記のリンクをご参照ください。 大学における研究データポリシー策定のためのガイドライン
はじめに 筆者はかつてデータサイエンティストだった者です。 統計や機械学習をバリバリ使いこなしてデータを分析し、将来の売り上げ予測や要因分析、施策の効果検証などをすることに憧れてこの世界に入りましたが、そうした時間は全体の1割ほどに過ぎず、残り9割の時間の戦いに疲れて戦場を後にしました。 なぜデータサイエンティストは戦わなければならないのだろう。 おそらく一因としてあるのが、データサイエンティストという言葉がバズワード化しすぎてしまったせいで、その定義の輪郭が失われてしまったことだと思います。 整理された定義は、言わずと知れた尾崎隆さんのデータサイエンティスト・機械学習エンジニア・データアーキテクトの定義とスキル要件(2021年版)に記載されています。 しかし、専門家でも意見が別れる定義を素人がはっきりと分かるはずもなく、過度な期待が寄せられることで討死してしまうデータサイエンティストが少
自分が所属している会社のメンバーの教育用資料として、それなりの規模のデータを扱う時に前提として意識しておかなければいけないことをざっくりまとめたので、弊社特有の話は除外して公開用に整理してみました。 大規模データ処理、分散処理に慣れている人にとっては今更改めて言うことじゃないだろ、みたいな話ばかりだと思いますが、急激にデータスケールが増大してしまったりすると環境に開発者の意識が追い付かないこともあるかと思います。 そういったケースで参考にできるかもしれません。 弊社は基本的にAWSによって運用されているので、AWSを前提にした様なキーワードやサービス名が出てきます。後、句読点があったり無かったりしますが、ご容赦ください。 追記: 社内用の資料の編集なのでかなりハイコンテキストな内容だから誤解するかもしれませんが、これらはそもそもRDBの話ではありません。(関係無くは無いけど) 1000万オ
※この投稿は米国時間 2020 年 8 月 22 日に、Google Cloud blog に投稿されたものの抄訳です。 開発チームとデータ サイエンス チームが異なる言語の SDK で作業している場合や、好みのプログラミング言語では利用できない機能がある場合はどうしていますか?従来は、さまざまな言語をブリッジする回避策を講じなければならず、それができない場合はコーディングし直すしかありませんでした。これは時間や費用がかかるだけでなく、チームのコラボレーション能力にとって大きな足かせになります。 Dataflow Runner v2 の概要この問題を克服するために、Runner v2(パイプラインを構築するすべてのユーザーが利用可能)という新しいサービスベースのアーキテクチャが Dataflow に追加されました。この機能には、すべての言語 SDK をサポートする多言語対応が含まれています
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く