sh19910711のブックマーク / 2024年5月1日

拒否ポリシーでBigQueryのテーブル削除を無効にする

はじめにこんにちは、クラウドエースデータ ML ディビジョン所属の疋田（ひきた）です。珍しい苗字でなかなか覚えづらいと思いますので、是非「ヒッキー」と呼んでいただければ嬉しいです。　クラウドエースの IT エンジニアリングを担うシステム開発部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータ ML ディビジョンです。データML ディビジョンでは活動の一環として、毎週 Google Cloud (旧 Google Cloud Platform、以下「GCP」) の新規リリースを調査・発表し、データ領域のプロダクトのキャッチアップをしています。その中でも重要と考えるリリースを本ページ含め記事として公開しています。今回ご紹介するリリースは、2023年8月7日にサポートするようになった、拒否ポリシーを介してのアクセス拒否機能です

sh19910711 2024/05/01

"誤って権限が付与されたアカウントが BigQuery に対して行う操作の一部を阻止できる / テーブルの削除について拒否ポリシーが適用されているプリンシパルは、そのテーブルを含むデータセットも削除できない"

リンク

夏のトップカンファレンス論文読み会 / InnovationMeetup20170918csn_cvpr2k17

夏のトップカンファレンス論文読み会（2017/09/18）での発表資料です。 - connpass: https://abeja-innovation-meetup.connpass.com/event/63466/ - 著者実装: https://github.com/andreasveit/conditional-similarity-networks - 散布図: https://github.com/crcrpar/conditional_similarity_networks_pytorch

sh19910711 2024/05/01

"類似度計算: 「似ている」は画像の属性ごとに計算できると嬉しい + 1つの基準につき、1つのモデルを用意するのは効率が悪い / ベクトルにマスクを適用 + 空間を分割することで複数の類似度計算を可能に" arXiv:1603.07810 2017

リンク

ラテン語をはじめたら英語が使えるようになった話｜氷壁にアイスアックス

ラテン語学習をはじめたら、なぜか英語がめちゃくちゃ使えるようになってきました。英語の学習法としては意味が分からなさすぎる。けれど有用性はあると確信しているので、英語を向上させている中で停滞を感じている人のちょっとした気晴らしにでもなれば幸いです。ラテン語を学び始めて半年弱が経つのですが、先日たまたま英語を話す機会があり、自分でもびっくりするくらい英語が口をついて出てくるようになっていました。読み書きは使っているけれどしゃべりになると急激に英語レベルの落ちる、典型的な日本人。日常でそんなにしゃべる機会のないまま過ごしていたのに気づいたら向上していたという点がポイントです。もちろんこの期間、特に英会話に通ったりもしていないです。最初にまとめるとなぜラテン語学習が英語の上達につながるのか？を自分なりに考えてみた結果、以下のような構造だと推測しています。・知らない単語がなんとなくわかる

sh19910711 2024/05/01

"使われている漢字からニュアンスはわかるような状態 / sumere（ラテン語take）を知っていれば、assume, consume, presume, resume, sumptuous（英語）の意味もなんとなくイメージできる"

リンク

3年の旅路を経て、University of London で Computer Science を学ぶ - Velocity

"a long journey, abstract, light of hope, delightful, a small walking person" 思い返すと、長い旅路は2019年から始まった。 tmkk.hatena blog.com 「コンピュータサイエンスを学びたい」 – そう思ってから3年もの月日が経った。 Coursera や UoPeople という手段を知ってから、色々なことがあった。Coursera でいくつかコースを取ってみたり、UoPeople に仮入学したものの英語力不足で最終試験に落ちたり。 UoPeopleの入学を見送ってCourseraで勉強することにした - Velocity 満を持してUoPeopleに入学しようと思ったら、英語力が足りなかった話 - Velocity それでも、コンピュータサイエンスを体系的に学びたいという欲望が消えることは無かった。

sh19910711 2024/05/01

"学士号取得のためのプログラム (Bachelor of Science in Computer Science) をオンラインで受講 / 体系的に学びたいという欲望が消えることは無かった。また、どうせ学ぶなら英語で学びたいという欲張りな気持ちも同様だった" 2023

リンク

ライブコーディングで GitHub Copilot を使うべきかどうか - TechとPoemeの間

TL; DR 場合による "How to" を教えるライブコーディングの場合は、切ったほうが良い設計議論を中心に行うライブコーディングの場合は、使うと良いことがある文脈最近の仕事の中で、プログラミングを学んでいる人々の前で、オーディエンスのスキルアップを目的としたライブコーディングを実施したり、ライブコーディングセッションのアレンジをしたりファシリテーションをしたりしている。少々性格の異なるライブコーディングを数パターン行うなかで、「ライブコーディングで GitHub Copilot を有効にするべきかどうか」という問いに答えるに当たって一つの指針が見えてきたので書き残しておく。 How to を教えるライブコーディングでは Copilot を切る自分が担当したライブコーディングは、特定のテスティングフレームワークの使い方やテスト駆動開発の講義だったのだけど、このような「特定のツー

sh19910711 2024/05/01

"console.log(message) と書くだけでも、最初に console.log() とまで書いてから、末尾にあるキャレットを1文字戻してから message と入力する / 経験あるプログラマのこのような所作ひとつでも学びになる"

リンク

私とAWSの15年　あるいはThe Bezos Mandateの話 - NRIネットコムBlog

こんにちは佐々木です。本日よりNRIネットコムのメンバーによるイベント、「APN AWS Top Engineers/APN Ambassadors Week」を開催します！！！一番手を担当することになったので、昔を振り返りながらAWSについて考えてみます。最初のAWSはいつだったのか？振り返るうえで、まずAWSは始まりはいつだったのかを探ってみましょう。最初のAWSを探ろうとすると、もはや考古学の領域になりそうですが、一般的には2004年のSQSを持って（今の）AWSの始まりとしているようです。この記事を書くにあたって裏を取ろうと思って『最初のAWS』でググると、過去に自分が寄稿した記事が出てきました。本当に、ありがとうございます。 dev.classmethod.jp ただ、AWSの名前で一般的に認知されだしたのは、S3やEC2が登場した2006年です。私がAWSに出会ったのも2

sh19910711 2024/05/01

"AWS: クラウドという概念が存在する前から、クラウドを具現化 / 個々のサービスだけみると、必ずしも画期的という訳でもなかった / 初期のAWSはAPIのみ提供されていて、Webの管理画面なるものは一切存在しなかった" 2021

リンク

Apache Beam Python SDK でパイプラインのテストコードを書く - public note

sh19910711 2024/05/01

"Apache Beam: SDK には testing パッケージが用意 + パイプラインに対するテストコードを書けます / Beam パイプラインは、一般のコードと比較すると読んだだけでは挙動をイメージしにくい印象" 2023

リンク

Amazon CodeCatalystが “Issueへのタスクの追加のサポート” を開始しました | DevelopersIO

NTT東日本の中村です。みんな大好きCodeCatalystですが、Issueにサブタスクを追加できるようになりました。 CodeCatalystの概要 CodeCatalystは、クラウドベースの統合開発環境であり、ソースリポジトリ、Issue管理、クラウドIDE、CI/CDプロセスなどの開発に必要なサービスを一つの認証で簡単に利用できる、開発者向けのサービスです。 Amazon Qとも統合されており、Issueを読み取ってAIがコード群を生成する機能開発等も備わっています。最初はPull-Requestが日本語に対応していなかったりと荒削りでしたが、徐々に機能が追加されている印象です。 "Issueへのタスクの追加" とはずばり、課題管理のサブタスク（子課題）を示します。 CodeCatalystはIssueという一つの概念しか無かったのですが、そこにサブタスクの概念が加わったと

sh19910711 2024/05/01

"CodeCatalyst: Pull-Requestが日本語に対応していなかったりと荒削りでしたが、徐々に機能が追加されている / Amazon Qとも統合されており、Issueを読み取ってAIがコード群を生成する機能開発等も備わっています"

リンク

Amazon BedrockにCohere Command R と Command R+ が来たよ！RAGがすげーよ！ - Qiita

Amazon BedrockにCohere Command R と Command R+ が来たよ！RAGがすげーよ！AWSragbedrockCohereCommand-R+ GW真っ只中の4/30、Amazon BedrockにCohere Command RとCommand R+がやってきました！！🎊🎊🎊 Command R+はただのテキスト生成の枠を超えたAPIになっています！（と勝手に解釈しています！！）いろいろ特徴がありそうですが、まずは、RAGをやってみました。なにがすごいの？ Command R+のInvoke ModelのBodyが特徴的で、 documentを渡す専用項目があります。

sh19910711 2024/05/01

"BedrockにCohere Command RとCommand R+がやってきました / search_queries_only: 検索クエリの生成に特化したAPI / Command R+: Invoke ModelのBodyが特徴的でdocumentを渡す専用項目があり + レスポンスにはcitationsという項目"

リンク

Looker Studioのデータ抽出（Extract data）機能を利用してスキャン量を減らす - LayerX エンジニアブログ

こんにちは！LayerX バクラク事業部機械学習・データ部データチームの石橋（@saaaaaaky）です。 Looker Studioのカスタムクエリが1日300回以上実行される課題弊社ではBIツールとしてLooker Studioを利用しています。データマートがまだまだ整備できていないので、Looker StudioからGoogleのBigQueryに接続し、カスタムクエリをデータソースとしてダッシュボードが作成されています。ダッシュボードが閲覧される毎やパラメータの変更をする毎にクエリが実行されるため、よく見られているダッシュボードだと同じクエリの実行数が1日に300回ほどになるものも存在しました。スキャン量での課金であることと、単純にクエリが実行されることでダッシュボードの表示速度も遅くなり作業効率も落ちてしまいます。ヒアリングしたところ、リアルタイムのデータが必要とさ

sh19910711 2024/05/01

"既存のデータソースから特定のフィールドだけを含む「抽出済みデータソース」を作成することができる / 日次、週次、月次での自動更新 / 上限が 100 MB + 上限を超えデータの抽出が止まった際にアラートが出てこない"

リンク

BigQueryでGROUP BY ALLがプレビューになりました | DevelopersIO

Google Cloudデータエンジニアのはんざわです 2024年2月26日にGROUP BYに関して大きく2つのアップデートがありました。リリースノート： February 27, 2024 1つ目は、以前に紹介したGROUP BY GROUPING SETSなどの3つの関数が正式にGAになったアップデートです。 2つ目は、今回紹介するGROUP BY ALLが新たにプレビューとして追加されたアップデートになります。さっそくGROUP BY ALLを簡単に紹介し、実際に触ってみたいと思いますそもそも GROUP BY ALL とは簡単に説明するとSELECT句から集計関数などを除く全てのカラムでグループ化してくれます。今まで GROUP BY col1, col2, ...や GROUP BY 1, 2, ... のような形で個別に指定する必要がありましたが、そのような手間が省

sh19910711 2024/05/01

"GROUP BY ALL: 今まで GROUP BY col1, col2, ...や GROUP BY 1, 2, ... のような形で個別に指定する必要がありましたが、そのような手間が省ける + SELECT句で指定するカラムを増やしてもそのままで正常に実行することが可能"

リンク

Rで論文を書く実践的なテクニック集 (tinytable編)

2022年に書いたRで論文を書く実践的なテクニック集のテーブル編をtinytable版で書き直したものです.　Quartoで書かれた英語版もありますので, そちらも参考にしてください. kableExtra, gt から tinytable の時代へ近年, Rで表を作成するためのパッケージとして kableExtra と gt が人気を集めてきました. 私は kableExtra を使って論文（\LaTeX）で表を作成し, gt を使ってスライド (revealjs) で表を作成しており, 以前行ったRワークショップやZennでの解説記事でもkableExtraを念頭においておりました. しかし, 2024年4月現在, tinytableが従来のパッケージと比べ軽くて使いやすく, 今後のスタンダードになっていくと確信しており, 以前書いた記事を更新する必要があると考えました. この記事で

sh19910711 2024/05/01

"tinytable: modelsummaryのメンテナーによって開発 + ミニマル（zero-dependency, baseRのみを使用）でありながら強力な表を作成するためのパッケージ / HTML や LaTeX だけでなく, PDF や Typst にもエクスポートできる"

リンク

[R] 予測モデルを作るには formula を活用せよ - ill-identified diary

概要 formula オブジェクトは変数変換や交互作用項など, 多彩な表現ができる. xgboost や glmnet では model.matrix() を併用することで formula を利用できる. 統計モデリング/機械学習で予測モデルを構築するとき, 予測性能の向上のため, しばしば変数を入れ替えたり, 変換したりといった推敲が必要となる. R ではこういうときに formula オブジェクトを使うと, いちいちデータフレームに変換後の数値を追加したり書き換えたりする必要がなくなる. glmnet や xgboost など, formula が直接使えないものでも model.matrix() 等を併用すれば可能である*1. formula オブジェクトを解説した記事を探すと, かなり前から存在する. 例えば以下の記事. m884.hateblo.jp なお, 上記はタイトルが「f

sh19910711 2024/05/01

"変数を入れ替えたり, 変換したりといった推敲 / R ではこういうときに formula オブジェクトを使う / formula にはいろいろな構文 / xgboost や glmnet では model.matrix() を併用することで formula を利用できる" 2017

リンク

The Web Conference 2020 Report -多目的最適化における確率的ラベル集約-

kcp: Kubernetes APIs Are All You Need #techfeed_live / TechFeed Experts Night 28th

sh19910711 2024/05/01

"Google Driveの検索 / QueryとDocumentのEmbeddingの要素積 / Latent Cross: Attentionの一種 + 特徴量間の相互作用を効率的に学習 / Embedding要素積とLatent Crossを組み合わせることが効果的" doi:10.1145/3366423.3380046 2020

リンク

BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築

はじめにこんにちは、クラウドエースデータソリューション部の松本です。普段は、データ基盤や MLOps を構築したり、Google Cloud 認定トレーナーとしてトレーニングを提供しております。クラウドエースデータソリューション部についてクラウドエースのIT エンジニアリングを担うシステム開発統括部の中で、特にデータ基盤構築・分析基盤構築からデータ分析までを含む一貫したデータ課題の解決を専門とするのがデータソリューション部です。弊社では、新たに仲間に加わってくださる方を募集しています。もし、ご興味があればエントリーをお待ちしております！今回は、BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築方法について、ご紹介いたします。この記事はこんな人にオススメ機械学習パイプラインにおける実行基盤を検討さ

sh19910711 2024/05/01

"Vertex AI Pipelines: Vertex ML Metadata を使用してアーティファクトに関するメタデータの追跡が可能 / bigframes.ml の register 関数により、訓練したモデルを Vertex AI Model Registory に登録"

リンク

これでわかるB-treeアルゴリズム / B-tree algorithm

・二分探索木 (binary search tree) ・AVL tree ・B-tree ・B+ tree について順を追いながら説明。流れを細かく書いたので、わかりやすいと思います。

sh19910711 2024/05/01

"B-tree: 各ノードに持たせる値を1つでなく複数にし木の高さを抑える + より多くの枝を持つ / 最大で持つ枝の数に応じて「オーダmのB-tree」という言い方をする / B+ tree: 最下層のノードがポインタでつながっている" 2018

リンク

Rustを勉強したら低レベルが理解出来る！！！わけねえだろ

おれはOSを書く仕事をしたこともあるし、今までの仕事はほとんどがいわゆるシステムソフトウェアだった。しかし多くの人はウェブアプリケーションとかそういうところからキャリアをスタートさせるみたいで、そういう人の中でちょっと意識の高い人は「自分はアプリのことしかわからないから低レベルのことを勉強しなきゃならないな」となる人がいて、例えば伊藤直也さんなんかはがんばってLinuxカーネルの勉強をしていたようである。というかそういう有名人に触発されて、低レベルもやらなきゃなみたいな風潮があるといってもよい。そもそも「低レベルとはなんぞや」みたいなところがおれの中にはあるが、OSがどう動いてるかとか、コンパイラは何をしているのかとかは、基本なのでざっくりとでも知っておくべきだとは思う。ただ、そこからどう捻れたのかわからないが、「Rustは低レベルに入門する最後のチャンスだ！」「Rustを勉強すれば低レ

sh19910711 2024/05/01

"Rustのありがたみを理解するには、CやC++を真剣に書いてリソース管理の難しさを体験しなければいけない / 本来ありがたい存在であるはずのGCの挙動を理解しながらコードを書くことの不毛さを体験しなければいけない" 2016

リンク

QiitaのGNNタグ付けレコメンドにテキスト情報を追加してみる - Qiita

前身となった記事 2つを掛け合わせたような記事です．タグ同士のリンク情報に加えて，記事内容をベクトル化したものを加えることで，さらに良い推論結果が出せるのではないかということで実践してみることにしました．Heterogeneous Graphをカスタムデータに使ってみたいという方におすすめです．以下の流れで実装を進めていきます．データセットの用意テキストデータをベクトル化グラフデータを用意する学習評価実装のnotebookはgithubに挙げてますので，記載していない細かい部分が気になる方はそちらを参照してください．(あまり精査してませんが) https://github.com/taguch1s/qiita-tag-recommend/tree/main いろいろ細かい部分はスルーしてとりあえず実装までこぎつけた感じなので，気になる部分がありましたらご教授いただけますと幸

sh19910711 2024/05/01

"タグ同士のリンク情報に加えて，記事内容をベクトル化したものを加える / 内容とタイトルのテキストデータを結合してdoc2vecで学習 / タグのテキストデータをグラフで利用できる形に変換 + pytorch-geometricのtutorial を参考"

リンク

はてなブックマーク

タグ

2024年5月1日のブックマーク (18件)

拒否ポリシーでBigQueryのテーブル削除を無効にする

夏のトップカンファレンス論文読み会 / InnovationMeetup20170918csn_cvpr2k17

ラテン語をはじめたら英語が使えるようになった話｜氷壁にアイスアックス

3年の旅路を経て、University of London で Computer Science を学ぶ - Velocity

ライブコーディングで GitHub Copilot を使うべきかどうか - TechとPoemeの間

私とAWSの15年　あるいはThe Bezos Mandateの話 - NRIネットコムBlog

Apache Beam Python SDK でパイプラインのテストコードを書く - public note

Amazon CodeCatalystが “Issueへのタスクの追加のサポート” を開始しました | DevelopersIO

Amazon BedrockにCohere Command R と Command R+ が来たよ！RAGがすげーよ！ - Qiita

Looker Studioのデータ抽出（Extract data）機能を利用してスキャン量を減らす - LayerX エンジニアブログ

BigQueryでGROUP BY ALLがプレビューになりました | DevelopersIO

Rで論文を書く実践的なテクニック集 (tinytable編)

[R] 予測モデルを作るには formula を活用せよ - ill-identified diary

The Web Conference 2020 Report -多目的最適化における確率的ラベル集約-

BigQuery DataFrames と Vertex AI Pipelines による機械学習パイプライン構築

これでわかるB-treeアルゴリズム / B-tree algorithm

Rustを勉強したら低レベルが理解出来る！！！わけねえだろ

QiitaのGNNタグ付けレコメンドにテキスト情報を追加してみる - Qiita

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス