サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
掃除・片付け
gri.jp
パーティション分割テーブルって何 パーティション分割テーブルは、パーティションと呼ばれるセグメントに分割されたテーブルです。 テーブル作成時に、データの取り込み時間、TIMESTAMP/DATE 列、INTEGER 列のいずれかを指定することで、大きなテーブルを小さなパーティションに内部的に分割できます。 よく分からないのでイメージ↓ ※パーティション列として[Order_Date]を指定 内部的な分割なのでシャーティングテーブル(日付別テーブル)と違って、BigQuery内でテーブルを表示したときには分かりづらいですが、テーブルの詳細にて分割の有無とパーティション列を確認できます。 パーティション分割テーブルの作成方法はいくつかありますが、上記のテーブルは以下のような数行のDDLで作成可能です。その他の作成方法はこちらから* *パーティ
こんにちは、皆さん Jupyterなどでデータ分析をやっているときにグラフの作成は何を使っていますか?Matplotlibや Seabornがすぐに思い浮かぶと思いますが、散布図を書いたときに外れ値が原因で見たい領域が全然見えなかったり、軸で切り分けてみるときにいちいち元データを整形しないといけなかったり… 本来であればデータの構造を理解するために頭と時間を使いたいのにデータ可視化の時点で手間取ってしまい、効率が落ちてしまうことはよくあると思います。 そこで、登場するのがデータ可視化ライブラリである「Plotly」です。これは、Pythonだけでなく R, Julia, Javascriptなどでも使えるグラフを作るためのライブラリです。今回はこの Plotlyを使ってお手軽に色々な種類のグラフを作ってみました。 Plotlyとは Plotlyはインタラクティブなグラフやチャートを生成でき
今回も動画編集の「音」についてのお話です。前回はAdobe Auditionでノイズを除去する方法について書きました。 Adobe Auditionで、クリアな音声を手に入れるどんなに気を付けて撮影しても入り込む、それがノイズというやつなのです🥲 ノイズを除去してあげてクリアな音声にすることで、動画視聴の離脱... 声というものは十人十色、声の小さい人も大きい人もいるのは当然のことです。動画内となると、あまりにも差が大きすぎる場合は気になってしまいますし、本編とは別のところに意識を持っていかれるのは避けたいところです。特に座談会などの複数人が話している音声はどうしても個人差が出てしまいがちな気がします。 そんな時に役立つのがpremiere proの「ダイナミック」というエフェクトです。声の大きさを均一にして、セリフ間のノイズも消してくれる便利なやつです😎今回はこの「ダイナミック」の使
こんにちは!データ分析官のyokochanです。 今回のテーマはTableau初心者向けの小ネタです。 かなり強めの口調のタイトルを付けましたが、「ダッシュボード配置にタイルを使うな!」が今回の伝えたいことです。 Tableauを触り始めていくつかシートを作ってダッシュボードに配置しよう!となったときに何も考えずに置いたときはタイルになっています。 ただ、簡単なダッシュボードであれば特に気にならないです。 そこで「なーんだTableau簡単じゃん♪」と思っていると複雑なダッシュボードを作ろうとしたときに壁にぶち当たります。 「思った場所にシートがうまく置けない…」 「選択したいシートが選択できない…」 「どれが何のシートかわかんなくなっちゃった…」 となってしまいます。 そうなったときはまず、タイルを使うのをやめるとうまくいきます。 タイルを使わなければ何を使うのか?と言うと「水平コンテナ
そこで私は「ほ~、なるほどですね。(完全に理解)」みたいな顔をしましたが内心なにそれでしたので、調べてみました。 AsciiDocは軽量マークアップ言語の一つで可読文書記述形式です。 出力もHTML, PDF, ePubなどが行えるため個人での出版活動から開発環境でのナレッジの共有まで様々な用途で利用する事が可能です。 エンジニアのドキュメント作成に適した「AsciiDoc」とは? Markdownは知っていましたが、AsciiDocはより高度な文書の論理構造を構築する事が可能とのこと。 MarkdownについてもRedmineで使ってるな、くらいの認識でした。 VSCodeなら何やら簡単にできるっぽい そしてAsciiDocを編集するのに便利なのがVSCodeだそうで、実はVSCodeも使ったことがありませんでした。ソースコード編集には普段Atomを使っています。 そしてAtomよりもV
社会人としての心構えや自己啓発に関する本が多く流通しております。仕事のモチベーションアップやマーケティングなどに関する本にたびたび登場する概念の一つに「マズローの欲求5段階説」があります。これは新入社員のOJTに関する書籍などでも頻繁に取り上げられています。しかし、この概念は、広まるにつれて、様々な誤解、拡大解釈や、独自の解釈が入り込みます。本来な定義とは異なった勝手な扱われ方をしている場合には要注意です。その中でも、一番危険なのは、科学ならず疑似科学の領域に入り込み、真理ではなく、価値観の押し付けに近い、危険な使われ方をすることです。 「マズローの欲求5段階説」とは そもそも、「マズローの欲求5段階説」とは何でしょうか? 人間の欲求には「生理的欲求」「安全の欲求」「社会的欲求」「承認欲求」「自己実現の欲求」の5段階がある、という主張です。そして、本によっては、「生理的欲求」を低位の欲求と
こんにちは! 分析官の望月です。 みなさんはnotionというツールをご存じでしょうか? notionはあらゆる形式の情報を1か所に集約できる点に大きな強みを持ったクラウドツールです。notion内の情報は”ブロック”と呼ばれる単位で扱われ、”テキスト”や”画像”など様々なブロックをもとにページを作成していきます。(レゴで作品を作っていく工程に似ています。) ブロックの1つに”データベース”というブロックがあります。このデータベースをうまく活用することで情報の一覧性や検索性を格段に向上させることができます。本記事ではnotionのデータベースにまつわる基本的な概念と有効活用するためのテクニックをご紹介します。 データベースを利用する際に、理解しておかなければならないコト ビューの概念 notionのデータベースはデータそのものとデータの表現方法が切り分けられていることが特徴的です。noti
各対処方法のデメリット 一般的な、改行させる、三点リーダーで省略する、スマホのみ非表示にするというそれぞれの対処方法には、以下のようなデメリットがあります。 改行させる 縦に3列以上となってしまう場合、可読性が低下し、メインビジュアル等の他のコンテンツの表示領域が制限されてしまう可能性がある。 三点リーダーで省略する 現在地がわからなくなり、ユーザビリティが低下する可能性がある。 スマホのみ非表示にする Googleのモバイルファーストインデックスの観点からSEOのパフォーマンスに悪影響を及ぼす可能性がある。 結論 以上を考慮して、全体のパンくずが確認でき、画面のスペースを効果的に活用できる横スクロールが最適ではないでしょうか! 実装方法 HTML <nav class="breadcrumb"> <ol class="breadcrumb-list"> <li><a href="/" c
こんにちは。新米分析官のA.K.です! 今回は、Looker StudioでBigQuery上にあるシャーディングテーブルを読み込んだ時のエラーとその対処方法についてご紹介します。 エラーの紹介 Bigquery側でサンプル用のテーブルを用意しました。テーブルはサフィックスに「YYYYMMDD」形式で日付を持っているデータです。中には適当な値を入れています。 作成に使用したクエリ例は以下の通りです。 create or replace table {dataset}.demo_{yyyymmdd} ( create_datetime DATETIME, category STRING, price INT64 ); insert into {dataset}.demo_{yyyymmdd} (create_datetime, category, price) VALUES ('2023-0
【5分講義・自然言語処理#3】事前学習と転移学習・そしてBERTも本記事ではまず「事前学習モデル」を紹介し、自然言語処理における代表的な手法の1つであるBERTを詳しく解説していきます。後続の記事では最... 最新の事前学習モデルとして、OpenAI*1が開発したGPT(Generative Pre-Training)系列のモデルが有名です。本記事では、GPTの技術について紹介します。 GPT-nモデルの全体的説明 GPTは、過去の単語列から次の単語を予測するように学習を行います。文章の内容や背景を学習する上で高い性能を発揮し、幅広い「言語理解タスク」に対応できます。例えば、文章分類に使われる評判分析(sentiment analysis; 入力文がpositiveかnegativeかneutralかを判定)、質問応答(question answering; 常識推論、質問文が与えられたと
私はこのサービスの中で、「郵便番号」と「町丁目境界データ」を住所でマッチングさせたデータセットの開発を主に担当しています。 本記事ではその中で特に大変だった、住所の「名寄せ」について前中後編に分けて紹介します。前編は主にLLocoの中身について紹介する導入部です。 LLocoの中身 LLocoの作成においては、日本郵便が提供する郵便番号データおよびe-Statが提供する統計地理情報システムの境界データを利用し、下の画像のようなイメージでそれらのデータを結びつけています(ちなみにこれらは商用利用も可能なオープンデータとなっています)。 この作業を日本全国に対して行うことで、LLocoでは郵便番号から対応する地域の位置や統計データの把握、地名やGPSの位置情報から対応する郵便番号の取得が可能となり、商圏分析やエリアマーケティングに役立てることができます。 ちなみに日本全国で郵便番号はおよそ11
ちまたではノーコード、ローコード開発がものすごい勢いで進んできている感じがしますが、 チャットボットにおいてもいいサービスがあったので紹介します。
学習済みモデルの生成を念頭に置いたソフトウェアの開発方式として、探索的段階型があります。「AI・データの利用に関する契約ガイドライン」(経済産業省作成)の中に探索的段階型ソフトウェア開発に関する考え方が記述されています。 本記事ではAI開発契約と探索的段階型の開発形式について説明します。 AI開発契約とは AI開発契約とは、AI技術に関するソフトウェアの開発を社外に委託する際に締結する契約のことです。システム開発の契約とは性質が大きく異なります(後述)。 AI開発契約の一般的な流れは以下となります。 発注側が委託先に生データを提供する 委託先が学習用プログラムを設計する 委託先が学習用データセットを作成する 委託先が、学習用プログラムに学習用データセットを入力し、学習済みモデルを生成する AI開発契約とシステム開発契約はどう違う? 一般的に、システム開発の案件では、案件のゴール(ある要件を
QNAP NASのデフォルト設定でOpenVPN環境を構築し、ダウンロードした設定ファイル(.ovpn)をそのまま使うと、接続時に2つの警告メッセージが出てしまいました。 そのままでも問題なく使えますが、解消できないか調べてみました。 環境は次の通りです。 NAS側: QNAP TS-431X2(QTS 5.0.1.2248)、QVPN Service 2.4.746 クライアント側: Windows10 22H2 64bit、OpenVPN 2.5.8 1つ目のメッセージ WARNING: Compression for receiving enabled. Compression has been used in the past to break encryption. Sent packets are not compressed unless "allow-compression
本記事では表題に関して、脳筋系ゆるふわVTuberこと入社2年目DSの岡部がお送りいたします。(DS=データサイエンティスト) 発端はひょんなことから以下のスライドを見つけたことでした。 読み進めていくうちに、「ああ、最適化でも機械学習でも大変なポイントは同じなんだな、、、」と悟ってしまったので、内容を簡単に紹介しつつ、僕がAI案件/機械学習案件で気をつけているポイントを書き留めようかと思います。 ほぼポエムですのでご容赦ください。 スライドの概要と読んでみての所感 まず上記スライドに関してですが「そうだ、最適化やろう」てなった時、いの一番に見るべきスライドだと思います。2014年に書かれたものなので若干古いことは否めませんが、経年劣化する部分以外は全く色褪せておりません。 実は僕も当初は「最適化とはこんなもので、、、」といった感じの最適化に関するレビュー記事を書こうかと思ってたんですが、
Open SourceのETL(今のところExtract Transform LoadのうちExtractとLoadメインみたい)ツール、Airbyteを試してみました。TechCrunchでは、オープンソースのデータパイプラインプラットフォームとして紹介されていました。 airbyte.io jp.techcrunch.com 用意されているSourceとDestinationを組み合わせて、スケジュールを実行の設定ができます。差分更新ができるコネクターが限られていたりはしますが、シンプルに散在しているデータをBigQueryってときとかは使えるかもしれません。 GCPで試してみようということで、インストールはこちらの公式ページの手順に忠実にやりました。要はDockerで一発ってことですね。 On GCP (Compute Engine) – Airbyte Documentation
数理最適化案件とAI/機械学習案件とのアナロジー 「やってみなければわからない」中で僕たちDSはどうするか本記事では表題に関して、脳筋系ゆるふわVTuberこと入社2年目DSの岡部がお送りいたします。(DS=データサイエンティスト) 発... ◆【理論・実践】(2021年時点で)オススメの参考書 最大のアップデートはこちらの2冊です。参考書は時代の流れに合わせていいものが出てくるものですね。もちろん過去の参考書にもいいものはたくさんありますが、日進月歩の分野である以上、新しいものに軍配が上がりやすい構図はあると思います。 しっかり学ぶ数理最適化 モデルからアルゴリズムまで Pythonではじめる数理最適化: ケーススタディでモデリングのスキルを身につけよう 以下それぞれの所感です 【理論】「最適化分野全般を知るための『最適解』」とも言われている教科書 僕が最適化にハマっていた当時は様々な本
AIは、医療、防犯、セキュリティー、金融、交通安全、農業、製造業など様々な業界で活躍しています。一方、AIを間違った方法で使うことで社会にダメージを及ぼすリスクがあります。AI 倫理に関するガイドラインを設立し、それを政府と民間、そして国際的なレベルで合意が取れることで、AI に対する信頼性が高まり、結果として技術の進化に有利な展開をもたらします。 AIを作る人とAIを使う人の双方のベネフィットのために、世界中の様々な政府団体、学術団体(学会や研究所など)、企業において、AI 倫理のガイドラインや指針が相次いで発表されています。 これらのガイドラインのかなり詳細なレベルまでG検定で出題されます。G検定を取得するかどうかに限らず、AI関連の仕事もしくはAIを安全に活用することに少しでも興味を持つ方にはぜひ知っておいていただきたい内容です。 今回は、いくつか有名なガイドラインを国内外から紹介し
皆さんは風向や波向などの角度で表現することができるデータ(以下角度データ)を扱った経験はありますか? 角度データは0°から360°の周期性を持つため、体重や身長などの線形データとは扱い方が異なってきます。 本記事では基本的な統計量として、角度データの平均方向と分散の算出方法についてご紹介します! ・角度データの平均方向 x1,x2,…,xnを線形観測値としたとき、 一般的な算術平均は(x1+x2+…+xn)/nで与えられます。 しかし角度データの場合、この計算方法では平均方向を算出することはできません。 例としてθ1=30°,θ2=330°を角度観測値とした場合で考えてみましょう。 この場合、下図の通り平均方向は0°ですが一般的な算術平均の算出方法だと (30+330)/2=180°となってしまいます。 角度データの平均方向を算出するには、 まずはじめに角度観測値θi(i=1,2,…,n)
こんにちは!突然ですが、皆さんは下のような二種類の時系列データを判別できるような特徴量を抜き出したいときに何を考えますか?そしてどうやって特徴量を抽出しますか? 私はパッと見て次の手法を使えば特性が取り出せると思いました。 ピークの数 → k近傍法 ノイズの大きさ → 分散統計量 時系列方向で周期成分の大きさ → Wavelet変換 しかし、当然これだけでは十分な数の特性を網羅できていないでしょうし、適切な特性を抜き出すためにパラメータチューニングを行う必要があります(例えば、Wavelet変換であれば適切な基底関数を選ぶ必要があります)。 このように時系列データの特徴量エンジニアリングは調べることが無限にあり、どの特徴量を算出するかを考えているだけで日が暮れてしまいます。また、抜き出す特徴量が決まったとしてもモノによっては計算が複雑で実装に時間がかかってしまう場合もあります。 そんなとき
Tableau Cloud(旧Tableau Online)で、1つのアカウントで2つ以上のサイトを使っている場合、多要素認証(MFA)にしたときハマったのでメモです。 MFAコードはサイトごとに存在する アカウント(メールアドレスとパスワード)は各サイトで共通なのに対して、MFAはサイトごとに別のコードを生成、認証します。
どうも、最近SmartnewsでAIのニュースばかり見ていたら、歌手のAIさんの記事がレコメンドされてきた分析官の岡部です。 この記事では、決定木系アルゴリズムを使用するとき、特徴量同士の四則演算が有用となるケースがあることを、簡単な実験で確認しました。 その結果をまとめていきます。 事の発端 Kagglerに人気のGBDTをはじめとした決定木系のアルゴリズムは非常に強力で、 弊社の製品である自動機械学習ツールForecastFlowでも採用しています。 さて、入社まもないあるとき、そのForecastFlowに突っ込むデータセットを用意していると上司の方から、「この特徴量とこの特徴量の足し算は効きそうだね」と言われ、???となりました。 (え?足し算って、、、情報増えてないから、全く意味ないんじゃないの???) などと思ったんですね。 あれから時は経ち、数多のモデルを作っていくうちにだん
第2回のデータサイエンティスト検定(DS検定)が、 2022年6月10日(金)~2022年6月30日(木)の間に行われました。 以前は、DS検定の徹底解説 でDS検定の概要や出題範囲、勉強法を講師の目線で紹介しました。 受験者の「様子」を記事2本にまとめ、紹介します。 受験期間中と直後におけるTwitter投稿から収集した点数の分布(本記事) リアル「受験体験記」から窺える、勉強法、当日の工夫など(下記リンクから) DS検定の受験体験記 〜高得点獲得までの道を徹底的に解説〜前回の記事では、2022年6月に行われた第2回目のDS検定の様子について書きました。 https://gri.jp/media/e... 受験者の点数分布 受験直後に出力されるスコアシートには、このように、総合スコア、そして{データサイエンス、データエンジニアリング、ビジネス}の3つの分野について得点率が表示されます。
DS検定(公式名:データサイエンティスト検定™リテラシーレベル)について、試験の概要、出題傾向や問題の特徴、対策法について解説いたします。 データサイエンススキルを習得してキャリアアップしたい方、あるいは、AI・データサイエンスを体系的に学ぶきっかけとして、DS検定を検討されている方の参考になれればと思います。 DS検定の概要 DS検定とは DS検定は、一般社団法人データサイエンティスト協会が2021年に実施を開始した資格試験です。 データサイエンスと呼ばれる大きな分野に含まれる、データ加工、機械学習、データ分析、エンジニアリング、数理統計学、ビジネスなど、様々な知識やスキルを広くカバーしています。 DS検定の取得により、データサイエンティストに必要なデータサイエンス力・データエンジニアリング力・ビジネス力について入門レベルの実務能力や知識、および、裏でそれを支える数理統計学やAI教育のリ
大量のアクセスがきてもサーバーが落ちないこと。これは大事なデータを扱うサービスの重要な要素であったりします。 そんなことの無いようにリリース前に負荷テストをしようぜということになりました。 今回はpythonのlocustという負荷テストツールを使ったメモです。 誰が使っている? 引用:locustページより locustの公式ページにはGoogle, mozilla, amazonなどが使っているようです。 インストール # pipから pip install locust ※Dockerでも公式イメージがあるので、その場合はローカル環境へのインストールは不要です。 # versionの確認 locust -V # locust 1.5.2 私の環境では1.5.2のバージョンになります。 コード 公式のTutorialから。 # locustfile.py import time fro
Cloud Run採用の理由 コンテナのイメージそのままデプロイできるのが大きいメリットで、Cloud Functionsのフォーマット(ランタイム、ファイル名、関数名)に合わせる必要がないのと、デバッグが容易であったため ちなみにCloud Functionsでもデバッグできるフレームワークはある(functions-framework-nodejs)が、これも結局フレームワークにはめた形で実装する必要がある 実装 create-next-app でreactのセットアップ npx create-next-app nextjs-for-cloudrun cd nextjs-for-cloudrun npm run dev http://localhost:3000/ 上図のトップページは pages/index.js に書かれていて、ここを少し編集。Reactについては割愛します imp
新卒3年目の可視化分析官の寺内です。 json形式のデータを分析したいと思うこと、ありますよね。 例えば、APIのレスポンスデータなどはjson形式のことも多いです。 そんな時にも、Tableauが使えます。面倒な前処理も必要なく、基本的には簡単です。 ただ、少し取っつきにくさがあります。 そこで、今回は、Tableauでjson形式のデータを分析したことがない人向けに、最低限必要なことを記事としてまとめました。 サンプルのjson形式のデータ 本記事で扱う説明用のサンプルデータはこちらです。 サンプルのjson形式のデータ ※記事の本筋ではないですが、json形式の詳細な定義を知りたい人は、下記をご参照ください。 JSON入門 – とほほのWWW入門 Tableauでjson形式のデータを読み込む際の仕組み Tableauは基本的には表形式のデータを扱うツールです。しかし、(表形式でない
Google Drive 上に保管されている画像に対してPythonのパッケージ pyocr を使ってOCR処理を施し、抽出された文字をcsvに出力するという一連のことをやってみました。 Google Colaboratory(GoogleColab) で走らせたJupyter Notebook のコードを直接お見せしながら流れを見せていきたいと思います。 まず、必要なパッケージをインストールします。 こちらを参考にしました。https://www.teamxeppet.com/colab-pyocr/ 今回は日本語が書いてある画像から日本語テキスト(英語が混ざってもいい)を抽出しますので ocr-jpn の方ですね。 このインストールがうまく行けば、”Successfully installed pyocr-0.8″ などのメッセージが実行結果の最後に出るはずです。 つぎに、tesser
次のページ
このページを最初にブックマークしてみませんか?
『GRIInc. 株式会社GRI』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く