タグ

2024年4月29日のブックマーク (41件)

  • 複数の企業でデータエンジニアとして求められたスキル - yasuhisa's blog

    最近「ああ、これ前職でも前々職でもやったことあるなぁ」という仕事があった。データエンジニア(やその関連職種)として働き始めて約5年、3社でフルタイムとして働いてきて「このスキルは業界や組織規模が変わってもデータエンジニアとしてスキルを求められることが多いな」と感じたものをまとめてみることにした。棚卸し的な意味はあるが、特に転職用などではないです。 前提 どこでも必要とされたスキル データマネジメントに関する概要レベルの知識と実行力 セキュリティや法令に関する知識 事業ドメインに関する興味関心 他職種とのコミュニケーション能力 コスト管理 / コスト削減のスキル ソフトウェアエンジニアとしてのスキル DataOpsやアラートのハンドリング能力 分析用のSQLを書く力 古いテーブルやデータパイプラインを置き換えていくスキルや胆力 あるとやりやすいスキル 関連部署の動きを何となく把握しておく力

    複数の企業でデータエンジニアとして求められたスキル - yasuhisa's blog
    sh19910711
    sh19910711 2024/04/29
    "走りながら勉強していく: 準備ができてからデータエンジニアをやろうとすると、範囲が膨大なためこれは現実的ではない / セキュリティや法令に関する知識 / 関連部署の動きを何となく把握しておく"
  • 調理ロボットで学んだ自動化のコツ

    sh19910711
    sh19910711 2024/04/29
    "ロボットになりきって動作を補う + まだ実装してない機能を含めた一連の動作をイメージ / 3周して完成度を上げる: 動くものを作る・実際に動かす・改善点探す + 3周ぐらいするといい感じのものができる" 2020
  • 英会話が趣味になった話 - kurotyannの覚え書き

    ■ これはなに 去年の11月から始めたレアジョブ英会話のレッスン回数が今日で200回を超え、レッスン時間が100時間を超えた 仕事で必要に迫られ始めたが、途中でチームメンバーの移動があり、英語で話す・書く機会はほぼゼロになった 機会は減ったけど、朝の英会話を続けることが習慣になり趣味になり楽しい 2020/11/24 〜 2021/5/29 ■ 英会話趣味になった理由 1. 毎日やらないルーティーンにした だいたい隔日で朝8:30 ~ 9:30で行うルーティーンにした。これ以外の時間にはやってない。1レッスンが25分でこれを1日に2回やるので、1日に約1時間(25分超えることもある)となる。 レッスン前に教材となるニュースを下読みして予習もするので、実際は1時間以上はかかっている。下記がレアジョブの画面で見える僕のレッスン履歴です。 11月 12月 1月 2月 3月 4月 5月 やってい

    英会話が趣味になった話 - kurotyannの覚え書き
    sh19910711
    sh19910711 2024/04/29
    "予約する講師は毎回違う人にしている + 「2度と会うことはないだろうから、どう思われても気にしなくてOK」なのが英会話を始める心理的ハードルを下げてくれた / 人と話すことに飢えていたのかもしれない" 2021
  • 関数型言語XQueryで大量のXMLを楽にさばく - Qiita

    まえがき オープンデータ隆盛のこのご時世、意外と XML でデータを公開しているケースは多い。 XML形式で公開されているオープンデータを扱う際に XMLデータベース の一つである BaseX を活用してみた経験についてざっと書いてみる。 公開されている実世界のオープンデータを、事前知識なしで扱うのはなかなか大変だ。ドキュメントが整備されていなかったり、不揃いであったりして、ざっとデータの傾向を見てみないと活用しづらいケースが多々ある。 しかし、 帯域幅の制限もあって一回のアクセスでは十分な量のデータを得られない API があまり作り込まれていないため、欲しい情報をピンポイントで得るための検索ができない などというのは日常茶飯事だ。 そこで試しにちょっとしたスクリプトを書いて、まとまった量のデータをマイルドな周期でダウンロードすることになるけれど、 書き捨てのスクリプト一々書くのは億劫だ。

    関数型言語XQueryで大量のXMLを楽にさばく - Qiita
    sh19910711
    sh19910711 2024/04/29
    "テンポラリーなXMLの格納場所として XMLデータベースを使う / BaseX: XMLデータベース + XQuery が案外リッチで書いていて楽しかったり、同時に大量の XML ファイルを解析できて楽" 2015
  • 台所空間学/山口昌伴: DESIGN IT! w/LOVE

    不確実な時代をクネクネ蛇行しながら道を切りひらく非線形型ブログ。人間の思考の形の変遷を探求することをライフワークに。 「計画のスパン」というエントリーでもすでに紹介しているが、やはり、このはすごい。これまで台所というものをいかに誤解し、それゆえに台所やに対する自らの考えを陳腐化していたかということが思い知らされる。 いや、それどころか、そもそも台所ということに限らず、ひとが生活のなかでモノをデザインし、作り、使用するということが来どういうことなのかということをあらためて考えさせられた。 こんなが10年以上も前に書かれていたことを知らなかったなんて、と思う。くだらないデザインメソッドのを読んでいる余裕があったら、まずこちらを読むべきだ。目から鱗のはずである。 著者は、台所とは何なのか、それをデザインするためには何を考えればよいかの問いから、世界各地の台所をフィールドワークして回って

    sh19910711
    sh19910711 2024/04/29
    "著者は、台所とは何なのか、それをデザインするためには何を考えればよいかの問いから、世界各地の台所をフィールドワーク / 台所という空間をテーマに、食文化という観点から日本の生活の変容を研究した著作" 2010
  • Windowsの思い出を振り返る - たくなくの雑記帳

    先日噂されていたWindows 11が公式に発表されたので、これを機にこれまでのWindowsライフを振り返ってみます。 Windows 95(自宅、1997~2001) Windows 98 SE(学校、2001~2003) Windows Me(自宅、2001~2006) Windows XP(学校、2004~2006) Windows Vista(自宅、2007~2011) Windows 7(自宅/会社、2012~2015) Windows 10(自宅/会社、2016~) Windows 11(??) Haswellおじさんの危機 Windowsを振り返って おまけ 各OSと主な利用場所、そして利用期間ごとに振り返ります。 Windows 95(自宅、1997~2001) 僕が初めてPCというかWindowsを触ったのはこの95が最初です。 実家が自営業だったこともあり、帳簿をつけ

    Windowsの思い出を振り返る - たくなくの雑記帳
    sh19910711
    sh19910711 2024/04/29
    "当初は3分10円のダイヤルアップ回線、その後ISDNによる使い放題に / ISDNだったインターネット回線もCATVの回線に変わり、実効で2-3Mbpsくらい / Windows Meによる「なんかあったらすぐブルースクリーンになる」っていう体験" 2021
  • 技術ネタのブログを読む/書く時に気を付ける5箇条 - 玉虫色に染まれ!!

    昔であれば、Linuxの設定など、技術的な事でわからない事があった時には、英語のドキュメントとにらめっこするか、詳しい知人に聞くしか手はなかったのですが、最近では、ブログなど簡単な情報発信手段の発達で、Web上に日語の情報も溜まってきたおかげで、googleなどの優秀な検索エンジンを使えば、大抵簡単に解決できるようになっています。 ところが、情報発信の敷居が下がったせいか、いいかげんな情報が溢れ、しかもそれがコピペして増殖するという悪循環に陥っている物もあります。 @ITに、Sambaの設定にはびこる誤情報の話が出ていますが、これはSambaのように未だに発展を続けるソフトに限りません。私は先日、化石技術の一つ、procmailの設定でそのような例をみかけました。(これはそのうち別エントリで書くつもりです。(追記:書きました。)) 今日は、そのような誤情報に惑わされない/誤情報を発信しな

    技術ネタのブログを読む/書く時に気を付ける5箇条 - 玉虫色に染まれ!!
    sh19910711
    sh19910711 2024/04/29
    "バージョンに気を配る + 試した環境を正確に書くことが大切 + 「Samba」ではなく「Samba 3.0.28a」 / 「IE5では対応している」と書かれているスタイルをうっかり使ってしまうとIE7では表示できないサイトになってしまう" 2008
  • 3Dプリンタがあるとこんな感じで物が片付く - toyoshi

    3Dプリンターを買って3週間ぐらいなんですが、おかげでものが片付けれるようになる可能性を感じてきました。 ものを片付けられないのには複数の理由がありますが、その1つが片付ける場所が決まってないというのがあると思います。その証拠に私はものを片付けるのが苦手なのですが、爪切りや鍵や歯ブラシといった片付ける場所が決まっているものは必ず片付けられています。 この片付ける場所が決まってないという問題も分解するといくつか原因がありますが、3Dプリンタで専用の置き場所を作ることによって解決する場合というのがあります。 例えば昨日は紙テープを置く場所と言うのをつくりました。またその前の日はKindleを置く場所と言うのを作りました。これらは普段使うものなのにいつも場所が決まってないのでよくなくしていた物でした。 kindleの棚と紙テープ置き場 さっきもちょうどスティックのりを置く場所を作ったのでどんな感

    3Dプリンタがあるとこんな感じで物が片付く - toyoshi
    sh19910711
    sh19910711 2024/04/29
    "3Dプリンタで専用の置き場所を作る / 昨日は紙テープを置く場所 + その前の日はKindleを置く場所 / 同じサイズのノリが買えるとは限りませんが、その時はまた新しいの作れば大丈夫 + 汎用性などを考えなくて済む" 2019
  • [scrum][book] Software in 30days を読んだ - HsbtDiary(2013-04-27)

    ■ [scrum][book] Software in 30days を読んだ あんちぽさんが原著を読んで他のには無い話が多いと言っていたので読んでみた。確かに海の向こうで「よし、我が社もスクラムだ!」とやって撃沈した事例や、なんでスクラムのようなことをやるのかという話が多くて素朴な読み物として面白かった。 ただ、スクラムやるぞという時に読んでもぽかーんという感じになるので、その辺は他のも読んだ方が良さそう。地味に、後半の付録にあるスクラム用語集とスクラムガイドが便利。 Software in 30 Days スクラムによるアジャイルな組織変革"成功"ガイド Ken Schwaber KADOKAWA/アスキー・メディアワークス ¥2,817

    sh19910711
    sh19910711 2024/04/29
    "海の向こうで「よし、我が社もスクラムだ!」とやって撃沈した事例や、なんでスクラムのようなことをやるのかという話 + 素朴な読み物として面白かった / 後半の付録にあるスクラム用語集とスクラムガイドが便利" 2013
  • [AWS CDK] ALBとCognitoを使ってOktaをIdPとするSAML認証をしてみた | DevelopersIO

    サクッとSAML認証を実装したい こんにちは、のんピ(@non____97)です。 皆さんサクッとSAML認証を実装したいなと思ったことはありますか? 私はあります。 自分でSAML認証のService Provider(SP)側の処理を実装するのは大変です。そのような場合はALBとCognitoを使うと簡単に行えます。 ということで実際にやってみました。今回はIdPとしてOktaを使用します。 「SAML認証ってなんやねん」や「OktaのSAMLアプリってどうやって作成すればいいんだ」、「CognitoでSAML認証ってどうやって行えばいいんだ」という方は以下ドキュメントをご覧ください。 初心者向けSAMLガイド SAMLアプリ統合を作成する | Okta ユーザープールへの SAML ID プロバイダーの追加 - Amazon Cognito また、せっかくなので以下アップデートで可能

    [AWS CDK] ALBとCognitoを使ってOktaをIdPとするSAML認証をしてみた | DevelopersIO
    sh19910711
    sh19910711 2024/04/29
    "サクッとSAML認証を実装したい / 自分でSAML認証のSP側の処理を実装するのは大変 + ALBとCognitoを使うと簡単 / Name ID formatをPersistentに設定 + Attribute Statements : Oktaのuser.emailをemailとして渡す"
  • [Proxmox VE] テンプレートとクローンとCloud-Initを使ってVMをサクサクシュッと生やす (Fedora / Ubuntu) - zaki work log

    Proxmox VEには、VMのテンプレート化とクローン機能があり、さらにCloud-Initを使って初期設定込みで簡単にVMをプロビジョニングできる機能がある。 もうすぐFedora40やUbuntu 24.04がリリースされそうなので、その時にサラサラとテンプレート作成できるように、この機能を使う準備についておさらい。 といっても、ドキュメントの通り順番にコマンド実行していけば作成できる。 pve.proxmox.com ちなみにここではUbuntuの情報はあふれてるので、ここではFedora 40 betaでお試し。 (Ubuntuの場合も参考程度に記載してる) テンプレートの作成 ベースになるCloudイメージの入手 テンプレート元にするVM作成 イメージのセット Cloud-Init CD-ROMドライブの追加 テンプレートへの変換 テンプレートの設定 VM設定 Cloud-In

    [Proxmox VE] テンプレートとクローンとCloud-Initを使ってVMをサクサクシュッと生やす (Fedora / Ubuntu) - zaki work log
    sh19910711
    sh19910711 2024/04/29
    "Proxmox VE: VMのテンプレート化とクローン機能 + Cloud-Initを使って初期設定込みで簡単にVMをプロビジョニング + 使える状態のVMを秒で作成できる / Cloudイメージを使ったVM + Fedora Cloud 40 QEMU (qcow2形式)をダウンロード"
  • 頑張って Axum を Cloudflare Workers で動かす

    worker = { git = "https://github.com/cloudflare/workers-rs", branch="kflansburg/http-fetch", features = ["http"] } マージがマジ楽しみ! Axumがサポートされたぞ!!!!!!!!!! Cloudflare Workers では少し前から Rust が動いていた。 (正確には動いているのは WebAssembly だが。) Cloudflare Workers は V8 ベースの技術に立っているので、WebAssembly がそのまま動くし、つまり WebAssembly に変換できたらコンパイル前の言語は何であっても良い。 ちなみに V8 で動くものに変換できたらいいので hoge to JS なトランスパイラがある言語は全部動く。 その中でも Rust は worker-r

    頑張って Axum を Cloudflare Workers で動かす
    sh19910711
    sh19910711 2024/04/29
    "Cloudflare Workers: V8 ベースの技術に立っているので、WebAssembly がそのまま動く + WebAssembly に変換できたらコンパイル前の言語は何であっても良い / workers-rs: Routerがある + リバースプロキシー目的で使うときは使い勝手が良い"
  • MLOps系プロダクトの布教活動報告 - Qiita

    この記事はMLOps Advent Calendar 2021の18日目の記事です。 2016年にもTensorFlowとMLサービスの2016年の布教活動報告を書きましたが、ここ3年くらいはMLOps系の活動をメインにしてきたので、その報告です。COVID後はイベント登壇も減り、ブログ記事の執筆が多くなりました。その裏話的な内容です。 Feature Store のブログ記事 今年5月のGoogle I/OでVertex AIのMLOps系プロダクトがいくつかリリースされたので、その後にフォローアップのブログ記事を出し始めました。まずは6月にPMのAnandと書いた Kickstart your organization’s ML application development flywheel with the Vertex Feature Store(日語版)です。 このプロダクト

    MLOps系プロダクトの布教活動報告 - Qiita
    sh19910711
    sh19910711 2024/04/29
    "Developer Advocateは何もしないと何も仕事がこない / 入れ替わる新しい人たちと信頼関係を築くのが一苦労 + 社内営業的なムーブも必要 / 動画: ブログだけでなく ~ セッション発表時のスライド等で使い回せる" 2021
  • ランキング学習を使って有馬記念を予想してみた - Qiita

    日は12/24です。何の日か、みなさんお分かりですよね?🎅 そう、みんな大好き有馬記念の日です。🐎 ボートレースファンからはグランプリの優勝戦の日だろ!という主張もありそうですが、今回は数年ぶりに競馬予想ネタを書きたいと思います。 私自身、過去に2回、競馬予想をテーマにした記事を掲載してきました。 機械学習の初心者がpythonで競馬予測モデルを作ってみた 機械学習の初心者がpythonで有馬記念を予想してみた レースは相対評価で予想したい 過去記事では、ロジスティック回帰やランダムフォレスト等を使用してましたが、実は違和感を少々感じていました。それは、データセット全体から絶対評価で、購入対象馬を予測しているからになります。 ちょっと分かりにくいかもしれませんが、例として、以下のデータセットの場合、レース番号に関係なく、賞金の高い馬が購入対象になりやすいという傾向があります。 レース

    ランキング学習を使って有馬記念を予想してみた - Qiita
    sh19910711
    sh19910711 2024/04/29
    "LightGBM: 2種類のAPIが存在 + sklearnに馴染みがあるので、Scikit-learn API(LGBMRankerクラス)を使用 / NDCG: ランキング学習モデルの評価指標の一つ + 生成したランキングが真の並び順にどれだけ適合しているか" 2023
  • MySQL Innovation Day Tokyo で MySQL 8 の文字コードについて話した - @tmtms のメモ

    MySQL Innovation Day Tokyo に参加して10分ほど喋ってきました。 ひさびさに巨大サキラちゃん登場。人曰く5年間ほど倉庫に隠れてたそうです。 昼ごはんは今半のすき焼弁当でした。豪華! 会場の様子。百数十人で満員でした 以下わたしの発表内容。スライドはこちら https://tmtm.github.io/mysql-innovation-tokyo/ MySQL恒例「RCとはいったい…」案件 utf8の指定でwarningが出るようになった mysql> set names utf8; Query OK, 0 rows affected, 1 warning (0.00 sec) Warning (Code 3719): 'utf8' is currently an alias for the character set UTF8MB3, which will be

    MySQL Innovation Day Tokyo で MySQL 8 の文字コードについて話した - @tmtms のメモ
    sh19910711
    sh19910711 2024/04/29
    "Charset=utf8mb4 を指定しただけでは 5.7 と 8.0 で動きが異なる / 各collationの特徴を知って適切なものを使いましょう / utf8mb4_0900_ai_ci: アクセントの違いを区別しない + 大文字小文字を区別しない +🍣≠🍺" 2018
  • phi3とollamaを使ってローカルでデータ処理を行ってみる① 文章分類

    ISSUE_SAMPLE = [ {"title": "Add support for dark mode", "label": "enhancement"}, {"title": "Fix crash when clicking on 'Save' button", "label": "bug"}, {"title": "Update README with new installation instructions", "label": "documentation"}, {"title": "Improve performance of data processing module", "label": "enhancement"}, {"title": "Error message not clear when login fails", "label": "bug"}, {"ti

    phi3とollamaを使ってローカルでデータ処理を行ってみる① 文章分類
    sh19910711
    sh19910711 2024/04/29
    "想定用途: アンケートとか数百件程度のデータに対しさくっと加工 / phi3: 与えられた表題にいくつかのタグのうちどれか1つをつける > 全問正解 + 初手としてはかなり良さそう / GitHub Copilotに適当にデータを生成してもらう"
  • Hydra, MLflow, Optunaの組み合わせで手軽に始めるハイパーパラメータ管理

    Optuna meetup #1 で使用した資料です.

    Hydra, MLflow, Optunaの組み合わせで手軽に始めるハイパーパラメータ管理
    sh19910711
    sh19910711 2024/04/29
    "Hydra: パラメータを階層立てて構造的にYAMLファイルに記述 + グリッドサーチを1行で実行可能 / MLflow: Hydraと組み合わせハイパラの管理・保存・比較が容易に / Hydraのプラグインを利用したOptunaの導入" 2021
  • [LangGraph] 自律的にプログラムを実行するLLM Agentを作るための60行スクリプト

    60行スクリプトシリーズ第二弾。前回はこちら この記事はMultiAgent作成フレームワーク「LangGraph」に興味がある人が手っ取り早く動かしてみることを目標にした記事です。 この記事を見てできること 指定のお題に対して、関数で定義したツール実行(Web検索など)をする。 実行結果を元に答えを返す。答えがわかるまでツール実行を繰り返す。 このワークフローの拡張性も意識して、組み込みのワークフローは利用しない方針で作成しています。 まずはセットアップ # 必要なライブラリをインポート import argparse from langchain_community.tools.tavily_search import TavilySearchResults from langchain_openai import ChatOpenAI from langgraph.checkpoin

    [LangGraph] 自律的にプログラムを実行するLLM Agentを作るための60行スクリプト
    sh19910711
    sh19910711 2024/04/29
    "指定のお題に対して、関数で定義したツール実行(Web検索など) + 実行結果を元に答えを返す。答えがわかるまでツール実行を繰り返す / langchain_core.tools: コストの高いモデルと安いモデルを組み合わせたりするのに便利"
  • サーバ再起動しても cron で Web アプリを雑に立ち上げ

    超楽にRubyで雑に書いたスクリプトをsystemdで管理したい! - 宇宙行きたい で systemd がユーザ権限で使えることを知る。 開発環境用では nohup と cron の @reboot を使っていました。こちらもお手軽なので紹介。 @reboot とは crontab(5) に @reboot があれば使えます。その名の通りリブート時に一回だけ実行。Ubuntu なら利用可能。 $ man 5 crontab (省略) Instead of the first five fields, one of eight special strings may appear: string meaning ------ ------- @reboot Run once, at startup. @yearly Run once a year, "0 0 1 1 *". @annual

    サーバ再起動しても cron で Web アプリを雑に立ち上げ
    sh19910711
    sh19910711 2024/04/29
    "crontab(5) に reboot があれば使えます / その名の通りリブート時に一回だけ実行 + Ubuntu なら利用可能 / これで apt upgrade の OS リブートも気軽に行えるようになり"
  • 2021年で面白かったTransformer関連論文 - moriyamaのエンジニアリング備忘録

    この記事はみらい翻訳アドベントカレンダー14日目の記事です。 2021年も終わりを迎える中、個人的には転職してからちょうど1年経ちました。 機械翻訳の研究開発に携わることもあり、自然言語処理や深層学習全般を中心にいろいろな論文を読んだ一年でした。 年末にありがちな今年の論文BEST10のようなランキングを作ってみようと考えたが、選定とランキング基準がなかなか定まらず、それだけで数日かかりそうだったので、Transformer関連論文に絞ってまとめてみようと思います。 今年も昨年に続きTransformer is all you needの色が一層強くなったと感じます。Transformer自体は自然言語処理を題材に提案されたモデルですが、最近は画像領域や音声領域でも高い性能を発揮しています。 強く注目されているモデルということもあり、構造の細部にフォーカスした多くの研究がありましたので、そ

    2021年で面白かったTransformer関連論文 - moriyamaのエンジニアリング備忘録
    sh19910711
    sh19910711 2024/04/29
    "CANINE: 各文字に対して複数のハッシュ化を通じて数値化し、それらを連結して文の数値表現とする + 複数の文字トークンに対して一定幅で畳み込みを行うことで疑似的に単語にあたる表現を得る" arXiv:2103.06874 2021
  • MLX SwiftでMeta Llama 3を動かす

    macOSやiOSデバイスでLLMの推論を動かすにはllama.cpp[1]やMLX[2]が利用できます MLXはAppleによるプロジェクトSwift APIも公開されています[3] MLX Swiftを使ってデバイス上でLLMを実行するにはMLX Swift Examplesリポジトリで公開されているソースコードが参考になります この中のLLMEvalというアプリは、Hugging Faceから任意のモデルをダウンロードしてきてテキスト生成を実行します。MacとiOSでも動作します LLMEvalは標準で以下のモデルに切り換えて実行できます Llama 3を動かす リストされているllamaはCodeLlamaなので、ここにLlama 3を追加して動かしてみます LLMEvalが依存しているLLMライブラリ(MXLL)のソースコードを更新します Models.swiftに以下のように

    MLX SwiftでMeta Llama 3を動かす
    sh19910711
    sh19910711 2024/04/29
    "Swiftを使ってデバイス上でLLMを実行するにはMLX Swift Examplesリポジトリで公開されているソースコードが参考 / Llama 3: Macでは会話ができ + iPhone 15 Proではメモリが不足しアプリが落ちました"
  • 時系列データ/BRINインデックス対応 - KaiGaiの俺メモ

    PG-StromにBRINインデックス対応機能を実装してみた。 まずは、以下のEXPLAIN ANALYZEの実行結果をご覧いただきたい。 条件句で参照しているymd列は日付型(date)で、テーブルにデータを挿入する際には意図的に日付順にINSERTを行っている。 postgres=# EXPLAIN (analyze, buffers) SELECT * FROM dt WHERE ymd BETWEEN '2018-01-01' AND '2018-12-31' AND cat LIKE '%bbb%'; QUERY PLAN ---------------------------------------------------------------------------------------------------------------------------------

    時系列データ/BRINインデックス対応 - KaiGaiの俺メモ
    sh19910711
    sh19910711 2024/04/29
    "B-treeインデックスは、インデックス対象列の値とレコード位置を各レコード毎に持っており + 大規模データの脇に大規模インデックスが控えている / 一方で、BRINインデックスのdt_ymd_idxのサイズは僅か128kBに留まって" 2018
  • 『Pythonでスラスラわかる ベイズ推論「超」入門』を読んでみた。 - いものやま。

    Pythonでスラスラわかる ベイズ推論「超」入門』を読んでみたので、軽く感想とか。 Pythonでスラスラわかる ベイズ推論「超」入門 (KS情報科学専門書) 作者:赤石 雅典講談社Amazon 概要と感想 ベイズ推論のはいろいろあるけど、このは理論というよりツールとして活用することに重きをおいた感じの。 サンプリングをどう計算するのかとかはライブラリ(PyMC)に任せてしまってでは解説せず、統計モデルの作り方と得られたサンプリングの結果の使い方の解説が中心になってる。 数理最適化でたとえると、単体法とかの解説はしないでPuLP使ったモデリングの解説をしている感じ。 そういうこともあってすごく読みやすかったし、実用としてはこういうの方が助かるよね。 別に研究者として新しいアルゴリズムを作りたいとかでもないし。 数理最適化もそうだけど、理論とか勉強しても実際に使うときはライブラ

    『Pythonでスラスラわかる ベイズ推論「超」入門』を読んでみた。 - いものやま。
    sh19910711
    sh19910711 2024/04/29
    "統計モデルの作り方と得られたサンプリングの結果の使い方の解説が中心 / 実際に使うときはライブラリ叩くだけで、一番壁になるのはモデルを作る部分なので、その部分がちゃんと解説されてるのはとてもよかった"
  • Kaggle音コンペで銅メダル獲得したときの手法解説 - Qiita

    今年3月頃から機械学習(主にDeepLearning)とKaggleを始め、賞金のあるコンペ「Freesound Audio Tagging 2019(以下FAT2019)」に初めて挑戦しました。やるならばと金メダルを目指していましたが、結果はPrivateLB 89位で銅メダルに落ち着きました。苦労・工夫した点や、参考にした論文、記事、カーネルなども交えてここに記録したいと思います。 ちなみに以下が最終提出カーネルです。 定数で学習モードと推論モードを切り替えていたので、少し読みづらいですが…。なお、MixMatchなど一部の実装は実験的なもので、最終提出には使っていません。 モデルAの学習カーネル モデルBの学習カーネル(A→B 転移学習) モデルBを使った推論カーネル コンペの内容 FAT2019は、環境音データに対して「エンジン音」や「男性の歌声」などのタグを付ける認識モデルを開発

    Kaggle音コンペで銅メダル獲得したときの手法解説 - Qiita
    sh19910711
    sh19910711 2024/04/29
    "環境音データに対して「エンジン音」や「男性の歌声」などのタグを付ける / 周波数軸に対してメルスケール、パワーに対して対数スケールで変換 / 推論時にもデータ水増しすると精度が向上することが知られ" 2019
  • Jetson AGX Xavier と Momo で背景ぼかしの映像を配信する

    最近、Jetson AGX Xavier 上で Momo を使って、背景ぼかしの映像を配信するのを試してみました。 こんな感じに配信できるようになります。 Momo で背景ぼかしの映像を配信している様子 - YouTube 自分の顔を映すのは嫌だったので、ディスプレイにヒカキンを表示して、それをWebカメラで撮影して配信しています。 元動画はこちらです: 【昔は好きだったけど今は嫌い】でエゴサしたらメンタル崩壊…【ヒカキンTV】【ツイッター】 - YouTube ちゃんと背景がぼかされて配信されているのが分かります。 jtop コマンドで確認した CPUGPU、メモリ使用量はこんな感じになっています。 ちゃんと GPU も使って計算していることが分かります。 構成 今回の構成はこんな風になっています。 Python の tf-bodypix を使って、実カメラの映像を取り込ん

    Jetson AGX Xavier と Momo で背景ぼかしの映像を配信する
    sh19910711
    sh19910711 2024/04/29
    "tf-bodypix: 実カメラの映像を取り込んで、背景ぼかしした映像に変換 + カメラから読み取る部分も、仮想カメラへ出力する実装も入っていた + いろいろインストールしてコマンドラインから実行するだけ" 2020
  • ゼロから創る tensorflow + reinforcement learningを使ったディープラーニングもどき - コンピュータ将棋 Qhapaq

    注:今回の記事は完全にプログラマ向けの解説記事です ソースコードの閲覧、ダウンロードは此方からどうぞ GitHub - qhapaq-49/tf_reinforcement: tensorflowを使った簡単(300行弱)なreinforcement learning 【今回作りたいもの】 囲碁やポーカーのAIで度々注目されているディープラーニングを使った強化学習。時代の先端を走るゲームAI開発者的には是非覚えておきたいスキルの一つです。といっても、強化学習の動作原理自体は下記の図のようにシンプルなものです。稿では下記図の流れを一通り搭載したスタンドアロンで動く強化学習ルーチンを紹介します(上述のgithubのコードを見ながら読まれることをオススメします)。 【稿で扱うゲームのルール】 稿ではニューラルネットで動く競りゲームAIを作ります。競りゲームとは ・初期所持金10のプレイヤ

    ゼロから創る tensorflow + reinforcement learningを使ったディープラーニングもどき - コンピュータ将棋 Qhapaq
    sh19910711
    sh19910711 2024/04/29
    "教師データ: ランダムムーブの対局 + 勝った方の手を良い手としてその手の採択率を上げる / 記事は沢山あるのですが、その多くはgymなどの洗練されすぎたパッケージを使っていて" 2017
  • SHapley Additive exPlanationsで機械学習モデルを解釈する / dgtalk5

    2020年1月16日に行われたData Gateway Talk vol.5での発表資料です。 https://data-gateway-talk.connpass.com/event/155457/ この発表をログミーさんに記事化して頂きました。 こちらには資料の口頭での補足も入っています。…

    SHapley Additive exPlanationsで機械学習モデルを解釈する / dgtalk5
    sh19910711
    sh19910711 2024/04/29
    "SHAP: 協力ゲーム理論のShapley Valueから + より貢献度が高い人により多くの報酬 / モデルに投入した特徴量Xをゲームのプレイヤーと見立てて、あるインスタンスの予測値への特徴量の貢献度をShapley Valueで測る" 2020
  • 機械学習のための音声の特徴量ざっくりメモ (Librosa ,numpy) - Qiita

    Introduction この記事は基的に自分用のメモみたいなもので、かなりあやふやな部分もあります。間違っている部分を指摘していただけると助かります。(やさしくしてね) ネット上にLibrosaの使い方、Pythonによる音声特徴量の抽出の情報が少なかったり、難しい記事ばかりだったので、かなり噛み砕いてメモするつもりでいます。 基的に機械学習に用いられている音声の特徴量について記述していきます。 (2019/8/20)勉強した分だけ載せました、ちょっとずつ更新していきます。 (2019/8/22)MFCCの分だけ更新しました。 (2019/8/23)ZCRについて書きました。 紹介する特徴量 MFCC log-mel spectrum HNR ZCR 1.MFCC MFCCとの出会い 音声認識に広く使われている特徴量で、だいたいの音声における機械学習の代表的な特徴量ということでだいた

    機械学習のための音声の特徴量ざっくりメモ (Librosa ,numpy) - Qiita
    sh19910711
    sh19910711 2024/04/29
    "MFCC: 人間の声道の特性(人間の声と聴覚の仕組み)をうまく反映している + 人間の低音に敏感で高音に鈍いという特徴を考慮 + この特徴量を使うと非力なマシンで機械学習をできる旨味がある" 2019
  • Metric LearningでTWICEのメンバー9人を見分けるPyTorch入門 - Qiita

    エンジニア&リサーチインターンの佐藤(Twitter: TodayInsane)です。 ABEJA Advent Calendarの21日目を担当します。 もうすぐクリスマスですね!"Merry&Happy"!!! 軽い自己紹介 今年の4月からフロントエンドのデザイン→Vue.js実装をメインの業務とし、半年間とあるプロダクトの開発・案件受注を長期インターンとしてお手伝いさせて頂いてました。記事と直接の関係はありませんが、このプロダクトの開発者兼ぼくのメンターさんによる思いとテックと面白さが詰まったABEJA Tech Blogも是非ご一読ください。そして9月に初案件が無事成功した話を、インターン体験記兼続編として執筆中です。 現在はエンジニア業務と同時並行で、10月から機械学習のリサーチインターンもしています。上述の人物認証を使ったプロダクトやABEJAのサービスであるInsight

    Metric LearningでTWICEのメンバー9人を見分けるPyTorch入門 - Qiita
    sh19910711
    sh19910711 2024/04/29
    "Person Re-Identification: 画像または映像を解析し、写っている人物が既知(登録済みの人)か未知かを判定 / domain gap: 「学習データセットの人たちは推論時には多分1人も出てこない」問題" 2019
  • Spark 2.0 on EMR で Structured Streaming をやってみた

    “Distributed computing (Apache Hadoop, Spark, …) Advent Calendar 2016” の 12/19 担当ということで、Spark 2.0 on EMR で Spark Streaming と Structured Streaming をやってみた結果を書きます。 この記事でやること この記事では Spark 2.0 で、現在アルファ版の Structured Streaming をやってみます。 Structured Streaming とは、Spark SQL エンジンで実現されたストリーム処理の仕組みです。 従来型の Spark Streaming は RDD を DStream とよばれる Spark Streaming 特有のモデルを導入して扱うのに対して、Structured Streaming では Spark SQL

    Spark 2.0 on EMR で Structured Streaming をやってみた
    sh19910711
    sh19910711 2024/04/29
    "Structured Streaming: Spark SQL エンジンで実現されたストリーム処理の仕組み + バッチジョブと同じ書き方で Streaming 処理を実現 / 従来型の Spark Streaming は RDD を DStream とよばれる Spark Streaming 特有のモデル" 2016
  • Deep Learningを使った欠損値補完 DataWig

    欠損のままでも動くフレームワークも最近は増えていますが 欠損値の扱いは機械学習適用において難しい課題の一つです。 簡便的に平均値, 中央値, 最頻値などの統計量を代入する、Scikit-learnのAPIなどを使って、機械学習アルゴリズムで欠損を埋める, MICEで代入するなどの方法がありますが、この記事ではDeep Learningベースの欠損値補完ライブラリであるDataWigについて触れてみたいと思います。 欠損のタイプ[1] データの欠損には大きく3つのメカニズムがあるとされています。 MCAR(Missing Completely At Random ) : 完全にランダムな欠損で、ある値の欠損する確率が、その対象のデータと無関係(例:サイコロを振ってランダムに欠損させているような状況)であることを指します。データ数が十分確保できるのであれば欠損行を削除しても問題ないタイプです。

    Deep Learningを使った欠損値補完 DataWig
    sh19910711
    sh19910711 2024/04/29
    "DataWig: Amazonが開発 + 欠損値補完ライブラリ + Apache MXNetをベース / 数値だけでなく、カテゴリの欠損補完にも対応 / 代入したいカラム内の属性もしくはカラム全ての潜在的な値の尤度を得る" 2021
  • AWS Step FunctionsとAmazon Bedrockを用いて生成AIの自動フローへの組み込みを行う - Qiita

    前提 AWS Step Functionsとは、ステートマシンを使用してワークフローを構築し、アプリケーションの自動化を実現するサービスです。一方、Amazon Bedrockは、大規模な言語モデルを活用して自然言語処理の機能を提供するサービスです。AWS Step Functionsから Amazon Bedrockを実行することで、ワークフロー機能の中に生成AI機能を組み込むことが可能となっています。 生成AIはチャット機能の形式で使われることが多いですが、実業務の中での利用を考えたときにワークフローや自動化の文脈で活用できると利用の幅が非常に広がると考えられます。そこで今回、以下の記事を参考にしつつAWS上で生成AIを含んだ自動フローの実装を行いました。 参考記事:https://aws.amazon.com/jp/blogs/news/build-generative-ai-app

    AWS Step FunctionsとAmazon Bedrockを用いて生成AIの自動フローへの組み込みを行う - Qiita
    sh19910711
    sh19910711 2024/04/29
    "Step Functionsから Amazon Bedrockを実行 / 実業務の中での利用を考えたときにワークフローや自動化の文脈で活用できると利用の幅が非常に広がる / 常に自分が想定したそのままの形で返ってくるとは限らない点に注意が必要"
  • あなたのサービスのランキングアルゴリズムを改善する因果モデル - Qiita

    これは何か、誰を対象としているか 記事は、私の検索機能のランキングアルゴリズム改善の経験則を、半ば後付けで定式化したものです。独学で身につけたものも多く、不正確・不勉強な記述があってもおかしくないので、コメント等で補足いただけるとありがたいです。 以下のような課題感がある方を対象にしています。 (1) ECサイトやらフリマアプリやら就活サイトなどの垂直型検索を対象とし、 (2) nDCGの改善ではなく、ユーザーにコンバージョン(CV)改善が目標 よくある情報検索(Information retrieval)の公開文献では (1) 図書館の蔵書検索や、水平検索課題が念頭におかれている (2) 確立されたベンチマークなどによる部分的な問題の深化 であることが多く、私含めて上記のような問題に直面している方には、応用のために少し工夫が必要だと感じています。記事は、そのための工夫について書かれて

    あなたのサービスのランキングアルゴリズムを改善する因果モデル - Qiita
    sh19910711
    sh19910711 2024/04/29
    "クエリとドキュメントが与えられた時のそのドキュメントの検索位置を変更するので、Rへの介入と見なせます / 情報欲求XがあったときにドキュメントDを検索結果画面で見られた時にCVする確率 を最大化" 2021
  • Airflow Breeze を使ったローカル環境構築

    Airflow Breeze を使ったローカル環境構築 フューチャー株式会社 多賀 聡一朗

    Airflow Breeze を使ったローカル環境構築
    sh19910711
    sh19910711 2024/04/29
    "Airflow Breeze: 公式が提供している Airflow の 開発 と テストのための環境 + ローカル開発、CI 向け + Docker Compose ベースで構築 / DAGファイルやcustom pluginsを適用できる" 2021
  • PuLPで解く最適割当問題と最適輸送問題 - Qiita

    Collecting pulp [?25l Downloading https://files.pythonhosted.org/packages/14/c4/0eec14a0123209c261de6ff154ef3be5cad3fd557c084f468356662e0585/PuLP-2.4-py3-none-any.whl (40.6MB) [K |████████████████████████████████| 40.6MB 75kB/s [?25hCollecting amply>=0.1.2 Downloading https://files.pythonhosted.org/packages/f3/c5/dfa09dd2595a2ab2ab4e6fa7bebef9565812722e1980d04b0edce5032066/amply-0.1.4-py3-none-any

    PuLPで解く最適割当問題と最適輸送問題 - Qiita
    sh19910711
    sh19910711 2024/04/29
    "最適割当問題: 「工場」と「店舗」が同じ数だけ存在 + 工場と店舗の契約は一対一しか認めない + 契約によって生じるコストの最小化 / 最適輸送問題で新たに加わった設定は、工場の「供給量」と店舗の「需要量」" 2021
  • 情報処理安全確保支援士試験に合格したので色々まとめてみた - Qiita

    過去の関連記事 情報処理安全確保支援士試験 勉強の備忘録 情報処理安全確保支援士試験のセキュアプログラミングの暗記事項 情報処理安全確保支援士試験頻出のCVSSの評価基準は紛らわしいので備忘録メモ 情報処理安全確保支援士試験とは? 情報処理技術者試験の試験区分のうちレベル4に分類されている高度試験のうちの1つです。2016年までは情報セキュリティスペシャリスト試験という名称でした。2017年から試験合格後、情報処理安全確保支援士としての登録を行わなければ、情報処理安全確保支援士と名乗ってはならないという法律が施行されました。名称が変更されたことで、資格の名称から資格の内容がいまいちピンと来なくなりました。「ダサい」という意見も有る様です。よって「登録セキスペ」なる通称も使って良いということになりました。それなら最初から名称を変更しない方が良かったのではないかと思うのは筆者だけでしょうか。。

    情報処理安全確保支援士試験に合格したので色々まとめてみた - Qiita
    sh19910711
    sh19910711 2024/04/29
    "午前試験は過去問からの使い回し問題が多いことで知られています / 1回目の受験で、午後Ⅱが数点足りずに不合格になりました / 午後Ⅱは120分という長丁場 + ペース配分を誤り、時間が足らなくなってしまい" 2021
  • AzureのAutoMLに化合物の活性予測の勝負を挑んでみた話 - Qiita

    はじめに Azure Machine Learningで自動的にモデルが作れるらしい。 そこで化合物の予測モデルの精度で勝負を挑んでみた。 対象データ この分野では実験から得られる教師データは少な目で、化学構造から得られる説明変数(記述子)は数千から場合によっては数万となるのが1つの特徴である。 精度が出やすいデータの場合、予測方法が優れているかどうか分かりにくいため、データ数が少なく、精度がやや低目のデータとして「化学のためのPythonによるデータ解析・機械学習入門」の6章の、データ数 114 件、 R^2 が 0.7 程度の以下データを選定した。 https://github.com/hkaneko1985/python_data_analysis_ohmsha/blob/master/sample_data/molecules_with_pIC50.csv 比較方法 比較方法は以下

    AzureのAutoMLに化合物の活性予測の勝負を挑んでみた話 - Qiita
    sh19910711
    sh19910711 2024/04/29
    "難しい小データに対しアンサンブル学習により高い汎化能力をもつモデルを構築 / 大規模なデータで勝負した場合、負ける可能性が非常に高い / モデル構築はAutoMLにまかせ、人は説明性の向上などに注力した方がよい" 2021
  • 1年の独学でTOEICを115点上げた話 - EverLearning!

    教育ICTの話題を扱うブログらしく、今日は学生から社会人まで関心が高いとされている「TOEIC」について書いてみます。 当方は幼稚園から小学校1年生の2年弱アメリカに住んでいたり、高校で2週間のホームステイを経験したり、入社から約5年間仕事英語を使う部門にいたりと、幼少期から英語に触れる機会が多い方だった割にはTOEICの点数が低かったのです。それは、仕事英語を使う相手はノンネイティブなアジア圏向けが多く、「中3レベルで良いから簡単な表現で正確に伝わること」を重要視した故、表現の幅が広がらなかったせいだと思います(一方で、とにかく”相手を動かす”ために多少の文法やスペルミスは臆せず書く・話すこと、わからなければ何度でも聞き返す・確認するといった”度胸”は随分身につきましたが)。 入社から5年経過した後は、英語を全く使わない部門に異動になったので、このままだと英語力が落ちてしまうし、今

    1年の独学でTOEICを115点上げた話 - EverLearning!
    sh19910711
    sh19910711 2024/04/29
    "Appleの発表会を欠かさず見る / 新商品発表会のプレゼン(Keynote)は、比較的ゆっくりはっきりとした英語で話してくれるし、平易な単語が中心なのでリスニング教材として良い" 2017
  • NIPS 2016 Adversarial Training Workshop 体験記 - Qiita

    去年参加したNIPS Adversarial Training Workshopについて書きます。 Advent Calendarに投稿するはずだったのですが忘れていました...すみません。 動画が全て上がっているので詳しく知りたい人はそれを見るといいと思います。 https://www.facebook.com/groups/675606912596390/ あとHuszarのBlogとかにももっといいまとめが上がっているのでそれもおすすめです。またGANは曖昧な部分が多かったり理解が甘くて、とんちんかんなことを書いていたりかもしれませんがそこは悪しからず。 Adversarial Training Workshopとは Generative Adversarial NetworksとAdversarial example関連 (virtual adversarial trainingと

    NIPS 2016 Adversarial Training Workshop 体験記 - Qiita
    sh19910711
    sh19910711 2024/04/29
    "2015年がVAEの年だとしたら2016年はやはりGANの年 / GAN: ミニマックス問題でかつバッチ学習してるせいで少なくともトレーニングしているときのlossを見るだけでは学習が進んだが判断できません" 2017
  • 格ゲーで人を殴れ - カエサル 文章 書く

    格ゲーで人を殴れ。ボタンを叩いて危害を加え、対戦相手の自由を侵害しろ。 今回つらつらと書いていくのは、格ゲー、つまり対戦格闘ゲームのことだ。ゲーム画面の上の方に体力を示すバーがあり、キャラクターを操って相手にダメージを与えて倒すことが目的のゲームのことだ。私は一桁の年齢の頃から格ゲーをプレイしており、人生の半分以上を格闘ゲームと共に歩んできたことになる。しかし誤解するといけないので先に言っておくが、別段私は格ゲーの強いプレイヤーという訳ではない。むしろ下手だ。私は格ゲーをしていて、喜んだり楽しんだりしている時間よりも、対戦相手にギタギタに滅ぼされ怒りに打ち震え顔を真っ赤にしキレている時間の方が長いだろう。では何故長いことプレイしてもちぃとも上手くならない私が格ゲーを続けているかというと、それは格ゲーには魅力があるからだ。 そう、魅力だ。ちゃおちゅーるが数多のネコに取って魅力的なように、格闘

    格ゲーで人を殴れ - カエサル 文章 書く
    sh19910711
    sh19910711 2024/04/29
    "あなたの入力に対し返ってくる反応には人間の数だけ可能性がある / そこそこの数のキャラクター選択があり、そこでもう対戦相手による反応が違いことが保証され、即ちゲーム体験を新鮮なものにする" 2018
  • 【書籍メモ】『Pythonによる金融テキストマイニング』(朝倉書店) - u++の備忘録

    Pythonによる金融テキストマイニング』(朝倉書店)を読みました。180 ページ弱で金融関連文書を題材にした話題がまとまっていて、この領域に飛び込む初学者向けに紹介しやすい書籍だと感じました。 www.asakura.co.jp 章立てを以下に示します。第 1 章で全体像を示した後、第 2 、 3 章で開発環境構築と MeCab などのツール・ライブラリを紹介します。第 4 章から第 7 章は、応用事例です。最後に第 8 章で、書籍内で扱えなかった話題や将来展望を解説しています。 金融テイストマイニングの概要 金融データ解析・機械学習の環境構築 テキストマイニングツールの使い方 多変量解析を用いた日銀レポート解析と債券市場予測 深層学習を用いた価格予想 ブートストラップ法を用いた業績要因抽出法 決算短信テキストからの因果関係の抽出 金融テキストマイニング応用の課題を将来 まず、第 4

    【書籍メモ】『Pythonによる金融テキストマイニング』(朝倉書店) - u++の備忘録
    sh19910711
    sh19910711 2024/04/29
    "金融テキストマイニングというと金融時系列予測を想像しがち / 第 6 章で業績要因、第 7 章で因果関係の抽出なども応用事例として紹介 / 7章: 決算短信テキストからの因果関係の抽出" 2022