サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
買ってよかったもの
0b95231b.chezo-uno.pages.dev
データリネージとは、DBなどでどのデータがどこから来てどこに行った、という「来歴」とも呼ばれる情報です。 自分がこの言葉を知ったのは、前職でCloudera Navigatorという製品を扱ったときにこの機能が実装されていることを知りました。 引き継いだ複雑なSQLなどのワークフローを渡されたときに、どういう流れになっているのかを可視化できるのがとても魅力でした。 Cloudera Navigatorのlineage。 https://docs.cloudera.com/documentation/enterprise/6/6.3/topics/cn_lineage_generation.html よりそんなlineageですが、Pythonの sqllineage というパッケージで分析・可視化できることを知りました。 sqllineage は Pythonで実装されているSQLのlin
こんにちは、早いものでもう40の大台が迫ってくる誕生日を迎えました。前日にブースターショットを打ったので、一日中ほとんど寝込んでいました。必要な人のために、例のリストを置いておきます。 さて、Hugoにはキーワードベースの関連記事の表示をする機能があります。 しかし、キーワードベースの関連記事も悪くはないのですが、折角なので自分で関連記事のレコメンドをしてみたくないですか? そう思っていたら、 takuti さんの Prelims というオープンソースを見つけました。 Prelimsは、Hugo(やJekyll)のFront matterと呼ばれるメタデータの部分にキーワードやレコメンド記事を足してくれるものになります。 レコメンドの方式自体は、今実装されているのは古典的なTF-IDFを用いたコンテンツベースの類似文書を出してくる方式ですが、Front matterを後から処理してレコメン
この記事はpyspa Advent Calender 2021の18日目です。昨日は@golden_luckyのリンゴの話でした。 今年も早いもので12月になってしまいました。 実は6月にもkawasaki.rbでこんな話をしていたのですが、今年4月にグレーターバンクーバーエリア(東京圏みたいな感じ)に家族で移住したので、ぼちぼちと一年振り返って生存報告を書こうと思います。 カナダもリンゴの種類は豊富で、毎日食べてます。酸味が多い種が多く売られていますが、フジなんかもこちらで栽培したものが手に入ります。 四季が豊か春はあちこちに植えられた桜がお出迎えしてくれましたが、(熱波も来たけど)30度を超えることがまずない乾燥した爽やかな夏、色とりどりの紅葉がきれいな秋、たまに雪が降る冬と、とても変化がはっきりしています。東京より少し寒い地域にいるのとあまり変わらない感じですね。
Table of Contents4/23に「仕事ではじめる機械学習 第2版」をtokorotenさんとhagino3000さんとともに出版しました。 電子版は、Kindleでは購入できない 1 のでぜひオライリー・ジャパンのサイトからDRMフリーのPDF、EPUBをご購入ください。 コードは今回はGitHubとGoogle Colaboratoryにあります。詳しくは、GitHubのレポジトリをご覧ください。 https://github.com/oreilly-japan/ml-at-work なお、第一版のコードは1st-editionタグにあります。 同人誌や初版のEbookが出た2017年から4年の歳月を経て、この度改訂版を出すこととなりました。 皆さまのおかげでAmazonの書籍ランキングでも、予約のタイミングなのに10位になったこともあったそうです。ありがたい限りです。 [2
このお話は、pyspaアドベントカレンダーの11日目です。昨日はwozozoでした。多分彼はこの記事をチラ見して「長過ぎる。地雷乙」と言うでしょう。 3階建ての家でインターネットを安定させるために、NETGEARのOrbiというメッシュWiFiを構築していたのだが、どうにも調子が悪いので有線LANを張り巡らせました。これはその奮闘記です。なお、筆者はネットワーク系は素人なので用語などが不正確な場合がありますががあしからず。あと、面倒なので以降語尾はですます調じゃなくなります。 メッシュWiFi購入事前にメッシュWiFIを色々調べたが、どうもNETGEARのOrbiが良いらしいという話を聞いていた。NETGEARが素晴らしいのは購入前にこういう環境だけどどのモデルを買えば良いのか?という相談をできること。これは素晴らしい。当時WiFi-6対応のモデルは出ておらずでかい筐体のOrbiと日本向け
@masaru_dobashiさん共同で、機械学習工学研究会(MLSE)本番適用のためのインフラと運用WG主催の、「機械学習基盤 本番適用と運用の事例・知見共有会」をオンライン開催しました。 イベントのconnpassは以下のリンクです。 機械学習基盤 本番適用と運用の事例・知見共有会 @wakame1367さんによるツイートのまとめはこちらです。 機械学習基盤 本番適用と運用の事例・知見共有会 ツイートまとめ YouTubeの動画YouTube Liveの配信はアーカイブとして見ることができます。 当日の資料 感想今回、僕は企画とCfP系のとりまとめ、当日は配信担当をさせていただきました。当日の司会進行は土橋さんにおまかせをしてしまったのですが、いつもながら質疑応答の仕切り力は素晴らしい限りだなと思いながら聞いていました。 今回のトピックは、機械学習チームが解散したという衝撃的な話からは
@masaru_dobashiさんとMLSEの夏合宿で、本番適用のためのインフラと運用WGの討論会を開催しました。 WGのモチベーションはMLSEのサイトをご確認ください。 MLSEの夏合宿自体の概要は、@ysk_motoさんがまとめてくださった記事がわかりやすいと思います。Discordを中心に130名を超える参加者がオンラインで様々な議論をするというスタイルでした。 機械学習工学研究会(MLSE)夏合宿 2020に参加しました 実は我々のWGの討論会自体は第一回はオフラインで開催しました。そちらのまとめはGitHubにあります。よければ御覧ください。 今回の討論会のまとめは、以下の2つのトピックについて議論をしました。 機械学習における監視・観測とアーキテクチャ例責任分解とシステムもう少ししたらGitHubのレポジトリにまとめを上げる予定ですが、その中から興味深かった話題を紹介したいと
disclaimer: この記事を書いている人はClouderaというHadoop/Sparkのディストリビューターの会社にいます。 codelunch.fmの20回目を聞いていろいろ思うところがあったのでつらつら買いてみます。 codelunch.fmこの回のcodelunch.fmでは、前職の同僚である丸山さん(@h13i32maru)と@hokacchaさんが、お互いの家庭環境の変化を交えながら個人プロダクトの開発について話しているエピソードです。これ自体なかなかおもしろい回なので、趣味でプロダクト開発している人は聞いてみるといいんじゃないかなと思います。 丸山さんはJasperやESDocを精力的に開発していますし、hokacchaさんはnodebrewやadventarを作られています。彼らの話していた、個人で趣味プロダクトを開発するモチベーションは何かというところは、以下のよう
先日、Machine Learning Casual Talks #12というイベントの配信担当をした。 会社ではZoomを使っているけど、Google Meetが今なら無料で使わせてもらえるということで、ありがたくMeetで発表をしてそれをYouTube Liveで流すということをした。 ライブでの配信は同時参加者ピークで250名くらいで、配信も一瞬ネットワークの問題で乱れが発生したが、ほかは概ね安定していた。 世の中のイベントの配信情報は、ZoomばかりでGoogle Meetでやっている例があまり見当たらなく、あっても細かいOBSのレイアウトどうしたんだよ!と思っていたので、ここに書いていく。 tl;drMeetでOBS自前配信はしんどいのでZoomが使えたらそちらを使いましょうリハーサルは大事。特に発表者の接続チェックはしましょう構成Google Meet -> OBS -> Yo
Q: うわっ…ワタシのモデル過学習してる…?機械学習をしていると、「やったほぼ100%の性能でました!」みたいな話がちょこちょこでて、その度に「あー、はいはい過学習乙」とか「leakageじゃね?」とかいう話になると思います。 過学習というのは、とても雑に言うと「学習に使ったデータに対してはバッチリ正解できるけど、知らないデータに対しては全然当たらない」というモデルのことを指します。 昔センター試験の英語を受けた年に突如出題傾向が変わったのですが、塾でバッチリ対策をしていた人々が「うわー、今年傾向変わって全然解けなかったー。きっと他の人も解けなかったよね」という話をしていたのですが、今思うとこれもある意味過学習ですね。 この辺は、PRMLなんかから伝統的に説明される、回帰モデルに対して高次のモデルをフィットさせていくと、やり過ぎになるよねみたいな話が書いてあります。 パターン認識と機械学習
Table of Contentsこの記事は、Arm Treasure Data Advent Calendar 2019の24日目です。 今年の夏に新しくTreasure Dataで使えるようになったPython Custom Scriptingですが、 開発する際にどういう点を気をつければ良いのかという質問をいただくことが多いので、 今日はTreasure Workflowとdigdagのpy> operatorを使った開発の際に気をつけることを書いて行こうと思います。 なお、Treasure WorkflowとありますがOSSのdigdagでも活かせる内容があると思います。 なお、既にPython Custom Scriptingが試せる環境にある方は、このGoogle Colab notebook https://bit.ly/191212_cs で一通り試すことが出来ます。 wo
他の著者の記事などでいろいろと話題になっていますが、「TCPの再送制御機構」から『「コルーチン」とは何だったのか?』、そして僕の書いたMLOpsの話までと、幅広いテーマが取り扱われています。 個人的には、グルドンで宣伝したおかげかITmedia NEWSデビューしたのでちょっと嬉しかったです。 僕が書いた内容はMLOpsと呼ばれる、機械学習システムやプラットフォームで皆が手探りに行っている本番環境への適用や運用が、なぜ機械学習が絡むと難しいか、どういうアプローチがあるのか、といったところを(網羅的ではないかもしれませんが)ある種サーベイ論文のような形でまとめてみました。良ければ読んでいただいて感想を聞けると嬉しいです。 寄稿するまでにしたこと「n月刊ラムダノート」は皆様の記事の寄稿を受け付けています。詳しくは以下の記事をお読みいただければと思います。 ターゲットとしている記事は、上記の記事
I attended RubyKaigi 2019 held at Fukuoka from Apr 18 to Apr 21. This year’s RubyKaigi was a really great opportunity for me to know the possibility of Data Science and Machine Learning for Ruby. Data Science and RubyAs many of you may know, Ruby is widely known for web application with such as Ruby on Rails, but there is another momentum of Ruby or non-Python language. Here is the list of the ses
このページを最初にブックマークしてみませんか?
『Democratizing Data』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く