言語処理100本ノック 2020 (Rev 2) 言語処理100本ノックは,実用的でワクワクするような課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です. 詳細 ツイート
メルカリで写真検索とEdge AIチームに所属している澁井(しぶい)です。機械学習のモデルを本番サービスに組み込むための設計やワークフローをパターンにして公開しました。 GithubでOSSとして公開しているので、興味ある方はぜひご笑覧ください! PRやIssueも受け付けています。私の作ったパターン以外にも、有用なパターンやアンチパターンがあれば共有してみてください! GitHub:https://github.com/mercari/ml-system-design-pattern GitHub Pages:https://mercari.github.io/ml-system-design-pattern/README_ja.html なぜ機械学習システムのデザインパターンが必要なのか 機械学習モデルが価値を発揮するためには本番サービスや社内システムで利用される必要があります。そのた
GA4、導入しないといけないと思っていても、さっぱりわからんからやる気がしなくてどうしよう?ってなる時がありますよね。私も数か月前まではそんな感じでした。正直なところギリギリまで逃げ回りたかったんですが、そうもいかなくなったので勉強することに。 ではなんで「わからん」となってしまうのでしょうか?そこがわかれば対応もできるので「わからん」理由と解消法をまとめてみました。 「Google アナリティクス」と名乗っているところ ここがわからなくしている一番の原因です。Google アナリティクスと名乗っているので、今までのGoogle アナリティクスの延長線上にあるものだと思ってしまうんですが、全くの別物で生まれも育ちも違っています。 今までのGoogle アナリティクス UrchinはGoogleアナリティクスの元となった製品。グーグルに買収されGoogleアナリティクスがリリースされた後も、
こんにちは、Exploratoryの白戸です。 Appleは新型コロナウイルスの対策支援として、Appleマップでの経路検索をもとにした移動傾向のデータを公開しています。ところが、残念ながらこのデータはそのままでは簡単に可視化できるようなフォーマットになっておらず、ちょっとした加工を行う必要があります。 しかし逆に、加工の仕方さえわかってしまえばそれぞれの都市や地域の移動データを可視化することで、恐怖を煽るばかりのマスコミからは見えてこない現状を理解することができるようになります。 今回はこのAppleの移動傾向データを簡単に可視化できるようにするための基本的な加工方法を、みなさんと共有させていただければと思います。 データはこちらからダウンロードすることができます。 以下は「モダンでシンプルなUIを使ってデータサイエンスができる」Exploratoryを使って、「日本で最も自粛している都
はじめに# データビジュアライゼーションとは,数値や文章などのデータに基づいた情報を,人間が理解しやすい形に視覚化する技術を指します. このサイトは,文化庁のメディア芸術データベース・ラボ(MADB Lab)で公開されている四大少年誌( 週刊少年サンデー, 週刊少年ジャンプ, 週刊少年チャンピオン, 週刊少年マガジン )のデータを用いて,データビジュアライゼーションの学習を手助けすることを目指しています. データビジュアライゼーション(に限らずデータ分析全般)の学習において重要なのは,分析対象のデータに興味を持てるかどうかです. 本書では約47年の四大少年誌のマンガ作品データを採用しているため,モチベーションを保ちつつ学習を進めることが可能です.
Cloubhouse はすでに OSS である Janus Gateway に切り替えており Agora は使用していないようです ライセンス Creative Commons — 表示 - 非営利 - 改変禁止 4.0 国際 — CC BY-NC-ND 4.0 前提 @suthio_さんがつぶやいていたのがきっかけ https://twitter.com/suthio_/status/1353945619577008128?s=20 招待してくれた @dmnlk さんに感謝 DNS パケット見ただけ 他の方の解析は見ていない クライアント側の処理は知らない 気が向いたら更新している 著者 商用 WebRTC SFU 開発者 WebRTC プロトコルスタック実装者 End to End Encryption プロトコルスタック実装者 IRIAM 配信サーバ設計者 妄想 求人にメディアサーバ
これから異常検知を勉強される初心者、中級者の方のために一問一答集を作ってみました。 実際にあった質問も含まれますが、ほとんどの質問は、私が勉強しながら疑問に思ったことです。 なお、各質問には私の失敗談を添えております。皆さんは私のような失敗をしないよう 祈っております(^^)。異常検知に特化した内容となっておりますので、ご了承ください。 初心者の方向け 勉強の仕方編 Q:異常検知を勉強したいのですが、何から手をつけて良いのか分かりません。 A:書籍を買って読むのがおススメです。 最初、私はネット情報で勉強していました。しかし、それにも限界があります。 ところが、書籍(入門 機械学習による異常検知)を買って読んだところ、かなり知識を 得ることができました。最初から、書籍を買っていれば、一年くらい得することができたのに... と思うこともあります(^^; ただ、こちらの本はディープラーニング系
中堅~大手サイトに「お金を払うので私のコンテンツをあなたのサイトに置きたい」という営業が広範囲に行われています。 指定されるコンテンツを置くだけで毎月固定額の報酬の他、そのコンテンツから発生したアフィリエイト収入の数割を払うという好条件が提示されていて、検討する会社も多くあるようです。これは2019年頃からごく一部の大手サイトで見られましたが、最近ではその営業を行う会社も増え、地方のメディアや地場企業などにも同様の営業が増え、拡大を続けています。 わたしはこの試みを、それぞれのサイトに寄生して価値を吸い取ろうとする「寄生サイト」と呼んでいます。 これは寄生される側に大きなリスクを伴います。自社サイトが大きなダメージを受ける可能性が高いため、検索流入が必要な場合この営業は絶対に受けてはなりません。 この記事では「寄生サイト」がどういう経緯で生まれたのか、そしてそのリスクについて説明します。
新型コロナ禍が我が国の政治の深刻な問題をあぶり出しています。一市民としては支持する政治家を本腰入れて検討しなければいけません。 個人的な問題意識は主に「労働」と「財政」にありますので、これらの問題に積極的に取り組んでくれる方がいいです。今回のコロナ禍でこの2つは本当に切実な問題になりました。反対に「脱原発」とか「改憲」はやめてほしいかな……「財政再建」とかも当然ムリ!あ、もちろん国政の話です。 そんな訳でデータの力で問題意識の合う現職国会議員を探してみました。使うのはみんな大好きPython3 on Google colab(Jupyter notebook)です。技術的な話を飛ばして結論だけ見たい方はこちらからどうぞ。 やったこと まずはTwitterをやっているすべての現職国会議員のTweetを一人当たり最新1000件ほど取得します。現職国会議員のアカウント一覧は国会議員いちらんリスト
技術的負債を抱えたレガシーコード。変なメソッド名と入り組んだロジック、リファクタリングするならどちらが先?(前編) ソフトウェアの品質をテーマに研究をしている名古屋大学 森崎研究室は、ソフトウェアの技術的負債をなんらかの形で数値化する手法の研究の一環として、コードの読みにくさの原因となる要因などを分析した研究結果を発表するイベントをオンラインで開催しました。 今回発表された研究では、技術的負債を抱えたレガシーコードのリファクタリングで取り除かれた問題の90%以上が、メソッド名と実際の関数の動作が一致していない、あるいは関数名とコメントが矛盾しているなどの「命名的問題」、もしくは複雑で読みにくい多数の条件分岐や深いネストなどを抱えた「構造的問題」のいずれかであるという先行研究があることを踏まえ、どちらを優先してリファクタリングすると保守性や可読性が高くなるかを調査しています。 具体的には、命
後編 プログラミングを学ぼうと思い立つ行列はVBAなんかじゃ無理っぽいし、なんかプログラミング言語を覚えようと決める。 なんでも、統計やるならRという言語がいいらしい。 最近じゃPythonというのも人気らしい。 とりあえず両方試そうということで、RのためにRとRstudioをインストール。 Pythonはanaconda プログラミングはなんかを製作する目標がないと挫折すると聞いていたので。 深層学習というものが流行ってると聞いて、ちょっと触りを勉強したくなる。 「Excelでわかるディープラーニング超入門」 https://www.amazon.co.jp/Excel%E3%81%A7%E3%82%8F%E3%81%8B%E3%82%8B%E3%83%87%E3%82%A3%E3%83%BC%E3%83%97%E3%83%A9%E3%83%BC%E3%83%8B%E3%83%B3%E3
国土交通省の建設工事受注動態統計調査に不正があったと報道されているが、正確に把握している人はほとんどいないと思う。そこで、まとめる。 問題点は、「合算処理」と「二重計上」の2点。 このうち、重要なのが「二重計上」なのだが、先に「合算処理」から説明しよう。 ◆合算処理とは 合算処理とは、提出の遅れた月の調査票の数値を、後の月に合算して計上する処理のことである。 建設工事受注動態統計調査は、対象企業から毎月調査票を提出してもらう。この提出期限が対象月の翌月10日であり、非常に締め切りがタイトである。 だから、締め切りを過ぎて出されることが多々あった。 そうやって遅れて出された月の数値について、遡って修正するのも手間がかかる。 そこで、後の月に合算して計上していたのだ。 これは具体例で考えると分かりやすいので、下記のような例を想定してみよう。 ・ある企業は、1月分の調査票について、締め切り日(2
わ、去年2023-08-26にこの記事書いたんだね。まる1年だね。2024年版機械学習・データ分析の必須10冊+ガチ90冊+Next5冊=105冊書きましたよ。 【データ分析の必読10冊+差をつける10冊+100冊超】データサイエンス、データ分析、機械学習関連の本がご好評いただいてましたが古くなりごちゃごちゃしているので新たに作り直しました 本記事のめあて IT系の技術者の方がデータ分析関連の仕事をするために役立つ本を紹介する(私が学び始めた時にあれば欣喜雀躍したであろう)記事として書いております。 本記事作者の青木はバイオインフォマティクス(ゲノムデータのDB化中心・Perl・MySQL)からRで時系列分析→Pythonでデータ分析一般と業務をしてまいりました。 ですので研究者目的の本はありません。また、データ分析の基礎は主にRで学んだのですが、昨今の流行に合わせてPython本を中心に
# Event データモデリングとデータ基盤の構築・運用 (第14回ちゅらコラボ)CARTA HOLDINGS x ちゅらデータ 合同イベント https://churadata.connpass.com/event/254417/ ぼくのかんがえる最高のレポーティング基盤 https://speakerdeck.com/pei0804/hokufalsekankaeruzui-gao-falserehoteinkuji-pan-at-awsdeshi-jian-analytics-modernization ディメンションモデリングモデリング https://zenn.dev/pei0804/articles/dimensional-modeling スタースキーマ https://zenn.dev/pei0804/articles/star-schema-design コンフォ
初めて使ったBIツールはLooker Studioのid:syou6162です。これまでTableau / Looker(≠ Looker Studio) / Metabase / Redash / Connected Sheetsなど色々なBIツールを触ってきましたが、不満は色々ありつつも個人的に一番しっくりきて愛着があるのはLooker Studioです。このエントリでは、その魅力と便利な使い方や注意点について書きます。例によって、社内勉強会向けの内容を外向けに公開しているため、内容の網羅性などは特に担保していないことにご注意ください。 Looker Studioの魅力 利用のハードルが限りなく低い & Google Workspaceとの連携が便利 複雑過ぎることができないので、諦めが付けやすい ちゃんとBIツールになっている Looker Studioの便利な使い方 多様なデータソ
こんにちはあるいはこんばんは。村山(twitter id:muraweb_net)です。 ユニバーサルアナリティクスを見ようとすると、アラートが表示されるようになりましたね。本格的に GA4 のことを考える方も増えてきたのではないでしょうか。 GA360 のプロパティや GA4 プロパティが存在するのに、アラートが一括で表示される手法は、不必要に不安を煽るだけに思われますが、全ての人を GA4 プロパティへ移行させるためにはこの手法が必要なのかもしれません…。 この手法に効果があったのか不明ですが、Googleアナリティクス のヘルプコミュニティでも GA4 の質問が増えてきたように見えます。また、ヘルプコミュニティへの投稿やお客様のヒアリングから、 GA4 がわからなくてこわいといった心理があるように感じます。 そのため今回は、 GA4 がわからなくてこわい方向けに、 GA4 の理解力を
月刊『創』(つくる)最新号の5月号は特集「マンガ・アニメ市場の変貌」。毎年この時期に掲載しているマンガ特集だが、この何年か、デジタル化の影響でマンガ界に大きな変化が現れつつある。 というより、マンガはいま大きな歴史的局面を迎えているのだが、どうも新聞などの大手メディアではあまりそのことが大きなニュースになっていない。ここで『創』5月号特集の総論をもとに、そのことの意味を考えてみたい。ちなみにマンガだけでなくアニメもまた、今大きな変革期を迎えている。日本テレビやテレビ朝日などテレビ局が次々とアニメ事業部といったものを社内に設けるようになっているのもその現れだ。 2020年はまさにマンガの歴史においてエポックメイクな年と言えるだろう。 マンガ黄金時代の総販売額を上回ったという驚き 出版科学研究所の調査データによると、電子を含めたマンガ全体の推定販売金額が、これまでピークとされてきた1995年を
Loading...
2015 年 4 月 12 日に Chainer の最初のコードをコミットしてから,およそ 4 年半と少しが経ちました.はじめのはじめは軽い気持ちで書きはじめたコードでしたが,今では一線級の研究を立派に支えるまでになりました.深層学習フレームワークの世界も当時とは様変わりして(当時は TensorFlow も PyTorch もなかったわけですから,本当に変わりました),思えば遠くにきたものです. 今日,PFN は社内の研究開発に用いる主なフレームワークを PyTorch に移行すると発表しました.会社にとってももちろんですが,業務としてはこの 4 年半,Chainer 一筋でやってきた自分にとっては特に,大きな転換点です. まず率直な感想として,Chainer の開発は本当に楽しかったです.書きはじめた頃は,深層学習フレームワーク競争の真っ只中で,Theano の上に乗っかるフレームワー
RNG。もともとはRandom Number Generator、つまりは乱数を発生させる仕組みそのものを指していたこの略語は、転じてゲーマーにとっては「運要素」そのものを指す言葉となっている。RNGはスピードランナー達にとって最大の敵でもある。そして「いかにして自分の走るルートからRNGを排除するか」に心血を注ぐスピードランナー達、その一人が『ゼルダ』シリーズの走者として知られるLinkus7氏である。彼が今回RNGの魔の手から解放したタイトルは『ゼルダの伝説 風のタクト』(以下、『風のタクト』)、特にそのゲーム中に登場する「海戦ゲーム」だ。Linkus7氏はその戦いの軌跡を解説動画としてアップロードし、大きな反響を呼んだ。本記事では「我々がいかにしてゼルダシリーズ最悪のミニゲームに決着をつけたか」というタイトルのその動画の内容の、日本語での解説を試みる。なお解析が成功されたのは2020
ちょっと前に、しょうもないことを某所で放言したら思いの外拡散されてしまいました。 機械学習の説明可能性(解釈性)、大半のケースで求められているのは厳密な分類・回帰根拠ではなく受け手の「納得感」なので、特に実ビジネス上は説明可能性に長けたモデルを開発するより、納得できないお客さんを巧みに関係性構築した上で口八丁で完璧に説得できる凄腕営業ピープルを雇う方が重要— TJO (@TJO_datasci) 2019年11月23日 これ自体は与太話なので実際どうでも良い*1のですが、最近色々な研究や技術開発の進展はたまた実務家による考察などを見ていて、「機械学習の説明可能性(解釈性)というのは思った以上に複雑な迷宮だ」と感じることがままあったのでした。 ということで、今回の記事では僕のサーベイの範囲でザッと見て目についた資料などを超絶大雑把にリストアップした上で、主に実務における説明可能性とは何かとい
ちょっと昔まではデータ基盤の管理人・アーキテクト, 現在は思いっきりクラウドアーキを扱うコンサルタントになったマンです. 私自身の経験・スキル・このブログに書いているコンテンツの関係で, 「データ基盤って何を使って作ればいいの?」的なHow(もしくはWhere)の相談. 「Googleのビッグクエリーってやつがいいと聞いたけど何ができるの?」的な個別のサービスに対するご相談. 「ぶっちゃけおいくらかかりますか💸」というHow much?な話. 有り難くもこのようなお話をよくお受けしています. が, (仕事以外の営みにおける)個人としては毎度同じ話をするのはまあまあ疲れるので, データ基盤にありがちな「何を使って作ればよいか?」という問いに対する処方箋 というテーマで, クラウド上でデータ基盤を構築する際のサービスの選び方 (データ基盤に限らず)クラウド料金の基本的な考え方 をGoogle
「データサイエンティストと名乗るのは厚かましいというか、自分はむしろ外れ値です」そう切り出した小野寺和樹さんは現在、DeNAのAI本部データサイエンス第一グループに所属している。 確かにデータサイエンティストには数学や物理学の修士や博士といった理系のバックグラウンドを有する人が多い中、小野寺さんは経済学部出身で数学の知識も「二次関数の頂点がわかるくらい」だという。 そんな小野寺さんだがKaggle Grandmaster(カグル グランドマスター)という称号を持っている。世界では163人、日本では10人程度しかいない(2019年11月現在)。 【補足説明】Kaggle(カグル)とは、データサイエンティストや機械学習エンジニアが集まる世界最大のコミュニティ。大きな特徴は、誰でも参加可能なコンペティションがあることだ。世界中の企業や研究機関などが提供したビッグデータと課題に対し、モデルの精度を
衆議院選挙も間近という10月の頭に,ツイッターの有名右派アカウントは「自民党」取引企業? 立民・小西議員が名誉毀損で提訴というニュースが流れました. 事の発端は小西ひろゆき議員の以下のツイートです. 小西議員に名誉棄損ツイートを繰り返していたアカウント(@dappi2019)の発信者情報開示を受けたところ,このアカウントの持ち主が法人らしいということが判明したわけです. これまでも,政治的活動を行うアカウントには金銭の授受が発生しているという話は多数ありましたが,法人が運営しているアカウントらしいということで大きな話題になりました. では,このdappi2019というアカウントはどのようなアカウントだったのでしょうか.ツイート内容については元の記事に詳しいため,ここではその行動パターンについて分析してみましょう. 3行でまとめると・dappi2019の運営企業はあんまりブラックではなさそう
Web Vitals Stay organized with collections Save and categorize content based on your preferences. Optimizing for quality of user experience is key to the long-term success of any site on the web. Whether you're a business owner, marketer, or developer, Web Vitals can help you quantify the experience of your site and identify opportunities to improve. Overview Web Vitals is an initiative by Google
This interactive charts the new {{selectedData.toLowerCase()}} of COVID-19 in the past week vs. the total {{selectedData.toLowerCase()}} to date. When plotted in this way, exponential growth is represented as a straight line that slopes upwards. Notice that almost all countries follow a very similar path of exponential growth. We're all in this together. Learn more. To learn more about this graph,
Googleは検索エンジンだけではなく、GmailやGoogleドキュメント、Googleアナリティクス、Googleスプレッドシートなど、さまざまなサービスを無料で提供しています。しかし、古くから「ただより高いものはない」といわれるように、無料で提供されるのにはそれだけの理由があるわけで、ウェブアプリ開発者のキャスパー・ブレーデ氏が「Googleアナリティクスは無料で提供されているが、使うのをやめるべきだ」と主張しています。 Google Analytics: Stop feeding the beast | Caspar von Wrede https://casparwre.de/blog/stop-using-google-analytics/ 近年のGoogleは検索エンジンを運営する小さく風変わりな会社ではなく、巨大な多国籍企業となりました。Googleの主な事業は検索エンジン
プロローグ ストーリー編 第1章 感銘 step1. KPIの設定 step2. データの観測構造をモデル化する step3. 解くべき問題を特定する step4. 観測データのみを用いて問題を解く方法を考える step5. 機械学習モデルを学習する step6. 施策を導入する 第2章 絶望 第3章 反省 第4章 再起 step1(再) KPIの設定 step2(再) データの観測構造をモデル化する step3(再) 解くべき問題を特定する step4(再) 観測データのみを用いて問題を解く方法を考える step5(再) 機械学習モデルを学習する step6(再) 施策を導入する 第5章 俺たちの戦いはこれからだ! 実装編 準備 擬似データの生成 意思決定モデルの学習 モデルのオフ方策評価 モデルの真の性能の評価 まとめ この記事を読んだ方はこんな記事も読んでいます(多分) @tkana
こんにちは、あるいはこんばんは。村山です。皆さまGoogleアナリティクス4(以下、GA4)との戯れには慣れてきましたでしょうか。GA4の使い方は「完全に理解した」という方もいれば「まだまだこれから計測実装していくから触っていない」みたいな方もいらっしゃるのではないかと思います。 今回は、後者である「これからGA4を計測実装していく」方にむけて、どのようにGA4の計測実装を推進したら良いのか書いていこうと思います。 どのようなイベントを計測するべきか? データに関わる方が1名と少ない場合 データに関わる方が2名以上の場合 データ計測の設計書となるドキュメントが必要だ GA4はさまざまなイベント計測方法がある GA4管理画面内の「イベントの変更」 GA4管理画面内の「イベントの作成」 GA4管理画面内の「オーディエンストリガーイベント」 GTM内からイベントタグの発火 GA4の計測設計にはN
「雑用扱いで名前もない」 データ分析の土台を支える“SQLを叩く人”の重要性を問い直す:これからのAIの話をしよう(データ整備人編)(1/3 ページ) 多くの企業がデータの分析・活用に取り組んでいますが、その中で抜け落ちがちなのが、データ整備の視点です。データベースからデータを抽出・集計して分析者に渡す作業は地味に見えますが、データ分析の土台を支える極めて重要な仕事です。 この役割は、戦争でいうところの「兵站」(へいたん)に当たるほど重要なのではないか――データ分析に関する情報発信を続けるしんゆうさんが、自身のブログでこう問いかけた所、予想以上の反響があったといいます。 ※兵站:戦場で、前線の部隊のために軍需品や食料などの供給・補充を行う機関 しんゆうさんは、データを抽出・集計して分析者に渡す人を「データ整備人」「データアーキテクト」と呼び、データ分析に関する勉強会を開催するなどの啓蒙活動
皆さんは最近「洋楽」を聴いていますか…? ここ数年、音楽業界では「日本の洋楽離れ」が話題になっているようです。 洋楽離れ止まらぬ日本 K-POP人気、邦楽も台頭https://t.co/IvJHSz5Jkl 日本の2023年ストリーミングランキングの上位100曲に洋楽は1曲も入りませんでした。2月の東京公演が話題となったテイラー・スウィフトさんも、2020年代は20位圏内に入っていません。 — 日本経済新聞 電子版(日経電子版) (@nikkei) March 4, 2024 確かに、日本のヒットチャートを席巻しているのはほとんどが日本の音楽かもしれません。一見すると日本独自の現象のようにも思えます。ただ、データから世界を見てみると、少しちがった風景が浮かび上がってきます。 実は「洋楽離れ」は、日本だけの現象ではないようです。世界中で、いわゆる「洋楽」のヒット曲、特にアメリカのポップミュー
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く