タグ

2022年6月6日のブックマーク (20件)

  • NDL Ngram viewerの正規表現検索が面白い - digitalnagasakiのブログ

    正規表現検索といえば、テキスト検索に凝ってる人なら知っているけど、そうでもない人は「何それ?」という感じだと思います。 人文系とか質的研究で電子テキストも扱うことがある社会科学系の人は、絶対に知っていた方がよい技術です、が、そう言われても、「何ができるか」わからないとやる気は全然出てこないと思います。ここで 良いあんばいのツールとして登場したのがNDL Ngram viewerの正規表現検索機能です。 lab.ndl.go.jp 正規表現の「.」を試してみる たとえば、「..新聞」で検索すると、「○○新聞」という検索をしてくれます。 そうすると、以下のように、○○新聞で、数十万冊の明治大正期の資料をざくっと数えてきてくれて、 さらに、新聞ごとにカウントしてグラフにしてくれます。 「正規表現」での検索というのは、「○○新聞」で検索してくれるところまでで、 そのあと分類してカウントしてくれるの

    NDL Ngram viewerの正規表現検索が面白い - digitalnagasakiのブログ
    sh19910711
    sh19910711 2022/06/06
    "たとえば、「..新聞」で検索すると、「○○新聞」という検索をしてくれます / ○○新聞で、数十万冊の明治大正期の資料をざくっと数えてきてくれて、 さらに、新聞ごとにカウントしてグラフにしてくれます"
  • AtCoder 8問体制で水色になるまでにやったこと - Qiita

    1. 概要 2022年2月にAtCoderの水色になりました。 この記事では、AtCoderで水色になるまでに行ったことと、8問体制で水色になるために必要と思われることをまとめます。 2. 準備 私について 私は学生時代にTopCoder等で少し競技プログラミングを経験していました。十数年ぶりに競技プログラミングを再開し、昨年からAtCoderを始めました。そのため事前知識がある状態からスタートし、最初は水色を目標としました。 言語はC++を使うことが多いですが、Pythonの方が解きやすそうな場合はPython3を使います。 環境構築 PCの準備 Linuxで開発したかったので、デスクトップPCと、別用途で契約していたVPS上に開発環境を構築しました。性能が高くないVPSでも開発には十分でした。どのノートPCからでも慣れた環境で開発できるのでVPSは便利でした。 開発ツールの準備 Top

    AtCoder 8問体制で水色になるまでにやったこと - Qiita
    sh19910711
    sh19910711 2022/06/06
    "十数年ぶりに競技プログラミングを再開 / F問題まで、解説やYouTubeの解説を見て、ACを出すまで復習 / 学生時代は”蟻本”の初版が発売されていなかった頃 + 必要な知識を体系的に学ぶことが難しかった"
  • 「最強のポケモンの生成」 - NLP2012のオノマトペ関係の論文 - 唯物是真 @Scaled_Wurm

    言語処理学会18回年次大会で音象徴の機械学習による再現:最強のポケモンの生成という面白そうなタイトルの論文があったので紹介します. 概要 「最強のポケモンの生成」というタイトルですが,ポケモン廃人的な意味ではなくて「どんな名前のポケモンが強そうに聞こえるか」という内容の研究です. いわゆる音象徴と呼ばれる分野の話で,ゴジラやキングギドラなどの怪獣の名前には濁音が多い,という話にも関係してきます. ブーバ/キキ効果 音象徴でよく使われる例としてブーバ/キキ効果と呼ばれるものがあります. 以下の画像に描かれている2つの図形に対して「どちらがブーバでどちらがキキと思うか?」とたずねます. (ファイル:BoobaKiki.png - Wikipedia, Drawn by Andrew Dunn, 1 October 2004.) すると回答者の母語によらず「曲線のほうがブーバで鋭角のほうがキキ」

    「最強のポケモンの生成」 - NLP2012のオノマトペ関係の論文 - 唯物是真 @Scaled_Wurm
    sh19910711
    sh19910711 2022/06/06
    2012 / "「どんな名前のポケモンが強そうに聞こえるか」という内容の研究 / いわゆる音象徴と呼ばれる分野の話 / 実験の結果,母音ではUやA,子音ではDやGが含まれていると強そうに感じられるという結果"
  • 天気予報とLDAで適切な季節数を求める 備忘録 - Qiita

    概要 日には美しい四季があることが自慢らしい。しかし日は亜熱帯地域にあるため雨季を加えなければならないのではなかろうか。 四季が適当か五季が適当か機械学習で吟味してみる。 クラスタリング手法は多くあるが天気予報を文章と捉えたとき、LDA(Latent Dirichlet Allocation)で納得の行くクラスタ数(季節数)を得ることができるのか。 当は出力が確率分布なのでクラスタ内の各分布距離を計算しながらクラスタ数の落としどころを探す手法を試したかっただけ。確率分布ではAICやBICが使えないから。 そのときの備忘録 実施期間: 2022年6月 環境:Ubuntu20.04 LTS 1. パケージ LDAはgensimではなくscikit learnで作成する。確率分布距離はJensen-Shannon distanceをscipyのAPIで計る。 import numpy as

    天気予報とLDAで適切な季節数を求める 備忘録 - Qiita
    sh19910711
    sh19910711 2022/06/06
    "四季が適当か五季が適当か機械学習で吟味してみる / 天気予報を文章と捉えたとき、LDAで納得の行くクラスタ数(季節数)を得ることができるのか / 1週間分の天気の連結し文章を作成"
  • 機械学習AIで洋服識別アプリを作ってみた!初心者Teachable Machine - Qiita

    機械学習って面白い!! こんばんは! 千葉県在住、商業デベロッパーの会社で新規事業の企画検討をしています。 様々な分野への知見を広げるために、絶賛エンジニア分野を勉強中です。 前回は初めてLINE Botを作成しました! その記事はこちら!読んでもらえると嬉しいです。 今回はTeachable Machineを使って洋服の識別アプリを作ってみました。 何故洋服かというと、ちょうど今検討している新規事業の企画に ファッションロスを減らす為に不要な衣類を回収してリサイクルするというものがあります。 そこで回収した衣類は基人力で仕分けているのですが、 まあまあなコストがかかるのでデジタルで解決する方法ないかなーと探していたところだったんです! このTeachable Machineを勉強した時に1番に思ったのは、 「え?これ回収した衣類の仕分けアプリ作れちゃうんじゃない?」でした笑 AIには学

    機械学習AIで洋服識別アプリを作ってみた!初心者Teachable Machine - Qiita
    sh19910711
    sh19910711 2022/06/06
    "Teachable Machineを勉強した時に1番に思ったのは、「え?これ回収した衣類の仕分けアプリ作れちゃうんじゃない?」でした / ここまで簡単に作ることが出来るとは思っておらず、本当に驚愕でした"
  • 機械学習を使って分かりづらい端子の名称を教えてくれる仕組みを作ってみた - Qiita

    皆さんこんにちは!現在会社のシステム部門で働いている会社員です。 突然ですが、端子の形状って多すぎだと思いませんか?USB端子もType-AとかCとか、2.0とか3.0があるし、ディスプレイに繋ぐケーブルもHDMI、DisplayPort、VGA等々、、、多いだけならまだしも、システム部門で働いているとこれらに関する問い合わせも来るのです。「このケーブルが何に使うかわからない」「このケーブルが欲しいんですけど」、と普段使っていない人からするとケーブルの名称なんかいちいち覚えてませんし、電話で形を説明されてもポカーンとなってしまいます。そこで、今回は機械学習を使って、端子の形状をカメラで写すと名称を教えてくれる仕組みを作ってみました。 こんな感じで作成することができました。それでは作成した方法をご紹介していきます。 使用ツール紹介 ・Google Teachable Machine(http

    機械学習を使って分かりづらい端子の名称を教えてくれる仕組みを作ってみた - Qiita
    sh19910711
    sh19910711 2022/06/06
    TensorFlow.jsで推論するためのURLも発行してくれるのか👀 / "Google Teachable MachineはGoogleが公開している機械学習ツール: 画像・音声・ポーズを学習させ、それらを判別するモデルを作成することができます"
  • 【Dataform】話題のDataformでBQMLパイプラインを構築してみたよ?【BigQuery】 - Qiita

    【Dataform】話題のDataformでBQMLパイプラインを構築してみたよ?【BigQuery】BigQueryETLGoogleCloudDataform GoogleCloudが買収したことで巷を賑わせているDataform。 しかも、完全無料で利用できるらしい。。 DataformGoogle Cloud の傘下に: BigQuery で SQL を使用してデータ変換をデプロイする 年末の大掃除の合間をぬってBQML用のパイプラインを構築してみた内容をまとめて行こうと思います。 Dataformとは? データパイプライン構築&スケジューリングツール的な感じです。(使ってみた感じ) ジョブスケジューリングツールで言うと、最近はAirflow界隈が名前が上がってきますかね。クラウドサービスだと、GCPのCloud Composer、AWSならMWAA(Amazon Manag

    【Dataform】話題のDataformでBQMLパイプラインを構築してみたよ?【BigQuery】 - Qiita
    sh19910711
    sh19910711 2022/06/06
    2021 / "Dataform側でSQLをビルドしてエラー検出をしてくれるのですが、BQMLの文法は一般的なSQLの構文と多少異なるためその点でエラー扱いになりうまく実行されないと言うオチでした"
  • JIRA とかにチケットを書くときに気をつける事 - 海と山が好き

    チケットを書くうえで絶対に気をつけたい事 実現したい状態を書く。何をやるかではない。 JIRA とかでチケット駆動開発してたりとか、まあ付箋でもなんでも同じなんですが、気をつけなきゃいけないのは、付箋に書いても大抵伝わらないので、完了条件で揉めることが多々あるということ。 依頼した A さんにとっての期待値と、依頼された B さんにとっての 予測値は大抵ずれる。 壊れるほど愛しても 1/3 も伝わらないのにチケットに書いただけじゃもっと伝わらないのが人生。 で、だいたい揉める場合は、 「***する」 みたいな書き方をされてる。 これだと、やったかどうかを評価しがちで、やった後で、出来てる出来てないといった達成度を厳密にするために中世フラスコ画もビックリなレベルで異様に細かい Acceptance Criteria を書き込む羽目になる。 中世フラスコ画の雑なイメージ なので、そのチケットを

    JIRA とかにチケットを書くときに気をつける事 - 海と山が好き
    sh19910711
    sh19910711 2022/06/06
    2019 / "通信不確実性: 壊れるほど愛しても 1/3 も伝わらないのにチケットに書いただけじゃもっと伝わらないのが人生 / 実現手法について変なデザインをしないためにも、「なぜそれが欲しいのか?」まで表現しておく"
  • ゲームの攻略本を買うことは許されない|りご

    今では攻略という単語は死後かもしれない。今日ではどんなゲームであれ、少なからず一つや二つ攻略サイトが存在していると思う。 自分が幼少期のころは、ゲームの攻略の手立てとしては最前線だけど、持っている人はあんまり多くなかった印象がある。というのも、ただでさえゲームを買ってもらうことすら誕生日やクリスマスを今か今かと待ってようやく手に入るものなのに、攻略はそのゲームの半分くらいの値段がするわけで、そう簡単に手に入るものでもない。攻略買うお金があれば他の物を買う人が大勢だと思う。 だからこそ、そんな中でみんながやる人気タイトルの攻略を買う猛者は、友達の中で神として崇められる。これは誇張でも何でもない。 ある種人気者になれるツールとしてみることもできるので、仲良しグループの中で一目置かれる存在になりたい少年や、友人関係がこじれてしまった人がとる手段の一つになっていたりなっていなかったり。 特

    ゲームの攻略本を買うことは許されない|りご
    sh19910711
    sh19910711 2022/06/06
    "攻略サイト黎明期、とあるRPGゲームにドはまりした僕は、一つイベントが進むたびに町の人全員に話しかけなおして何か別の話が聞き出せないか試すくらいやりこんでいた"
  • ESLintチームから200ドルもらった話 - Qiita

    ESLint チームから $200 いただきました!とても嬉しくありがたいです! プログラマー人生の中でも、あまり無い経験だと思ったので駄文ですがこの経験を残そうと思います。 一応書いておくと私は ESLint の中の人ではありません。 まず簡単な時系列(日時間) 3/26朝、ESLint TSCミーティングでコントリビューターの誰に今月分の寄付をするのが良いか話し合われる。 ミーティングメモのPR: https://github.com/eslint/tsc-meetings/pull/246 3/26朝、ESLint チームのリーダーである Nicholas さんから、あなたに $200 あげます(かなり意訳)な旨のメールが届く。 3/26、メールに案内の通りに Open Collective で申請。3/27、申請が承認される。 3/30 $200 もらた! ESLint チームの

    ESLintチームから200ドルもらった話 - Qiita
    sh19910711
    sh19910711 2022/06/06
    "Contributor Pool なのか、Contributor Pool の内の一つの企画なのかわかりませんが、毎月 $500 をコミッター・貢献者の中から影響のあった貢献に対して、寄付という形でお返しするという取り組み"
  • もしかしたらコードメトリクスこそが、僕たちを救ってくれるかもしれない。 - Qiita

    結論 コードメトリクスの一つ、保守容易性指数と、バグ発生率とに、相関の兆候を見つけた まだ下調べの段階だけど、大規模調査および統計的検定の結果、 保守容易性指数とバグ発生率との相関が認められたら、 保守容易性指数をKPIにすることで、数値的品質評価・管理ができるかもしれない バグをまき散らすけど手が早いエンジニアの影に隠れて、 丁寧にモノづくりをしているけどいまいち評価されていないエンジニアに、 日の目をあてられるかもしれない。 バグ対処コストと保守容易性とを掛け合わせることで、 技術的負債を金銭的評価ができる可能性がある 金銭的に評価できれば、返済に関して、ビジネスサイドと有意義な議論ができる可能性がある はじめに 僕ら(@gakuri、@ahera、@yukke7624)は、とあるSI会社で横断的にプロジェクト支援をしている。 マネジメント状況の監査、支援、テコ入れから、技術的アドバイ

    もしかしたらコードメトリクスこそが、僕たちを救ってくれるかもしれない。 - Qiita
    sh19910711
    sh19910711 2022/06/06
    "1人よりも2人が変更しているほうが、不具合が多いのは当然として、1人⇒2人、3人⇒4人の時と比べて、2人⇒3人の時に、一気にリスクが上がるとJaSST Tokyo 2018で言っていた(気がする)"
  • 衛星データサイエンス×インフラデータ活用の可能性(ネタマラソン) - カニカニクラブライフ

    「衛星データサイエンティスト」という言葉を知っていますか?おそらくほとんどの人が聞いたことがないと思います。なぜなら最近、宇宙ビジネス情報サイト「宙畑(そらばたけ)」に掲載された言葉だからです。 sorabatake.jp インターネットインフラサービスを提供するさくらインターネットは、経済産業省から委託して行っている衛星データプラットフォーム事業「Tellus」の一環として、SIGNATE、RESTECの協力のもと、衛星データ分析技術者養成講座「Tellus Satellite Boot Camp」を開催することを発表しました。 この「宙畑(そらばたけ)」というサイト、とてもわかりやすくて、色々みて勉強していたのですが、衛星データについて無料で提供したり、また利用方法を拡充する取り組みであるTellus (テルース)がオープンすること、また、人工衛星の数自体を増やすビジネスも起こっており

    衛星データサイエンス×インフラデータ活用の可能性(ネタマラソン) - カニカニクラブライフ
    sh19910711
    sh19910711 2022/06/06
    2018 / "人工衛星の数自体を増やすビジネスも起こっており、今後利用できるデータの種類や解像度も大きく増えていくことが予想されることなどがあり、飯の種の匂いを感じています"
  • 大企業が新市場を見逃すステップ

    ナシーム・ニコラス・タレブの書いたベストセラー、ブラック・スワンという書籍の中で「講釈の誤り」というアイディアが紹介されている。アマゾンのジェフ・ベゾスのにも出てくる。 インターネット業界のような、とにかく毎年市場に激変が走る業界の会社にとって陥ると致命的になってしまう罠を、的確に言い表している概念だったので、ここに紹介しておこう。実際にこういう悩みはいろんな会社の方から聞いたりする。特に大企業が多い。でも国や規模を問わない気がしている。参考になる人もあるだろう。 ブラック・スワンとは、名の通り黒い白鳥のことで、オーストラリアで20世紀に発見された。それまでは「白鳥は白い」という当たり前すぎる概念を根底から覆した事件だった。 書が指摘するのは、その事件の特徴であり、現実社会で起こりうる類似する現象を指す。著者が「ブラック・スワン」的な現象だと呼ぶのは 第一に、今まで観測できたことのない

    sh19910711
    sh19910711 2022/06/06
    "ブラック・スワン的な現象: 今まで観測できたことのない異常なこと + 非常にインパクトがあること + 起こった後には誰でも簡単に説明できてしまうこと / がんばりによって、変わらないと思われている法規制も変わる"
  • ブックマーク管理システム: 動くアプリをとにかく早く安く作ろう

    autoscale: true ブックマーク管理システム: 動くアプリをとにかく早く安く作ろう asocial-bookmark https://github.com/azu/asocial-bookmark モチベーション: はてなブックマーク APIが壊れた => 困った 金曜にAPIが500 Internal Server Error返すという報告した CloudFrontがエラーを返してるので何かを設定ミス? { body: '403 Forbidden Insufficient scope', headers: { 'content-type': 'text/plain', 'content-length': '32', connection: 'close', date: 'Fri, 31 May 2019 05:24:36 GMT', server: 'nginx', 'se

    sh19910711
    sh19910711 2022/06/06
    2019 / "Pinboardで良さそうと思ったけど、Twitterアカウントが活発過ぎて不安になった / 雑な実装をしていいが、モジュールは必ず守る > 泥団子はリファクタリングができない + 泥団子はすべて捨てるしかなくなる"
  • 世界のRユーザー事情 Stack Overflowサーベイデータより - Koki’s Notes

    www.kaggle.com Kaggleで公開されていたStack Overflowのサーベイデータより、Rユーザーの属性などをみてみたいと思います。 「世界の」とタイトルについていますが、Stack Overflowが集計したので、比較的「英語を話せる人が多い国のRユーザー」のデータになっていると感じました。 stack = read.csv("data/survey_results_public.csv") names(stack) [1] "Respondent" "Hobby" "OpenSource" "Country" "Student" [6] "Employment" "FormalEducation" "UndergradMajor" "CompanySize" "DevType" [11] "YearsCoding" "YearsCodingProf" "JobSat

    世界のRユーザー事情 Stack Overflowサーベイデータより - Koki’s Notes
    sh19910711
    sh19910711 2022/06/06
    2019 / "「世界の」とタイトルについていますが、Stack Overflowが集計したので、比較的「英語を話せる人が多い国のRユーザー」のデータになっていると感じました / Kagglerさんたちがすでに多くのKernelを公開している"
  • 誰も触りたがらないAppsFlyerのローデータで遊んでみた話

    この記事は eureka Advent Calendar 2018 12日目の記事です。 前日は同じBIチームのそうたろうの Cloud Composerでデータ基盤のワークフローつくった でした。いま僕が導入を進めている Tableau の裏側の話なので是非そちらもお楽しみください。 こんにちは、エウレカBIチームでデータアナリストをしているミニオンこと鈴木です。 最近会社にもう一人自称ミニオンが現れて存在を脅かされています。 さて、ここ数年オンライン広告界隈ではアドフラウドなる許すまじな不正が流行っているようですね。 例に漏れず、エウレカもアドフラウドと日々戦っております(げんなり)。 こうした状況なので、最近はAppsFlyerのローデータを見ながら不正な輩を見つける業務も発生しているのですが、この手のデータって難しい指標や定義が多い、それでいてデータ数もそこそこあるので社内で触りた

    誰も触りたがらないAppsFlyerのローデータで遊んでみた話
    sh19910711
    sh19910711 2022/06/06
    2018 / "ここ数年オンライン広告界隈ではアドフラウドなる許すまじな不正が流行っている / AppsFlyerのローデータを見ながら不正な輩を見つける業務も発生している / この手のデータって難しい指標や定義が多い"
  • 茨城県と栃木県のデータがおかしいときに確かめること - Qiita

    都道府県別のデータを扱う機会ってありますよね. 私もとあるサービスの都道府県別データを解析しておりました. $ wc -l location_data/location-*.csv | sort | head 0 location_data/location-8.csv 0 location_data/location-9.csv 12 location_data/location-38.csv 14 location_data/location-36.csv 20 location_data/location-31.csv 26 location_data/location-32.csv 29 location_data/location-16.csv 33 location_data/location-18.csv 48 location_data/location-39.csv 52

    茨城県と栃木県のデータがおかしいときに確かめること - Qiita
    sh19910711
    sh19910711 2022/06/06
    "8と9というのは茨城県と栃木県の都道府県コード(JIS規格) / 茨城県と栃木県のデータがおかしいときは,parseInt を思い出しましょう / テストデータには茨城県と栃木県を含めましょう"
  • 映像編集の仕事とは|Yoshiyuki_Murakami

    YouTubeやSNSから最近では映画に携わるようになってきた筆者ですが映像編集に関して改めて学んだので書いていきます。 編集は撮影前から始まっている編集はポストプロダクションと言われる通り、撮影が終わった後に行われる作業だと思われがちです。しかし実際はドキュメンタリーやホームドラマでない限りは撮影の前から企画やコンテなどで映像の完成像が出来上がっています。 編集をしていると「編集でなんとかする」と思うことがありますが、撮影や予算、企画自体に無理がある場合はそもそも編集でどうにもできなかったりすることもあります。 編集には時間の経過を決める横の編集と、色や特殊効果を重ねる縦の編集がありますが、撮影前から気を使わないとどちらかの方向で不具合が出てしまうものです。 編集では感情を取っ払う撮影をすると「この撮影は大変だったなー」とか「この俳優さん頑張ってくれたなー」というのがあります。 そこに感

    映像編集の仕事とは|Yoshiyuki_Murakami
    sh19910711
    sh19910711 2022/06/06
    "数千フレームある中からこれだと思う1フレームを見つけ出してそこをいかに魅力的に伝えるかを考える / 時間を飛ばしてテンポの良さを大切にする / 『映画の瞬き[新装版] 映像編集という仕事』"
  • リモートワーク生活 別府にワーケーションに行ってみた [前編]|mac008008

    自分の引き出しに新しいインプットが欲しいリモートワークでの生活がメインになって2年、仕事の進め方や環境などはずいぶん板についてきました。その辺りの情報なども発信していきたいのですが、今日は1週間ワーケーションで別府に行ってきた話を書きます。 リモートワークについては、今でも賛否いろいろありますが、せっかくであればもっと生産性も上げながら、色々な地域での触れ合える機会をうまく作っていきたいので、少しでも賛同してくれる方など増やせないか、体験を文章にしてみました。 今回、ワーケーションをしたいと思った背景ですが、リモートワークの効率が上がったのはいいですが、どうしても家にいる時間が長いので、どこかで感性や引き出しが枯渇しだしたように感じてました。 日々、人とあったり、を読んだり、好きな自然と触れたり、結構インプットがないわけではないですが、それでも仕事や生活のある意味での”効率”があがると、

    リモートワーク生活 別府にワーケーションに行ってみた [前編]|mac008008
    sh19910711
    sh19910711 2022/06/06
    "福岡から別府は、特急で2.5時間くらい / 指定席には電源もあり、乗り換えもいらないので快適な移動でした / 九州ネット早特3というネット限定の切符を買うと、通常の約60%OFFで切符が買えます"
  • 【Glue】約9万件のパーティションを作る時間を計測してみた - Qiita

    背景・目的 以前、こちらの記事でAthenaのパーティションインデックスの効果を検証した際に、パーティションをMSCK REPAIR TABLEで作成しました。 MSCK REPAIR TABLEの場合には、6時間9分46秒もの時間を要したので、Glue Crawlerで作った場合にはどれくらいの時間がかかるか検証したいと思います。 まとめ 9万弱のパーティションを作成するのに、MSCK REPAIR TABLEとGlueのCrawlerでおおよそ、5時間44分46秒(93.23%の削減率)もの差がありました。 Glue Crawlerが圧倒的に速かったです。 Glue Crawlerがどのようなアルゴリズムで実行されているのかは不明だが、プロダクション等で利用する場合はCrawlerを選択したほうが良いと思います。 実践 事前準備 前回同様の条件で実施するため、事前に確認します。 S3パ

    【Glue】約9万件のパーティションを作る時間を計測してみた - Qiita
    sh19910711
    sh19910711 2022/06/06
    1時間単位で切ってると10年分くらいか / "9万弱のパーティションを作成するのに、MSCK REPAIR TABLEとGlueのCrawlerでおおよそ、5時間44分46秒(93.23%の削減率)もの差がありました"