並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 1787件

新着順 人気順

recognitionの検索結果1 - 40 件 / 1787件

  • 君には今から3時間で機械学習Webアプリを作ってもらうよ

    新人: 「本日データサイエンス部に配属になりました森本です!」 先輩: 「お、君が新人の森本さんか。僕が上司の馬庄だ。よろしく!」 新人: 「よろしくお願いします!」 先輩: 「さっそくだけど、練習として簡単なアプリを作ってみようか」 先輩: 「森本くんは Python なら書けるかな?」 新人: 「はい!大学の研究で Python 書いてました!PyTorch でモデル作成もできます!」 先輩: 「ほう、流石だね」 新人: 😊 先輩: 「じゃ、君には今から 3 時間で機械学習 Web アプリを作ってもらうよ」 先輩: 「題材はそうだなぁ、写真に写ってる顔を絵文字で隠すアプリにしよう」 先輩: 「あ、デプロイは不要。ローカルで動けばいいからね。顔認識と画像処理でいけるよね?」 新人: 😐 新人: (えぇぇぇぇぇぇぇ。3 時間?厳しすぎる...) 新人: (まずモデルどうしよう。てかもら

      君には今から3時間で機械学習Webアプリを作ってもらうよ
    • Sign-in form best practices  |  Articles  |  web.dev

      Sign-in form best practices Stay organized with collections Save and categorize content based on your preferences. Use cross-platform browser features to build sign-in forms that are secure, accessible and easy to use. If users ever need to log in to your site, then good sign-in form design is critical. This is especially true for people on poor connections, on mobile, in a hurry, or under stress.

      • マザー・テレサ、インド人から超嫌われていた!

        帆 美 @meiphan まじか⁉️続々と表出… 《インドの議員は、マザーテレサを主謀者とする子供の人身売買スキャンダルが発覚したことを受け、彼女から名誉を剥奪すべきだと主張❗️彼女はバチカンに1億ドル〜1億5000万ドルの赤ん坊等を販売していた。また彼女の長年の助手は昨日殴り殺された。》 globalnews.ca/news/4331469/m… 2019-07-28 17:13:31 リンク Global News Indian lawmaker says Mother Teresa should be stripped of civilian honour over baby-trafficking scandal It's been nearly 40 years since Mother Teresa was conferred India's highest civilian

          マザー・テレサ、インド人から超嫌われていた!
        • 30分で完全理解するTransformerの世界

          はじめに 初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。 深層学習界隈では、2017年に衝撃的なタイトル(Attention Is All You Need)の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。 今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま

            30分で完全理解するTransformerの世界
          • タダで学べるデータサイエンス名著5冊 【日本書は高額でも英語ができれば怖くない】 - Qiita

            この時期だからこそ自学しよう 海外って太っ腹な組織が多いのか、無料で読める専門書がすごく多い。 これ系のまとめ記事は他にもありますが、 翻訳済の日本の本と、原著を並べて表示していきたいと思います。 特にデータサイエンス分野に限って紹介。 お高いあの名著も実は原著なら無料かも? (2020年5月時点) 続編、データサイエンスの名大学講座 を書きました (2020年8月) 1冊目 邦題 : 統計的学習の基礎(1万5千円) 俗に言う「カステラ本」です。 日本では2014年に翻訳されましたが、原著は2001年と今から約20年前に出版されました。 内容からしても、当時は体系的に理論学習ができる刷新的な一冊だったのでしょう。 まさに「アルゴリズム・理論の辞書」。 年代的に古い感じはしますが、基礎はいつだって大切です。 数字に強くないと絶対読み切れない。。。 原著 : The Elements of S

              タダで学べるデータサイエンス名著5冊 【日本書は高額でも英語ができれば怖くない】 - Qiita
            • エンジニアリングスキルで捉えるチームマネジメント - mtx2s’s blog

              チームのマネージャーが、自らの責務をジョブディスクリプションとして明文化することは難しい。職務内容や権限を、断片的にしか書けないかもしれない。もしそうなるなら、実務も断片的になっている可能性がある。 チームマネジメント(組織マネジメント)という活動は、個々のマネージャーの経験や関心によって、断片的になりやすいように感じている。断片的とは、マネジメント活動が、責務の一部の領域に偏ってしまっていたり、問題を検知してはじめてその領域がマネジメント範囲であることを知る、といった様子を指している。 このような状態になる背景は、マネージャーにとって、マネジメントが、日々の実務を通して蓄積された経験に基づく活動になっているからではないか。マネージャーは孤独だ。ひとりでその責務を担う。エンジニアとは違い、チームで協働するわけではない。だから、形式知として言語化されず、個人の経験として暗黙知にとどまる。その

                エンジニアリングスキルで捉えるチームマネジメント - mtx2s’s blog
              • Self-Attentionを全面的に使った新時代の画像認識モデルを解説! - Qiita

                08/31 (2020): 投稿 08/31 (2020): 「畳み込みを一切使わない」という記述に関して、ご指摘を受けましたので追記いたしました。線形変換においては「チャネル間の加重和である1x1畳み込み」を実装では用いています。 08/31 (2020): 本論文で提案されているモデルの呼称に関して認識が誤っていたためタイトルおよび文章を一部修正しました。 言葉足らずの部分や勘違いをしている部分があるかと思いますが、ご指摘等をいただけますと大変ありがたいです。よろしくお願いします!(ツイッター:@omiita_atiimo) 近年の自然言語処理のブレイクスルーに大きく貢献したものといえば、やはりTransformerだと思います。そこからさらにBERTが生まれ、自然言語の認識能力などを測るGLUE Benchmarkではもはや人間が13位(2020/08現在)にまで落ちてしまっているほ

                  Self-Attentionを全面的に使った新時代の画像認識モデルを解説! - Qiita
                • This is The Entire Computer Science Curriculum in 1000 YouTube Videos

                  This is The Entire Computer Science Curriculum in 1000 YouTube Videos In this article, we are going to create an entire Computer Science curriculum using only YouTube videos. The Computer Science curriculum is going to cover every skill essential for a Computer Science Engineer that has expertise in Artificial Intelligence and its subfields, like: Machine Learning, Deep Learning, Computer Vision,

                    This is The Entire Computer Science Curriculum in 1000 YouTube Videos
                  • 画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! - Qiita

                    0. 忙しい方へ 完全に畳み込みとさようならしてSoTA達成したよ Vision Transformerの重要なことは次の3つだよ 画像パッチを単語のように扱うよ アーキテクチャはTransformerのエンコーダー部分だよ 巨大なデータセットJFT-300Mで事前学習するよ SoTAを上回る性能を約$\frac{1}{15}$の計算コストで得られたよ 事前学習データセットとモデルをさらに大きくすることでまだまだ性能向上する余地があるよ 1. Vision Transformerの解説 Vision Transformer(=ViT)の重要な部分は次の3つです。 入力画像 アーキテクチャ 事前学習とファインチューニング それぞれについて見ていきましょう。 1.1 入力画像 まず入力画像についてです。ViTはTransformerをベースとしたモデル(というより一部を丸々使っている)ですが、

                      画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! - Qiita
                    • 違法な職務質問をされたので東京都を訴えた裁判の控訴審は棄却、理由は突然に

                      職務質問裁判の控訴は棄却された。判決文は以下から読むことができる。 https://github.com/EzoeRyou/calling-110-is-suspicious 2年前の7月3日、職務質問を受けた。 警察官に職務質問をされた話し この職務質問は明らかに違法であると感じたので、弁護士に相談の上、東京都に対して国賠訴訟を起こした。警察官というのは各都道府県の下に位置する行政組織なので、警察を訴えるというのは、その警察の所属する都道府県を訴えるということになる。 一審判決は請求棄却。理由としては、「最初の10分間は不審事由がないが、刃物などの危険物を入れることができるリュックを背負っていたから声をかけ10分間その場にとどめて話をするのは違法ではない。このとき110番通報を要請したことは不審事由にあたりその後の1時間20分の職務質問は不審事由が存在するために合法である」というわけのわ

                      • iPhone・Androidで高速に日本語音声入力するためのベストプラクティス

                        先日Twitterで「大学生がスマートフォンでレポートを書いている」というツイートが話題になっており、それに対して反応している方達もほぼ全員が「スマートフォンでレポートを書くのは効率が悪い」という前提で話をしていることに大変違和感を覚えました。 なぜなら私はこのブログはもちろん、技術書を執筆するときでさえ主にスマートフォンで下書きをしているからです。 PCを使うのは、ほぼスクリーンショットの撮影と最後の仕上げだけです。 その方が、最初からPCで文字入力するのに比べて圧倒的に効率が良いです。 この記事では、iPhoneとAndroidそれぞれで音声入力を効率よくおこなう方法について解説します。 iPhone・iPadの場合 先に結論から申し上げると、iPhone・iPad・Macの日本語音声入力は、AndroidのGoogle音声入力に比べて認識精度が低く、認識できる単語が少ないです。 仕事

                          iPhone・Androidで高速に日本語音声入力するためのベストプラクティス
                        • OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能

                          画像生成AI「DALL・E 2」や文章生成AI「GPT-3」といった高性能AIを開発してきたAI開発組織のOpenAIが、新たに音声を超高精度で認識して文章に書き起こせるAI「Whisper」を発表しました。発表と同時に公開されたサンプルでは「早口のセールストーク」や「ハイテンポな曲の歌詞」などの音声でも問題なく文字起こしできる性能の高さが示されています。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper Whisperはインターネット上から収集された合計68万時間におよぶ音声データでトレーニングされた文字起こしAIです。OpenAIのブログ記事には「早口のセールストーク」「K-POPの曲」「フランス語」「独特なアクセン

                            OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能
                          • 「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary

                            この文章は pandoc-hateblo で tex ファイルから変換しています. PDF 版はこちら 2021/10/15 追記: 後半のベイジアンブートストラップに関する解説はこちらのほうがおそらく正確です ill-identified.hatenablog.com 概要挑発的なタイトルに見えるかも知れないが, 私はしらふだしこれから始めるのは真面目な話だ — 正直に言えばSEOとか気にしてもっと挑発的なタイトルにしようかなどと迷ったりはしたが. 「全数調査できれば標本抽出の誤差はなくなるのだから, 仮説検定は不要だ」という主張を見かけた. いろいろと調べた結果, この問題を厳密に説明しようとすると最近の教科書には載ってない話題や視点が必要なことが分かった. ネット上でも勘違いしている or よく分かってなさそうな人をこれまで何度か見かけたので, これを機に当初の質問の回答のみならず関

                              「全数調査なら何でもわかる」という誤解 - 間違えがちな母集団とサンプリングそしてベイズ統計 - - ill-identified diary
                            • 【AI動画生成】Sora 要素技術解説

                              もう全部OpenAIでいいんじゃないかな はじめに 月間技術革新です。 ということで、昨日OpenAIから発表された新しい動画生成AI「Sora」が非常に話題となっていますね。 圧倒的な一貫性の保持と1分間に及ぶ長時間動画が生成可能という事で、現状の動画生成技術を圧倒的に凌駕する性能を持っているようです。 在野エンジニアの小手先テクニックなど一笑に付すような圧倒的性能を Soraの凄さは色んなエンジニアやインフルエンサーがたくさん語っているのでそちらを見てもらうとして、この記事ではSoraを構成する各技術について簡単に解説していければと思います。 Soraの技術構成 論文が公開されているわけではないですが、OpenAIが要素技術の解説ページを公開してくれているため、そのページを参考にしていきます。 原文を見たい方はこちらからどうぞ 全体構成 Soraは以下の技術要素で構成されているとのこと

                                【AI動画生成】Sora 要素技術解説
                              • YouTuber同士の繋がりを可視化する - 見返すかもしれないメモ

                                最近ある YouTuber に急にハマった。その人は音楽系やゲーム系などいろんな YouTuber たちとコラボしていて、誰と誰が繋がっているのか把握するのが難しかったので、図にしてみようと思った。 方法 YouTuber 同士の繋がりやコラボレーションを可視化しているプロジェクトはいくつかあったので、参考になる方法がないか探してみた。 おすすめチャンネル欄を使う www.gugelproductions.de この記事では、あるチャンネルが別のチャンネルをおすすめチャンネル欄で紹介していれば、そこに繋がりがあると判定して、その繋がりを可視化していた。 こういうやつ けれどおすすめ欄には大抵サブチャンネルやグループのメンバーのチャンネルくらいしか入っておらず、逐一コラボ相手を載せる人は少ないので、この方法では不十分そうだった。 Twitter を使う datalion.com ここに載って

                                  YouTuber同士の繋がりを可視化する - 見返すかもしれないメモ
                                • TechCrunch

                                  Microsoft, it seems, is hedging its bets when it comes to general-purpose robotics AI. At the end of February, the Windows maker spearheaded a massive $675 million Series B in Bay Area-based Figure. T Substack is launching the ability for writers to paywall their entire Chat or specific threads to paid or founding members only, the company announced on Wednesday. The rollout of the new feature com

                                    TechCrunch
                                  • AWS 認定 ソリューションアーキテクト – プロフェッショナル(AWS Certified Solutions Architect – Professional)の学習方法 - NRIネットコムBlog

                                    小西秀和です。 この記事は「AWS認定全冠を維持し続ける理由と全取得までの学習方法・資格の難易度まとめ」で説明した学習方法を「AWS 認定 ソリューションアーキテクト – プロフェッショナル(AWS Certified Solutions Architect – Professional)」に特化した形で紹介するものです。 重複する内容については省略していますので、併せて元記事も御覧ください。 また、現在投稿済の各AWS認定に特化した記事へのリンクを以下に掲載しましたので興味のあるAWS認定があれば読んでみてください。 ALL Networking Security Database Analytics ML SAP on AWS Alexa DevOps Developer SysOps SA Pro SA Associate Cloud Practitioner 「AWS 認定 ソリュ

                                      AWS 認定 ソリューションアーキテクト – プロフェッショナル(AWS Certified Solutions Architect – Professional)の学習方法 - NRIネットコムBlog
                                    • OpenAI API ドキュメント 日本語訳|#1 GET STARTED 前編|ゑぐみかるちゃあ

                                      OpenAI API ドキュメントの日本語訳をこちらでまとめます。文字量の多いドキュメントなので、セクションごとに記事を分割しています。 今回は「GET STARTED 」のセクションからIntroduction と Quickstart を抜粋した前編です。 基本 DeepLで翻訳して、気になるところだけ書き換えています(ほぼ気になるところがないのが、DeepLのすごいところ)。原文との突き合わせができるようにはじめに原文を入れてますので、間違いなど見つけられましたら、ぜひご指摘ください。ご指摘箇所は随時反映させていただきます。 原文のリンクが有効になってますので、それぞれ必要な場合は原文リンクの方を参照ください。 Introduction|はじめに Overview|概要The OpenAI API can be applied to virtually any task that i

                                        OpenAI API ドキュメント 日本語訳|#1 GET STARTED 前編|ゑぐみかるちゃあ
                                      • みんなの首里城デジタル復元プロジェクト

                                        高校生の修学旅行の時は正殿が工事中でしっかり見れなくて、でも今年の夏は完成した首里城を家族全員で見ることができたことがすごく嬉しかったです。(19歳女性) 首里城の中を見学したかったのですが、門限で入れませんでした。残念でしたがなかなか観ないところからみれました。 ライトアップも観れました。(62歳男性) 沖縄旅行が好きでここ数年毎年のように行っていましたが、子供が小さかったことから首里城には足を運べていませんでした。 今年は3年生になって長男が首里城に興味を持ったこともあり家族で訪れて、初めてじっくりと見学して、皆んな細かな装飾に驚き、その美しさを楽しみました。(38歳男性) 2019年10月31日、火災により首里城が焼失しました。世界中の人々がみな心を痛めており、私たちもとても悲しく思っています。私たちは、コンピュータ・ビジョン、ヒューマン・コンピュータ・インタラクション、バーチャル・

                                          みんなの首里城デジタル復元プロジェクト
                                        • 「赤信号」を「青信号」だと錯覚させる自動運転車へのサイバー攻撃 中国などの研究チームが脆弱性指摘:Innovative Tech - ITmedia NEWS

                                          Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 中国の浙江大学、香港中文大学、米シカゴ大学による研究チームが発表した「Rolling Colors: Adversarial Laser Exploits against Traffic Light Recognition」は、自動運転車に搭載されるカメラをレーザー光で攻撃し、信号機の認識を錯覚させる方法を実証し、脆弱性を指摘した論文だ。赤信号を青信号に、青信号を赤信号に誤認させ、衝突事故や交通渋滞を引き起こさせる攻撃になるという 歩行者や車両との衝突事故を防ぐため、自動運転車では信号が今何色かを正確に検出しなければならない。自動運転車だけでなく、それ以外の車にも、人が間違えて交差点に進入

                                            「赤信号」を「青信号」だと錯覚させる自動運転車へのサイバー攻撃 中国などの研究チームが脆弱性指摘:Innovative Tech - ITmedia NEWS
                                          • 人間が深層学習のAIを理解できないのには、理由がある:朝日新聞GLOBE+

                                            【特集】「『予測』という名の欲望」全記事はこちらから読めます ■人間にはAIの考えが分からない? ――ディープラーニングは、大量の「教師データ」を読み込み、入力する変数と、出力する変数との間の関係を見つけ出します。その関係が分かれば、新たなデータを入力したとき、出力が予測できるというわけですが、なぜ人間はそのプロセスを理解できないのでしょうか? おもにふたつの要因があります。質的なものと、量的なものです。量的な問題は、すごくシンプルです。ディープラーニングの内部で動くパラメータ(母数:システムの内部で動く情報)が多すぎるので、その大量・複雑なデータを人間の直感につなげることが難しい、という話です。最近は、多いものでは1億個を超えるパラメータから出力を予測します。じゃあ、その1億個をざっと人間が見てなにか分かるのかといえば、分からない。これが基本的に起こることです。 ――大量の変数という意味

                                              人間が深層学習のAIを理解できないのには、理由がある:朝日新聞GLOBE+
                                            • イギリス人はエーデルワイスが嫌いなのか、半径五メートルの世界 - ネットロアをめぐる冒険

                                              既に元ツイートは削除されているのですが、サウンドオブミュージックの「エーデルワイス」に関するこんな話が盛り上がってました。 togetter.com イギリスでは「第三帝国」を思い出すから嫌われているという内容ですが、それに対して、「いやサウンド・オブ・ミュージックは戦後だし…」みたいなツッコミが入って「デマ」という形になっていました。 私はネットミームに関しては、デマかどうかもそうですが、火のない所に煙は立たぬ主義なので、どうしてそういう話が出たのか、という流れを考えるのが好きなため、そういったことを調べてみました。結論だけ書くと、「”エーデルワイス”の曲自体についてナチスを想起する人はどうやら一定数いるが、誤解に基づくものであるし、あまり一般的ではなさそう」ということのようでした。デマというか、自分の経験をどこまで一般化するかという話なんだろうなと感じました。 【目次】 「エーデルワイ

                                                イギリス人はエーデルワイスが嫌いなのか、半径五メートルの世界 - ネットロアをめぐる冒険
                                              • WEB開発に役に立つAPI一覧+API毎に関連するQiita記事を分類 ! - Qiita

                                                前回: Qiita APIで記事からYoutube動画を集めてみた 🎬 、Qiita APIを使って、Qiita記事を取得してYoutube動画のURLを抽出することができました。 今回は、特定APIに関連したQiita記事を取得して、API毎に分類、タグを集計してドーナツグラフ化することでAPIの特徴を表してみました。 最新のAPI一覧はこちら API一覧 | DOGAKIITAA! ~ APIごとにQiita記事を分類 ~ Google系 Cloud Vision API https://cloud.google.com/vision/docs/quickstart 📝 機械学習を使用して画像を解析します。画像ラベリング、顔やランドマークの検出、光学式文字認識(OCR)、不適切なコンテンツへのタグ付けなどができます。 Cloud Vision APIの凄さを伝えるべくRasPi b

                                                  WEB開発に役に立つAPI一覧+API毎に関連するQiita記事を分類 ! - Qiita
                                                • 2022年の深層学習ハイライト - Qiita

                                                  はじめに 2023年になって日が経ってしまいましたが、今年も深層学習の個人的ハイライトをまとめたいと思います。今回は研究論文5本と応用事例4つを紹介します。他におもしろいトピックがあれば、ぜひコメントなどで教えて下さい。 AIの研究動向に関心のある方には、ステート・オブ・AIガイドの素晴らしい年間レビューもおすすめします。また、私が過去に書いた記事(2021年、2020年、2019年)もよろしければご覧ください。 * 本記事は、私のブログにて英語で書いた記事を翻訳し、適宜加筆修正したものです。元記事の方も拡散いただけると励みになります。 ** 記事中の画像は、ことわりのない限り対象論文からの引用です。 研究論文 Block-NeRF: Scalable Large Scene Neural View Synthesis 著者: Matthew Tancik, Vincent Casser,

                                                    2022年の深層学習ハイライト - Qiita
                                                  • Kaggleで10年遊んだGrandMasterの振り返り | ho.lc

                                                    2011年2月16日に Kaggle アカウントを取得して10年が経過した。長い間 Kaggle Ranking 世界 1 位を目指してきたが、この目標やモチベーションが大きく変化してきたと感じたため、一区切りつけるためにもこの10年+αを振り返る。今の目標は対象を問わずアルゴリズムで資産を最大化すること。エンジニアリングを駆使してデータからアルファを探し、システム化して運用する。実利的で定量評価できる最高に楽しいタスクです(記事では触れません)。 競技プログラミングからKaggleを始めるまで¶ Kaggle ができる前は ICPC や ICFP Programming Contest といった競技プログラミング系のコンテストに参加していた。ICPC ではアジア地区会津大会 2007、アジア地区東京大会 2008 に出場したが大敗して悔しくて仕方がなかった。コードゴルフも嗜む程度に遊んで

                                                      Kaggleで10年遊んだGrandMasterの振り返り | ho.lc
                                                    • 2019-nCoVについてのメモとリンク

                                                      リンク集目次 国内外の状況 政府機関・国際機関等 学術情報 疫学論文 分子生物学/ウイルス学論文 臨床論文 インフォデミック関係 ワクチン関係 変異株関係 時系列メモ目次 新型コロナウイルス(2020年1月6日,11日) インペリグループによる患者数推定(2020年1月18日) 患者数急増,西浦さんたちの論文(2020年1月20日,23日) WHOはPHEIC宣言せず(2020年1月23-24日) 絶対リスクと相対リスク(2020年1月26日) 研究ラッシュが起こるかも(2020年1月27日) なぜ新感染症でなく指定感染症なのか? なぜ厚労省令でなく閣議決定なのか?(2020年1月27日) コロナウイルスに対する個人防御(2020年1月27日) 国内ヒト=ヒト感染発生(2020年1月28日) フォローアップセンター設置,緊急避難等(2020年1月29日) PHEICの宣言(2020年1月3

                                                      • 深層距離学習(Deep Metric Learning)の基礎から紹介 - OPTiM TECH BLOG

                                                        こんにちは、R&Dチームの河野(@ps3kono)です。深層学習モデルの開発を担当しております。 今回は、画像分類、画像検査、顔認識や異常検知など様々な分野に利用されている深層距離学習(Deep Metric Learning)について紹介したいと思います。 Deep Metric Learningとは 定番のクラス分類と距離学習によるクラス分類の違い 距離学習の進化 1. 対照的(contrastive)アプローチ サンプル選択(sample selection) 代表的な学習手法 Contrastive loss Triplet loss さらなる改善と進化 対照的アプローチの問題点 2. Softmaxをベースにしたアプローチ 代表的な学習手法 Center loss SphereFace CosFace ArcFace さらなる改善と進化(2019年以降) 推論 深層距離学習の利点

                                                          深層距離学習(Deep Metric Learning)の基礎から紹介 - OPTiM TECH BLOG
                                                        • ブラウザ上で3Dキャラクターと会話できる「ChatVRM」をオープンソースで公開しました - pixiv inside

                                                          こんにちは、VRoid部のkeshigomuです。 普段は主にVRoid Hubのフロントエンドエンジニアとして、3Dキャラクターを表示するビューワーの開発に携わっています。また@pixiv/three-vrmという、Web上で3Dモデルを使ったコンテンツを開発するためのOSSライブラリの運用も行っています。 今回、ブラウザで簡単に3Dキャラクターと会話できる技術デモ「ChatVRM」とそのコードをオープンソースで公開しました。 「ChatVRM」は、テキスト・口頭で話しかけた言葉にキャラクターがフルボイスで回答してくれる「キャラクターと会話できる」デモです。WEBブラウザ上で動作でき、3Dキャラクターのインポート・切り替え、キャラクターに併せて声を調整することもできます。 (2023/07/10追記) 読み上げ音声の生成に使用していたKoeiro APIの提供終了に伴い、以前のデモとコー

                                                            ブラウザ上で3Dキャラクターと会話できる「ChatVRM」をオープンソースで公開しました - pixiv inside
                                                          • UIデザインのための心理学:33の法則・原則(実例つき) | ベイジのUIラボ

                                                            ユーザーが「使いやすい」と感じるアプリケーションは、良いUIデザインで設計されているともいえます。良いUIデザインでは、ユーザーの認知負荷を下げる工夫がされています。認知負荷を下げる仕組みを知るには、心理学とUIデザインの密接な関係を理解することが重要です。 行動心理学や認知心理学の発展により、人間の感情や行動は、脳の仕組みに基づいて様々な法則に当てはめられることが分かってきました。UIデザインでも、心理学を活用したアプローチでより良いユーザー体験を生み出すことができます。特に業務システムのような複雑なアプリケーションでは、メニューや画面レイアウトなど幅広く活用できます。 今まで心理学はマーケティング領域で応用されることが多く、ウェブサイトやアプリケーションのUIデザインで語られることはそれほど多くありませんでした。そこで本記事では、人の様々な心理現象や認知の法則を、UIデザインに活用する

                                                            • GPT-3.5-turboの新機能を使ってCVPRの論文を良い感じに検索・推薦・要約するシステム

                                                              はじめに 5月からTuringに中途入社した棚橋です。リクルートで広告配信システムの開発や量子アニーリングに関する研究開発に関わっていました。現在、Turingのリサーチチームで完全自動運転システムの研究開発に取り組んでいます。 3行でまとめ 今月開催されるCVPR2023では約2400本もの論文が発表されるため、見るべき論文を事前に検索しておきたい。 社内で行われた大規模言語モデル(LLM)ハッカソンをきっかけに、LLMのEmbeddingを用いて論文の「検索・推薦・要約」システムを作成し公開した。 検索クエリに文章を使った曖昧な検索が行えたり、類似論文の推薦ができる。6/13にアップデートされたGPT3.5の新機能であるファンクション機能を使うことで、複数観点に分けて研究内容の要約を出力させた。 ↓ 今回作成した、LLMを使ったCVPR論文検索システム 事の発端 Turingは、ハンド

                                                                GPT-3.5-turboの新機能を使ってCVPRの論文を良い感じに検索・推薦・要約するシステム
                                                              • 教師あり学習の精度を超えた!?相互情報量の最大化による教師なし学習手法IICの登場!

                                                                3つの要点 ✔️相互情報量を最大化する枠組みでニューラルネットを学習する教師なし学習手法IICの提案 ✔️予測値をそのまま出力するニューラルネットを学習可能であるため、クラスタリングが不要 ✔️従来の教師なし学習手法の「クラスタが一つにまとまってしまう問題」および「ノイズに弱いという問題」を解決 Invariant Information Clustering for Unsupervised Image Classification and Segmentation written by Xu Ji et.al (Submitted on 22 Aug 2019) subjects : Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG) はじめに 近年、様々な場面において、深層学習手法が使用さ

                                                                  教師あり学習の精度を超えた!?相互情報量の最大化による教師なし学習手法IICの登場!
                                                                • ついにここまできた生体認証 米で「ペニス認証」が登場

                                                                  いくつかのスマートフォンに採用されている指紋認証や、銀行のATMに設置されている静脈認証、海外の空港で入国審査時に行われる虹彩認証など、人の生体情報を認証システムに取り入れた「生体認証(biometrics認証)」は身の回りでよく見かけるようになった。 上記のような指紋や静脈、虹彩がよく利用される生体情報だが、米国ではついにペニス(陰茎)を利用する生体認証が開発された。 指紋や虹彩に匹敵する生体情報 アダルトチャットサービス「CamSoda」はウェブカメラやスマホで動画を撮影・中継したり、中継されている映像を視聴することができるウェブカメラプラットフォームだ。 利用にあたってはユーザー登録が必要で一般的なメールアドレスとID・パスワードを登録する方法も用意されており、ログイン認証もIDとパスワードを入力するようになっている。これに加えて生体認証「Dick-ometrics」が2017年7月

                                                                    ついにここまできた生体認証 米で「ペニス認証」が登場
                                                                  • 実案件から学んだ、本当に役立つUIデザインの法則50 ユーザビリティチェックリスト総集編|i3DESIGN Designers

                                                                    「ユーザビリティチェックリスト」ということで、UIデザインの「あるある」を取り上げ、改善案とセットでまとめています。 今回は、10のヒューリスティクスをもとに分類してみました。10のヒューリスティクスについては、以前記事にまとめています。 具体的な事例を一緒に取り上げ、よりわかりやすく解説していますので、こちらもあわせてご覧ください。 また弊社ホームページにて、ユーザビリティチェックリストをダウンロードいただけます。こちらも合わせてご活用ください。 1. システムステータスの可視化(Visibility of system status)1-1. 入力項目が多いときはステップを分けるフォームの入力項目が多い場合は、項目をグルーピングして画面を分割しましょう。 フォームが長すぎると、ユーザーは入力を途中で辞めてページから離脱してしまうかもしれません。 その上で、ステッパーを設置して現在の進捗

                                                                      実案件から学んだ、本当に役立つUIデザインの法則50 ユーザビリティチェックリスト総集編|i3DESIGN Designers
                                                                    • 米IT企業も否定的だった在宅勤務をポストコロナでも続けられるか|ショーンKY

                                                                      ※当初「GAFAでも超えられなかった在宅勤務の壁をどう超えるか」というハッタリ要素の強いタイトルだったのですが、やはり問題ありということで改題しました。 新型コロナウイルス対策として、在宅勤務が一般的となってきた。在宅勤務に対しては、従業員側は好意的評価をすることが多い。例えば、従業員対象のアンケートでは、約半数が在宅勤務で仕事の効率が上がったと回答している。女性を中心に在宅勤務ができるか否かを今後の判断基準としたいという声も多い。また海外においても在宅勤務を続けたい人へのアドバイス記事などが出ている。概ね、「在宅でも仕事はできるじゃないか、勤怠管理にこだわる必要はない」というような意見が従業員側では多数派ではなかろうか。 一方で企業側としては従業員をオフィスに戻したいようで、日本では緊急事態宣言が解除されると在宅勤務の率は10ポイントほど落ちており、米国企業でもプロジェクトの進行が徐々に

                                                                        米IT企業も否定的だった在宅勤務をポストコロナでも続けられるか|ショーンKY
                                                                      • WebAssemblyでの機械学習モデルデプロイの動向

                                                                        本記事はMLOps Advent Calendar 2020の 2 日目の記事です。 WebAssembly(Wasm)は機械学習モデルをデプロイする新たな手段になりうるでしょうか。 この記事では、機械学習モデル(特に Deep Learning)を Wasm でデプロイする周辺技術の動向や内部の仕組みをざっくりと説明します。 Table of Contents tkat0 です。WebAssembly(Wasm)面白いですね。 私も最近はyewでフロントエンドを書いて遊んでいます。Rust で React っぽいことできるのは新鮮で面白いです。 Wasm は、なんとなく速い JavaScript?とか機械学習で何に役立つの?とか思ってる方も多いと思います。 しかし、Wasm はブラウザでの推論時に使えるだけでなく、機械学習モデルのサービングやエッジデバイスでの推論にも使えると知ったら驚き

                                                                          WebAssemblyでの機械学習モデルデプロイの動向
                                                                        • 環境音認識のコンペティションDCASE2020で世界1位を獲得しました

                                                                          LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog DataLabsのSpeech teamに所属している小松です。環境音認識に関する基礎研究を行っています。環境音認識とは我々の身の回りで起こる多種多様な音、たとえば咳や話し声、物音などを機械に自動的に検出・認識させる技術です。この技術は音に関する分野の中で最もホットで急成長しているトピックの一つであり、環境音を専門に扱う国際コンペティション/ワークショップ、DCASEも毎年開催されています。 そのコンペティション部門であるDCASE2020 Challengeのtask 4に、LINEは昨年度のインターン成果 [1] を主軸にした名古屋大学、ジョンズ・ホプキンス大学との合同チームで参加し、世界1位を獲得することができました。本

                                                                            環境音認識のコンペティションDCASE2020で世界1位を獲得しました
                                                                          • ZOZOTOWN検索の精度改善の取り組み紹介 - ZOZO TECH BLOG

                                                                            こんにちは。検索基盤部の山﨑です。検索基盤部では、検索基盤の速度改善やシステム改善だけではなく検索の精度改善にも力を入れて取り組んでいます。 検索システム改善についての過去の取り組み事例は、こちらのリンクをご参照ください。 techblog.zozo.com また、ZOZOTOWNの検索ではElasticsearchを活用しています。Elasticsearchに関する取り組み事例はこちらのリンクをご参照ください。 techblog.zozo.com 本記事では、ZOZOTOWNで近年実施した検索の精度改善の取り組み事例を紹介します。 目次 目次 はじめに ZOZOTOWN検索の処理フロー ZOZOTOWN検索改善の方針について 商品のリランキングロジックについて 商品のリランキングロジックの概要 特徴量ロギングの導入について 今後のZOZOTOWN検索の展望 おわりに はじめに ZOZOT

                                                                              ZOZOTOWN検索の精度改善の取り組み紹介 - ZOZO TECH BLOG
                                                                            • MobileHackerz再起動日記: オープンソースの自動運転化キットで既存の車をハックする話 #車ハック

                                                                              2019/09/02 ■ オープンソースの自動運転化キットで既存の車をハックする話 #車ハック 元値730万円の新車が60万円で買えるようになったのでハックして遊ぶとすごく楽しい、という話の続編です。オープンソースの自動運転化キットを後付けして既存の車に自動運転機能を追加します。 【超重要】注意事項本記事には自動車の根本的な制御に介入し、運転のコントロールを乗っ取るという非常に危険な内容が含まれます。実施する場合は、自分がどのような制御・どのような操作をしているのか、それにはどのようなリスクがあり、どんな事態が起こりえるのか、事故を起こさないためにはどのような対応をすればいいのか、といったことを必ず自分の責任において理解した上で行ってください。すべては実施者ならびに運転者の責任となります。 自動運転システムの公道実証実験については、警察庁が自動走行システムに関する公道実証実験のためのガイド

                                                                              • 【保存版】オープンデータ・データセット100選 -膨大なデータを活用しよう! | AI専門ニュースメディア AINOW

                                                                                最終更新日: 2020年3月4日 AIの高まりとともにデータの大切さが再認識される今、オープンにさまざまなデータが公開され、気軽に活用できるようになっています。 オープンデータの存在は、膨大なデータから学習を行う機械学習にとって不可欠で、構築したいAIに合わせてオープンデータを選択し、活用することが必要です。 一方、オープンデータのみでは競合優位性のあるAIは構築できません。マクロなオープンデータと、独自に収集したミクロなデータを組み合わせて、独自のAIを構築していくことが重要です。 オープンデータを活用したサービスを構築する際には、サービスのUX(ユーザー体験)を高め、いかにユニークなデータを取得できるかが勝負なのでオープンデータに頼りすぎないようにしましょう。 今回、オープンデータ・データセットを6カテゴリに分類し、100個選出しました。自身のサービスやAIの構築に活かせそうなデータを

                                                                                  【保存版】オープンデータ・データセット100選 -膨大なデータを活用しよう! | AI専門ニュースメディア AINOW
                                                                                • 日本語OCRはなぜ難しい? NAVERのエンジニアが語る、テキスト検出における課題と解決策

                                                                                  2019年11月20、21日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2019」が開催されました。1日目は「Engineering」をテーマに、LINEの技術の深堀りを、2日目は「Production」をテーマに、Web開発技術やUI/UX、プロジェクトマネジメントなど、より実践的な内容についてたくさんのプレゼンテーションが行われました。「NAVER ClovaのOCR(光学的文字認識) 」に登壇したのはNAVER OCR Team AI ResearcherのHwalsuk Lee氏。深層学習を用いたOCR技術の仕組みについて語りました。講演資料はこちら LINEのOCR技術の仕組み Hwalsuk Lee氏:みなさま、こんにちは。Hwalsuk Leeと申します。NAVER Clova OCR Teamから参りました。今

                                                                                    日本語OCRはなぜ難しい? NAVERのエンジニアが語る、テキスト検出における課題と解決策