並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 1712件

新着順 人気順

recognitionの検索結果81 - 120 件 / 1712件

  • Kaggle上位ランカーの5人に聞いた、2019年面白かったコンペ12選と論文7選 | 宙畑

    2019年も様々なデータサイエンス関連のコンペが実施され、論文が発表されました。その中でも面白かったものはどれか、5人のkagglerの方に直接お伺いしました。 2019年はTellusxSIGNATEで実施された衛星データコンペの解説(第1回・第2回)が、データサイエンティストの方に読んでいただいた宙畑のヒット記事としてランクイン。 では、データサイエンティストの方は他にどのようなコンペや論文に興味を持たれていたのか……と気になった宙畑編集部。 今回、以下5名のKagglerの方に協力いただき、2019年の振り返りとして面白かったコンペと論文、そしてその理由を教えていただきました。 あきやま様(@ak_iyama) jsato様(@synapse_r) Hiroki Yamamoto様(@tereka114) smly様(@smly) ※順不同 ※1名、非公表 Kaggleについては「世

      Kaggle上位ランカーの5人に聞いた、2019年面白かったコンペ12選と論文7選 | 宙畑
    • 画像の中の文字を認識してくれるオープンソースのOCR「PaddleOCR」レビュー

      画像に含まれる文字をテキストデータ化する光学文字認識(OCR)は、請求書やレシート、名刺などの印刷物をデジタル化する手法として広く使われています。そんなOCRをディープラーニングフレームワークで実現したのが、オープンソースのOCRシステム「PP-OCRv2」のデモ版となる「PaddleOCR」です。 PaddleOCR - a Hugging Face Space by akhaliq https://huggingface.co/spaces/akhaliq/PaddleOCR GitHub - PaddlePaddle/PaddleOCR: Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recog

        画像の中の文字を認識してくれるオープンソースのOCR「PaddleOCR」レビュー
      • 結局のところ、新型コロナウイルス感染症は空気感染するのか?(坂本史衣) - 個人 - Yahoo!ニュース

        新型コロナウイルスがエアロゾルの状態で3時間以上生存できるという研究結果が2020年3月17日に医学雑誌ニューイングランド・ジャーナル・オブ・メディシン(NEJM)に掲載されました。これを受けて「やっぱり新型コロナウイルスは空気感染するのではないか」という疑問の声がSNS上で散見されます。 エアロゾルとは何か? エアロゾルは空気感染のイメージを抱かせやすい言葉ではありますが、「エアロゾルが生じると空気感染する」という考え方は正確ではありません。エアロゾルは、空気中に存在する細かい粒子のことです。ただし、その大きさについて明確な定義はありません。つまり、粒子径が20μmでも5μmでも、エアロゾルと呼ばれます(1μmは1000分の1mm)。 例えば、くしゃみや咳をしたときに口から出てきたばかりのエアロゾルは水分量が多く、重たいため、放物線を描きながら重力によって1~2m先の地面に落下します。粒

          結局のところ、新型コロナウイルス感染症は空気感染するのか?(坂本史衣) - 個人 - Yahoo!ニュース
        • 日本語自然言語処理のData Augmentationライブラリdaajaを作りました - 農園

          概要 こんにちは@kajyuuenです。 日本語自然言語処理のData Augmentationライブラリdaajaを作成しました。 この記事ではdaajaが実装しているData Augmentation手法についての解説とその使い方について紹介します。 ソースコードは以下のリポジトリで公開しています。 github.com また、このライブラリはPyPIに公開しているのでpip install daajaでインストールが可能です。 はじめに Data Augmentationとは Data Augmentationとは元のデータから新しいデータを生成し、データ数を増やす手法です。 日本語ではデータ拡張という名前で知られています。 ラベル付きデータを擬似的に増やすことによって、アノテーションコストを必要とせずにモデルの汎化性能や精度の向上が期待できます。 対応している手法 現在daajaは

            日本語自然言語処理のData Augmentationライブラリdaajaを作りました - 農園
          • Wikipediaを元にした日本語の名寄せデータセットを作成しました - Sansan Tech Blog

            こんにちは、DSOC 研究開発部の奥田です。以前の私のブログ記事ではコーギーの動画を見ていると書きましたが、とうとうコーギーを家族として迎え入れ、現在生後6ヶ月の子犬と暮らしております。 さて私たちDSOCでは、SansanやEightの価値を高めるために様々な自然言語処理のタスクに取り組んでおります。例えばニュース記事からの固有表現抽出では、私たちのサービスに特化した固有表現を対象に研究開発しています。その他にも様々あるなかで、特に重要かつ困難とされているものの一つに「名寄せ」というタスクがあります。AIや人工知能と呼ばれるものが発達した現代においても、人間には当たり前にできるタスクが機械には難しいことがまだまだ存在します。 今回は、その「名寄せ」というタスクにおける日本語でのデータセットを作成してみました。これをきっかけに、日本語での名寄せというタスクの研究が進み分野が活性化することを

              Wikipediaを元にした日本語の名寄せデータセットを作成しました - Sansan Tech Blog
            • プログラミング初心者がKaggle Expertになるまでの10ヵ月間を振り返る - Qiita

              Kaggle Expertになったので、イキってポエムを書こうと思いました。 AIに興味あるけどプログラミングすらできないんだよねという人向けの参考になれば幸いです。 1. 初期スペック (2019年2月) 機械工学系修士卒。よくいるメカニカルエンジニア 線形代数も統計も正直そんなに好きじゃない。力学の方が得意。 AI?あれでしょ。将棋超強いやつでしょ? パイソン?スト2のボクサーみたいなやつ? 2. 現在のスペック (2019年12月) Kaggle Expert (微妙?) 機械学習コンペでそれなりの成績 (Kaggle Kuzushiji Recognition 7th,Signate tellus 3rd 5th) 機械学習:なんとなくコーディングできる。 深層学習:なんとなくコーディングできる。 関連論文読める。簡単なものは実装できる。 業務適用も見えてきた 3. 機械学習を学ん

                プログラミング初心者がKaggle Expertになるまでの10ヵ月間を振り返る - Qiita
              • コンピュータビジョン(CV)の動向 2021 | gihyo.jp

                はじめに 国立研究開発法人 産業技術総合研究所の人工知能研究センターに所属している、片岡裕雄と申します。研究者としてコンピュータビジョン(CV)やパターン認識に関する研究を行う一方で、研究コミュニティcvpaper.challengeを主宰して「CV分野の今を映し、トレンドを創り出す」ことにも挑戦しています。cvpaper.challengeには最新動向の日本語サーベイ資料や研究メンバーによる研究成果も載せています。今回の記事に書ききれない、より詳細な情報はぜひそちらをご覧ください。 今回の記事については、出身大学の大先輩・皆川卓也氏から話を受けて実現しました。皆川氏は2010年にコンピュータビジョンの業界動向を寄稿されているのですが、今回恐れ多くもその企画を受け継ぐことになりました。 それから11年、深層学習の隆盛とともに発展してきたCV分野の動向を述べるにはあまりにも紙面が限られていま

                  コンピュータビジョン(CV)の動向 2021 | gihyo.jp
                • Yahoo! JAPAN's password-free authentication reduced inquiries by 25%, sped up sign-in time by 2.6x  |  web.dev

                  Yahoo! JAPAN's password-free authentication reduced inquiries by 25%, sped up sign-in time by 2.6x Stay organized with collections Save and categorize content based on your preferences. Yahoo! JAPAN is one of the largest media companies in Japan, providing services such as search, news, e-commerce, and e-mail. Over 50 million users log in to Yahoo! JAPAN services every month. Over the years, there

                    Yahoo! JAPAN's password-free authentication reduced inquiries by 25%, sped up sign-in time by 2.6x  |  web.dev
                  • nerman: AllenNLP と Optuna で作る固有表現抽出システム - クックパッド開発者ブログ

                    事業開発部の @himkt です.好きなニューラルネットは BiLSTM-CRF です. 普段はクックパッドアプリのつくれぽ検索機能の開発チームで自然言語処理をしています. 本稿では,レシピテキストからの料理用語抽出システム nerman について紹介します. nerman の由来は ner (固有表現抽出 = Named Entity Recognition) + man (する太郎) です. クックパッドに投稿されたレシピから料理に関する用語を自動抽出するシステムであり,AllenNLP と Optuna を組み合わせて作られています. (コードについてすべてを説明するのは難しいため,実際のコードを簡略化している箇所があります) 料理用語の自動抽出 料理レシピには様々な料理用語が出現します. 食材や調理器具はもちろん,調理動作や食材の分量なども料理用語とみなせます. 「切る」という調理

                      nerman: AllenNLP と Optuna で作る固有表現抽出システム - クックパッド開発者ブログ
                    • 無実の男性が顔認識システムの誤りのせいで1週間投獄される

                      機械学習を用いた顔認識システムは地下鉄の運賃や食堂の支払いを自動で行うといったシステムのほか、政府による監視網や犯罪の捜査に用いられています。一方で、顔認識システムの正確性やプライバシー面での是非も議論されており、イタリア規制当局が一部の犯罪捜査・抑止目的以外には利用を禁止したり、アメリカの大都市が相次いで当局による使用を禁止したりしています。特に有色人種の認識で誤認を起こしやすいことが確認されており、2022年末ごろに無実の黒人男性が顔認識システムの間違いにより不当に逮捕されたケースを弁護士が発表しています。 JPSO used facial recognition to arrest a man. It was wrong. | Crime/Police | nola.com https://www.nola.com/news/crime_police/jpso-used-facial

                        無実の男性が顔認識システムの誤りのせいで1週間投獄される
                      • Personal Tech Blog | hidekazu-konishi.com

                        Here I plan to share my technical knowledge and experience, as well as my interests in the subject. Please note that this tech blog is a space for sharing my personal views and ideas, and it does not represent the opinions of any company or organization I am affiliated with. The main purpose of this blog is to deepen my own technical skills and knowledge, to create an archive where I can record an

                          Personal Tech Blog | hidekazu-konishi.com
                        • Kaggle Grandmasterになるまでの7年間の軌跡 - のんびりしているエンジニアの日記

                          皆さんこんにちは お元気でしょうか。冬だというのに、GPUと暖房で半袖装備でも過ごせています。 今年、長きにわたるMaster生活の終演を迎え、ようやくGrandmasterになることができました。 そこで、Grandmasterになるまでの経験をこちらに書き記しておこうと思います。 この記事はKaggle AdventCalendar2021カレンダー2、25日目になります。 qiita.com 著者の背景 Kaggleへの取り組み 1-3年目 4年目 IEEE's Signal Processing Society Avito Demand Prediction Challenge Home Credit Default Risk 5年目あたり 6年目 Global Wheat Detection 7年目 Shopee - Price Match Guarantee Hungry Ge

                            Kaggle Grandmasterになるまでの7年間の軌跡 - のんびりしているエンジニアの日記
                          • 機械学習セキュリティのベストプラクティス – Draft NISTIR 8269: A Taxonomy and Terminology of Adversarial Machine Learning –

                            機械学習セキュリティのベストプラクティス – Draft NISTIR 8269: A Taxonomy and Terminology of Adversarial Machine Learning – 論文紹介 概要 「Draft NISTIR 8269: A Taxonomy and Terminology of Adversarial Machine Learning」は、米国のNIST(National Institute of Standards and Technology)が策定を進めている機械学習セキュリティに関するベストプラクティスのドラフトであり、機械学習システムの安全確保を目的として、機械学習にまつわるセキュリティを「攻撃」「防御」「影響」の3つの視点で分類している。 NISTIR8269はブログ執筆時点(2020年7月9日)でドラフト版であるが、「NIST SP8

                              機械学習セキュリティのベストプラクティス – Draft NISTIR 8269: A Taxonomy and Terminology of Adversarial Machine Learning –
                            • 記憶力を高める4つのルーティン。学習内容を強く覚えるカギは「1分間」の使い方にあり - STUDY HACKER(スタディーハッカー)|社会人の勉強法&英語学習

                              必死に勉強しているにもかかわらず、その内容をなかなか記憶できないという人はいませんか? じつは記憶力は、数秒から数分もかからない簡単な行動で高められます。今回は、勉強のときにぜひ実践してほしい、記憶力を高める4つのルーティンをご紹介しましょう。 1. 「1分間ライティング」を行なう 日本記憶力選手権大会6連覇という実績をもつ池田義博氏は、ひとつのテーマに関連した内容を1分間でひたすら書き出す「1分間ライティング」という方法をすすめています。池田氏によれば、きちんと書き出すことができた内容は、使える記憶として定着しているとのこと。逆に、書き出せなかった内容があれば、そこがすなわち要復習ポイントだとわかるのです。ちなみに「1分間」で書く理由は、試験本番を想定してすばやく思い出す訓練をするためだそう。 また、精神科医の樺沢紫苑氏は、書き出す=アウトプットするという作業自体が記憶を定着させると言い

                                記憶力を高める4つのルーティン。学習内容を強く覚えるカギは「1分間」の使い方にあり - STUDY HACKER(スタディーハッカー)|社会人の勉強法&英語学習
                              • 無償入手可能な音声コーパス/音声データベースの一覧 - Qiita

                                無償かつ入手しやすい音声データセットをメモしています。 ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。 コーパスを探すときに有用なサイト コーパス配布元サイト 音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能 緩いライセンスのコーパスでなくても良いときはここ 自発的発話の日本語音声コーパスはだいたいここにある 入手は要申請 所属や責任者を記入する必要があるため、研究者や企業でないと厳しい? (この記事では音声資源コンソーシアムのコーパスは未掲載) Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス 大量の日本語音声コーパスが配布されている 音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情 あなたにどうしても伝えたい30の音声コーパス

                                  無償入手可能な音声コーパス/音声データベースの一覧 - Qiita
                                • PyCon JP 2019で見たセッションの聴講記録20個分 / 資料・動画・関連リンクなど - フリーランチ食べたい

                                  2019年9月16日/17日に開催されたPyCon JP 2019で自分が直接/YouTubeで聴講したセッションについてのまとめです。主に下記の内容を書いています。 スピーカーURL 配信動画 スライド 発表内で出てきたライブラリなどのURL 自分の感想 「あのセッションで話していたライブラリなんだっけ」と思い出したい方やざっくり内容が知りたい方に読んでいただければ幸いです。PyCon JPに自分も発表者としても参加し、スタッフとして参加し、Webサイトの開発もしたので、それについては改めて書きたいと思います。 pycon.jp PythonとAutoML / 芝田 将 スピーカー: https://twitter.com/c_bata_ 動画: https://www.youtube.com/watch?v=Whkwu46DgBs スライド: https://www.slideshar

                                    PyCon JP 2019で見たセッションの聴講記録20個分 / 資料・動画・関連リンクなど - フリーランチ食べたい
                                  • 実務で使う固有表現抽出 / Practical Use of Named Entity Recognition

                                    ■イベント 
:自然言語処理勉強会 https://sansan.connpass.com/event/190157/ ■登壇概要 タイトル:実務で使う固有表現抽出 発表者: 
DSOC R&D研究員 高橋 寛治 ▼Twitter https://twitter.com/SansanRandD

                                      実務で使う固有表現抽出 / Practical Use of Named Entity Recognition
                                    • 【機械学習 × テニス】姿勢推定とLightGBMを用いたテニスのスイング認識【動作検出】 - はんぺんのIT日記(改)

                                      はじめに 手法の決定 開発環境 データ取得 動画撮影 アノテーション 関節位置のデータ モデリング 学習用データ データ加工 データ分割 学習 評価 評価用データ Feature Importance Confusion matrix 動作の誤検出 高度化検討 トラッキングの追加 姿勢の検出精度の高いモデルの使用 特徴量の再検討 予測モデルへの転換 関節位置データのAugmentation さいごに 参考 はじめに こんにちは。はんぺんです。 テニスのスイングの検出・分類モデルを作ってみました。 youtu.be モチベーションとしては、インテリジェントデバイス的な何かを作ってみたいというものです。 ちょうど魔法少女リリカルなのはのレイジングハートみたいなイメージです。 インテリジェントデバイスとは、AIを有し自ら思考するタイプのデバイスのこと。 出展:レイジングハートとは (レイジングハ

                                        【機械学習 × テニス】姿勢推定とLightGBMを用いたテニスのスイング認識【動作検出】 - はんぺんのIT日記(改)
                                      • Stripe、国内 B2B ビジネスからの多くの要望に応え、日本チームにより開発された銀行振込機能を統合ソリューションプラットフォームに新たに搭載

                                        Stripe、国内 B2B ビジネスからの多くの要望に応え、日本チームにより開発された銀行振込機能を統合ソリューションプラットフォームに新たに搭載 東京 ― インターネット向け経済インフラのプラットフォームを構築する Stripe は本日、日本で多くのご要望を頂いていた銀行振込機能の提供を開始したことを発表しました。これにより、スタートアップから大企業までのあらゆる規模の企業が、単一の Stripe API を介して国内の銀行振込を取り扱うことができるようになり、 単一のプラットフォームでお見積りから会計処理までの決済機能を含めた全てのビジネスプロセスを利用できるようになります。日本特有の決済方法であるコンビニ決済に続き、銀行振込機能も日本のチームによって開発されており、国内の B2B から B2C まで幅広い企業のニーズやご要望に合わせてカスタマイズされています。 コロナ禍の長期化により

                                          Stripe、国内 B2B ビジネスからの多くの要望に応え、日本チームにより開発された銀行振込機能を統合ソリューションプラットフォームに新たに搭載
                                        • GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision

                                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                            GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision
                                          • 脳と心の科学の「ミッドライフクライシス」(京都大学情報学研究科 教授、ATR脳情報研究所 客員室長:神谷之康) #その心理学ホント?|「こころ」のための専門メディア 金子書房

                                            脳と心の科学の「ミッドライフクライシス」(京都大学情報学研究科 教授、ATR脳情報研究所 客員室長:神谷之康) #その心理学ホント? 私が学生だった1990年代前半、脳と心の科学の未来は輝いて見えた。80年代末から続いていた(第2次)ニューラルネットワークブームや、当時NatureやScienceに頻繁に掲載されていたサルの電気生理学研究の印象は強烈だった。「認知科学」や「認知心理学」の「認知」という言葉に、旧来の「心理学」や「生理学」にはない軽やかな響きを感じた。当時は、行動主義から認知科学への移行(「認知革命」)によって、観察可能な行動だけでなく、行動の背後にある認知プロセスについて研究できるようになったと言われていた(が、これが単純化された「建国神話」であることが後に分かってきた)(1)。90年代半ば以降、ニューラルネットワークブームは一時下火になる一方、脳イメージング技術の進展を背

                                              脳と心の科学の「ミッドライフクライシス」(京都大学情報学研究科 教授、ATR脳情報研究所 客員室長:神谷之康) #その心理学ホント?|「こころ」のための専門メディア 金子書房
                                            • AIは双子の顔をどれだけ正確に判別できるのか?(規約違反してしまったので修正の上 再公開いたしました) - Qiita

                                              100% の圧倒的正解率!!!!(顔検出されない場合を除く) たった5枚の画像による学習でここまでの精度を出せるなんて、 Face API すごいですね。 Face APIにとっては、一卵性の双子ですら見分けることは朝飯前のようです。 顔検出されない場合について 「顔検出されず」の数が少々多いのが気になります。 個別に見ると、はっきり顔が映っているのに顔検出されない場合がありました。Face APIは、顔が斜めに写っている写真は苦手のようです。 顔検出されない画像例 作り方 かかる時間について この製作に費やした時間は約2日です。 平日フルタイムで働き、帰宅後に作業を開始してこの日数です。 このエントリーを書くほうが時間がかかっています。 そのくらい手軽&簡単に、AI を使ってモノづくりができるよということをお伝えできればと思います。 使ったもの サービス インターフェイス LINE BO

                                                AIは双子の顔をどれだけ正確に判別できるのか?(規約違反してしまったので修正の上 再公開いたしました) - Qiita
                                              • 認めたくないものだな… Neural Networkの力学系表現というものを - Qiita

                                                この記事は、NTTコミュニケーションズ Advent Calendar 2019の18日目の記事です。 昨日は @yusuke84 さんの記事、WebRTC Platform SkyWayのサポートについて考えていること でした。 メリークリスマス! はじめに 会社のAdvent Calendarということで、当初はある程度流れに忖度して技術的なTipsを書こう! とか考えて、Neural Networkについてネタ探ししてたのですが、結局自分が興味のある話、それも実装よりも理論一辺倒な話に落ち着いてしまった、本記事はそんな成れの果てです。 (まあ1人くらい暴走しても良いですよね、きっと) というわけで、Neural Networkを用いた物理系の表現について、少し前から気になってる話をツラツラと書いていきます。そのうちに、この辺の話を端緒に新規性のある手法を論文化するから、それ相応の評価

                                                  認めたくないものだな… Neural Networkの力学系表現というものを - Qiita
                                                • Twilioを利用した障害時の自動連絡網システムについて - BASEプロダクトチームブログ

                                                  この記事はBASE Advent Calendar 2020の5日目の記事です。 SRE Groupのngswです。 Eコマースプラットフォーム「BASE」における障害発生時に、社内関係者に連絡網に基づいて電話発信するシステムを構築しました。 このエントリでは、その導入までの経緯と具体的な当該システムの説明をします。 TL;DR 「BASE」で問題が発生した際に意思決定者に電話発信する周知システムを構築した 「導入前に考えたこと」をまず主題として書いた 参考URL記事のまま手順であるが、それでも導入時に詰まった事柄など落ち穂拾い的に追記した 謝辞 Twilio FunctionsとStudioを使って連続架電を行う - Qiita 大変わかりやすい記事であり、ほぼすべてを参考にさせていただいた。このQiita記事がなければ短期間で実現することは不可能であったと考える 導入に至る経緯 07月

                                                    Twilioを利用した障害時の自動連絡網システムについて - BASEプロダクトチームブログ
                                                  • みんなが優しくなれるテレワークのはじめかた - Qiita

                                                    はじめに この記事は、シスコシステムズの有志による Cisco Systems Japan Advent Calendar 2020 の 12 日目として投稿しています。 2017 年版: https://qiita.com/advent-calendar/2017/cisco 2018 年版: https://qiita.com/advent-calendar/2018/cisco 2019 年版: https://qiita.com/advent-calendar/2019/cisco 2020 年版: その 1, その 2 TL;DR リモートワークが浸透するにつれて、こんなお悩みをよく耳にします Web 会議中に自宅の 私生活のノイズ が聴こえてくる💥 (掃除機や洗濯機) Web 会議の 品質がすごく悪い けれど、家族が NetFlix を再生 📺 していたのが原因らしい この

                                                      みんなが優しくなれるテレワークのはじめかた - Qiita
                                                    • 【レポート】コンテナだけどサーバーレス! AWS Lambda の最新機能をご紹介 #AWSSummit | DevelopersIO

                                                      CX事業本部@大阪の岩田です。5月31日までアーカイブが視聴可能なAWS Summitですが、Developer Zoneという開発者向けの特設サイトが存在することをご存知でしょうか?公式サイトでは以下のように案内されています。 より多くの技術情報に触れたいとお考えの開発者の方向けに、エキスパートによるテクニカルトーク、ライブ解説付きのデモ、AWS Robot Delivery Challenge, AWS DeepRacer リーグなど、多彩なコンテンツを備えた特設サイト「Developer Zone」をご用意しました。 少しカジュアルな雰囲気の中、よりディープに AWS サービスを活用した開発のノウハウを知ることができます。テクニカルトーク、ライブ解説付きのデモでは、参加するお客様からのご質問にもその場でお答えしますので、ぜひご参加ください。 この記事はDeveloper Zoneのセ

                                                        【レポート】コンテナだけどサーバーレス! AWS Lambda の最新機能をご紹介 #AWSSummit | DevelopersIO
                                                      • BERTによる日本語固有表現抽出の精度改善 〜BERT-CRFの紹介〜 - Sansan Tech Blog

                                                        こんにちは、DSOC R&Dグループ インターンの笛木正雄です。大学院では離散最適化の研究室に所属しています。インターンでは、日々、知らないことだらけで、色々なことを経験させていただき、伸びしろを実感する毎日です。 現在は、SansanやEightのニュース配信に使用されている固有表現抽出(文章中から組織名を抽出するために使用)と呼ばれる自然言語処理タスクに携わっています。今回は、これまで取り組んだ固有表現抽出における精度改善の手法を紹介したいと思います。ありがたいことに、この手法は現在、プロダクトで実際に稼働しているため、思い入れのある手法です。 また、今回の手法を含め、日本語固有表現抽出については、コード公開を予定しており、pipでインストールできるように現在進行中です。ご興味ある方は、お待ちいただき、合わせてご覧いただければ幸いです。 ※弊社のニュース配信における固有表現抽出タスクの

                                                          BERTによる日本語固有表現抽出の精度改善 〜BERT-CRFの紹介〜 - Sansan Tech Blog
                                                        • トップカンファレンスにおけるデータセットシフトと機械学習 - Ridge-institute R&D Blog

                                                          こんにちは,株式会社Ridge-iのリサーチチームの@machinery81です. 今回はNeurIPS2020で発表されたデータセットシフトを扱う機械学習に関連する論文を紹介します. 本記事は,Ridge-i主催の論文読み会で発表した以下の資料に基づいています. TL;DR 機械学習におけるデータセットシフト Covariate Shift Target Shift Concept Shift Domain Shift Sample Selection Bias Taxonomy of NeurIPS2020 papers about Dataset Shift 論文紹介 Rethinking Importance Weighting for Deep Learning under Distribution Shift Importance Weighting for Distribut

                                                            トップカンファレンスにおけるデータセットシフトと機械学習 - Ridge-institute R&D Blog
                                                          • GitHub Copilot for Business is now available

                                                            ProductGitHub Copilot for Business is now availableGitHub Copilot is the world’s first at-scale AI developer tool and we’re now offering it to every developer, team, organization, and enterprise. First previewed in partnership with OpenAI in 2021, GitHub Copilot is the world’s first at-scale AI developer tool. Sitting within the editor as a simple extension, GitHub Copilot draws context from a dev

                                                              GitHub Copilot for Business is now available
                                                            • パラメータ数を激減させる新しい畳み込み「MixConv」解説!

                                                              3つの要点 その1  パラメータ数を激減させる新しい畳み込みMixConvを提案 その2  MixConv層を含んだモデルをAIに自動生成(=NAS)させることでMixNetを開発 その3  MixNetはMobileNet-V3やMnasNetなどの小型画像認識モデルのみならずResNet-153に対してはパラメータ数1/9程度で性能を凌いだ MixConv: Mixed Depthwise Convolutional Kernels written by Mingxing Tan, Quoc V. Le (Submitted on 22 Jul 2019 (v1), last revised 1 Dec 2019 (this version, v3)) Journal reference: BMVC 2019 Subjects: Computer Vision and Pattern

                                                                パラメータ数を激減させる新しい畳み込み「MixConv」解説!
                                                              • 無料でカメラを向けた花の名前を即座にAIが教えてくれるアプリ「ハナノナ」を使ってみた

                                                                花にカメラを向けると、AIが瞬間的に花の名前を教えてくれるiOSアプリ「ハナノナ」が公開中です。千葉工業大学 人工知能・ソフトウェア技術研究センターの研究プロジェクトで作られたもので、判定できる花の種類は770種類。無料で利用できるとのことなので、実際に使ってみました。 「ハナノナ app」をApp Storeで まずは上記URLにアクセスして「入手」をタップ。 「インストール」をタップし…… アプリを開きます。 利用規約に同意したら「同意して始める」をタップ。 カメラの使用は必須なので、「"ハナノナ"がカメラへのアクセスを求めています」に「OK」をタップ。 すると、すぐにカメラが起動します。さっそくツツジを見つけたのでカメラを向けてみると、ツツジ科の植物である「サツキ」だったことが判明しました。サツキはツツジと似ていますが、葉や花が微妙に違うとのこと。「100%」「93%」など、花の種類

                                                                  無料でカメラを向けた花の名前を即座にAIが教えてくれるアプリ「ハナノナ」を使ってみた
                                                                • 生成AIと音声認識を組み合わせて会議アシスタントツールを作ったら生産性が大幅に向上した話

                                                                  株式会社クラウドネイティブは、Azure OpenAIで自組織専用のChatGPTの構築を支援するサービスを展開しています。ChatGPTとAzure AD OpenAI Serviceの取り組みや事例、支援… IDチームの前田です。今日は生成AI(ChatGPT)と音声認識モデル(Whisper)を利用した会議アシスタントツールに関する投稿になります。 (追記) 作ったツールはGitHub上で公開しており、Dockerを利用してすぐに試せるようになってます。 https://github.com/cloudnative-co/mtg-ai-assistant 2023年8月30日現在Azure OpenAIにてWhisperが利用出来ていないため、OpenAI Whisper APIを利用した試験段階のものになります。近日中にAzure OpenAIにてWhisperが利用出来るとアナウ

                                                                    生成AIと音声認識を組み合わせて会議アシスタントツールを作ったら生産性が大幅に向上した話
                                                                  • 単なる「雑学好き」で終わる人と、本当の教養を手に入れる人の差

                                                                    『独学大全──絶対に「学ぶこと」をあきらめたくない人のための55の技法』著者の読書猿さんは昨年「独学」「執筆」に加えて「復刊」をライフワークとしていくことをTwitterで宣言した。この連載「読書猿が推す『良書復刊』プロジェクト」では、読書猿さんが推す復刊本や、復刊に関係する話を紹介していく。 2022年5月19日より、国会図書館による「個人向けデジタル化資料送信サービス」がスタートする。ごく簡単に説明すると「国会図書館デジタルコレクション所蔵の絶版本や雑誌が、自宅で読み放題になる無料サービス」だ。読書猿さんは、このニュースは全国の独学者にとっても福音であると話す。今回は、元司書でレファレンス担当だった書物蔵さんを対談相手に迎え、同サービスの使いこなし方、楽しみ方を語ってもらった。(取材・執筆/藤田美菜子) 第1回 元司書が語る!国立国会図書館の絶版本「読み放題解禁」がスゴい 膨大な資料を

                                                                      単なる「雑学好き」で終わる人と、本当の教養を手に入れる人の差
                                                                    • How to Use ChatGPT With Siri on Your iPhone

                                                                      ChatGPT may not have an official mobile app, but you can still access its capabilities with Siri and the Shortcuts app. We'll teach you how. With ChatGPT being all the rage today, Apple users are likely wondering how to access it on their iPhones. For those of you who aren't aware, ChatGPT is an AI-powered chatbot that allows you to have human-like conversations. Although ChatGPT doesn't have an o

                                                                        How to Use ChatGPT With Siri on Your iPhone
                                                                      • Code Reviews 101 - The Basics | Sema

                                                                        Code improves with multiple reviews and revisions, and this process isn’t something that can be done alone. Spotting errors in code design is difficult at the best of times — and the closer you are to the work, the harder it can be to critique. That’s where code reviews come in. The beginning: introducing code reviewsWhat is a code review? Code improves with multiple reviews and revisions, and thi

                                                                          Code Reviews 101 - The Basics | Sema
                                                                        • RNNからTransformerまでの歴史を辿る ~DNNを使ったNLPを浅く広く勉強~ - arutema47's blog

                                                                          Amazon Prime 一ヶ月無料 Seq2seqからBERTまでのNLPモデルの歴史をざっとまとめる。 DNNは知ってるけどTransformerってなんだかわからない、って人におすすめです。 Abst. 画像認識にもTransformerが使われることが多く、DeepRLやGPT-3といったNLPモデルも身近になってきています。"Attention is 何?"と言えなくなってきたので勉強しました。 Feedforward NetworksからSeq2Seq, Attention機構からTransformer登場、そしてBERT GPTといった最新モデルまでの流れを広く浅く記述する予定。 またKaggle NLPコンペの上位解法から利用例を探る。 Tl;DR TransformerはSelf-Attentionという機構でデータ内の時系列的特徴を抽出でき、従来のRNNを始めとするNN

                                                                            RNNからTransformerまでの歴史を辿る ~DNNを使ったNLPを浅く広く勉強~ - arutema47's blog
                                                                          • styleguide

                                                                            Background Which Shell to Use Bash is the only shell scripting language permitted for executables. Executables must start with #!/bin/bash and a minimum number of flags. Use set to set shell options so that calling your script as bash script_name does not break its functionality. Restricting all executable shell scripts to bash gives us a consistent shell language that’s installed on all our machi

                                                                            • リックライダー「人と計算機の共生」 - 山形浩生の「経済のトリセツ」

                                                                              翻訳中の本に、影響力の強い文として出てきたので、座興でやってみた。んー、いまだとそんなにすごい感じではないのと、ChatGPTとか出てきて、人間計算機共生のありかたそのものの、歴史的前提が崩れ始めている感じではある。とはいえ、60年以上前の話だから…… むしろ、この中で出てくる、人間で拡張された機械、という概念の方が妥当性が高いんじゃないかとさえ思う。 人と計算機の共生 Man‑Computer Symbiosis J. C. R. リックライダー 山形浩生訳 (hiyori13@alum.mit.edu) IRE Transactions on Human Factors in Electronics, volume HFE-1, pages 4-11, March 1960 groups.csail.mit.edu 要約 人と計算機の共生は、人と電子計算機との協力的な相互作用の中で、予

                                                                                リックライダー「人と計算機の共生」 - 山形浩生の「経済のトリセツ」
                                                                              • Huaweiが中国のAI大手Megviiと協力して「ウイグル人アラーム」を開発していたことが機密文書から判明

                                                                                中国の通信機器大手Huaweiが、北京を拠点とする画像認識や人工知能(AI)のベンダーであるMegviiと共同で、ウイグル人を追跡する顔認証システムを開発していたと報じられています。 Huawei / Megvii Uyghur Alarms https://ipvm.com/reports/huawei-megvii-uygur Huawei tested AI software that could recognize Uighur minorities and alert police, report says - The Washington Post https://www.washingtonpost.com/technology/2020/12/08/huawei-tested-ai-software-that-could-recognize-uighur-minoritie

                                                                                  Huaweiが中国のAI大手Megviiと協力して「ウイグル人アラーム」を開発していたことが機密文書から判明
                                                                                • 固有表現抽出のアノテーションデータについて - NLP太郎のブログ

                                                                                  自然言語処理技術のなかでも固有表現抽出(Named Entity Recognition; NER)は情報抽出の処理をやろうとするときにとても役立つ。 応用は幅広く、会社名や個人名などの情報抽出処理、個人情報除去などのような抽出した情報に対する処理、代名詞の解析(照応解析・共参照解析)のような文脈解析処理などに用いられる。 最も簡単なNERの方法としては、辞書や形態素解析結果や正規表現などに基づくルールを用いて、単語列にラベリングする方法があるが、会社名など判断が難しいケースについては機械学習によってNERを行うことが有効なことが多い。機械学習ベースの既存の固有表現抽出器を使ってみたい場合には、GiNZAやKNPのようなNERモデルが同梱されているツールを使用してみるのがよい。 しかし公開モデルの性能では満足いかない場合に自分でモデルを構築しようとしても、公開データセットが見つけにくかった

                                                                                    固有表現抽出のアノテーションデータについて - NLP太郎のブログ