並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 62件

新着順 人気順

文字認識の検索結果1 - 40 件 / 62件

  • 中日新聞:自動車工場のガロア体 QRコードはどう動くか

    その誕生を地元新聞も経済新聞も記事にしなかった。2年後、『コードの情報を白黒の点の組み合わせに置き換える』と最下段のベタ記事で初めて紹介された時、その形を思い浮かべることができる読者はいなかった。いま、説明の必要すらない。QRコードはなぜ開発され、どう動くのだろうか。 QRコードは、自動車生産ラインの切実な要請と非自動車部門の技術者の「世界標準の発明をしたい」という野心の微妙な混交の下、1990年代前半の日本電装(現デンソー)で開発された。 トヨタグループの生産現場では、部品名と数量の記された物理的なカンバンが発注書、納品書として行き来することで在庫を管理する。そのデータ入力を自動化するバーコード(NDコード)を開発したのがデンソーだ。 バブル全盛の1990年ごろ、空前の生産台数、多様な車種・オプションに応えるため、部品も納入業者も急激に増え、NDコードが限界を迎えていた。63桁の数字しか

    • AWSの膨大で複雑なサービス群をすべて「たった1行」で説明していくとこうなる

      AmazonのクラウドサービスであるAWSは、コンピューティングやデータベース、ストレージなど、膨大で複雑なサービスで構成されています。こうした豊富なサービス群をうまく組み合わせて利用する「ビルディングブロック」がAWSのメリットでもありますが、サービス数が多すぎてなかなか全体像を把握できないのも事実。フリーランスのエンジニアでありコンサルタントでもあるジョシュア・テイセン氏が自身のブログで、AWSのすべてのサービスを「たった1行」で説明しています。 Amazon Web Services https://adayinthelifeof.nl/2020/05/20/aws.html テイセン氏によると、Amazon Dashboardから利用可能なAWSのサービスは記事作成時点で163あるとのこと。そのすべてを正確に理解する必要はありませんが、基本を押さえておくことはいいことであり、問題の

        AWSの膨大で複雑なサービス群をすべて「たった1行」で説明していくとこうなる
      • 【2020年】AWS全サービスまとめ | DevelopersIO

        このエントリは、2018年、2019年に公開したAWS全サービスまとめの2020年版です。これまではいくつかに分割して公開していましたが、1エントリにまとめてほしいという要望をもらっていたため、今年は1エントリに集約してみました。 こんにちは。サービスグループの武田です。 このエントリは、2018年、2019年に公開した AWS全サービスまとめの2020年版 です。これまではいくつかに分割して公開していましたが、1エントリにまとめてほしいという要望をもらっていたため、今年は1エントリに集約してみました。どちらがいいのか正直わからないので、フィードバックなどあれば参考にさせていただきます。 2020-01-08 リクエストがあったためAmazon Mechanical Turkを追加。 2018年まとめ 【2018年】AWS全サービスまとめ その1(コンピューティング、ストレージ、データベー

          【2020年】AWS全サービスまとめ | DevelopersIO
        • 無料でChrome・Firefoxの操作を自動化&ファイルのアップロードやデスクトップの操作もできる「UI.Vision」

          業務には「同じ作業の繰り返し」がつきものですが、何度も同じ作業を繰り返していると「こういう単純作業を任せるために機械ってものが生まれたんじゃないのか?」と思うわけです。無料のChrome・Firefoxの拡張機能「UI.Vision」を使うと操作を自動化できるマクロが組めて単純作業がラクチンになるとのことなので、実際に使っていました。 Open-Source RPA and Web Automation Tools for macOS, Linux and Windows https://ui.vision/ というわけで、実際にUI.Visionを使ってみます。Chrome版とFirefox版は、それぞれ以下の公式拡張機能ストアからダウンロード可能です。 UI.Vision RPA - Chrome ウェブストア https://chrome.google.com/webstore/de

            無料でChrome・Firefoxの操作を自動化&ファイルのアップロードやデスクトップの操作もできる「UI.Vision」
          • AI・Python活用レシピ100選 - Qiita

            ※ 一部ガイドラインに反する内容がありましたので、該当箇所を修正のうえ再投稿しております。 はじめに Axross は、エンジニアの"教育"と"実務"のギャップに着目し、「学んだが活用できない人を減らしたい」という想いで、ソフトバンク社内起業制度にて立ち上げたサービスです。 現役エンジニアによる実践ノウハウが"レシピ"として教材化されており、実際に動くものを作りながら、具体的な目的・テーマをもってプログラミングを学ぶことができます。 今回は、Axross運営が厳選した『AI・Python活用レシピを100選』をご紹介します。是非、みなさまのAIやPython学習の参考にしてみてください。 Axross:https://axross-recipe.com 公式Twitter:https://twitter.com/Axross_SBiv 基礎 スクレイピング 01 . JUMPの掲載順をスク

              AI・Python活用レシピ100選 - Qiita
            • 【2021年】AWS全サービスまとめ | DevelopersIO

              こんにちは。サービスグループの武田です。このエントリは、2018年から公開しているAWS全サービスまとめの2021年版です。 こんにちは。サービスグループの武田です。 このエントリは、2018年から毎年公開している AWS全サービスまとめの2021年版 です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの?」という疑問を自分なりに理解するためにまとめました。 今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2020年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 205個 です。 まとめるにあ

                【2021年】AWS全サービスまとめ | DevelopersIO
              • GPT-4oをOCRとして使う - Re:ゼロから始めるML生活

                OpenAIからChatGPT-4oが発表されましたが、皆さんガンガンつかっていますでしょうか? さて、このChatGPT-4oですが、テキスト以外のデータも使用できるようになっているという特徴があります。 普通にテキストでのやり取りをしつつも画像データを扱えるということで、「実はこれいい感じのOCRとして使えるんじゃね?」って思っちゃったわけです。 ということで、今回はChatGPT-4oを使ってOCRを使うとどんなもんなのかやってみたいと思います。 やりたいこと やってみる とりあえずやってみる 請求書 名刺 参考文献 感想 やりたいこと 今回やりたいことはOCRです。早い話が画像ファイルを突っ込んでテキストを読み取りたいって感じです。 ただ、当たり前のようにOCRって言葉を使用していますがOCRって結構奥が深いです。 mediadrive.jp 単純に画像から文字を見つけて対応するテ

                  GPT-4oをOCRとして使う - Re:ゼロから始めるML生活
                • 歴史・年表でみるAWS全サービス一覧 -アナウンス日、General Availability(GA)、AWSサービス概要のまとめ- - NRIネットコムBlog

                  小西秀和です。 Amazon Web Services(AWS)に関する情報や魅力を様々な観点から記事にしてみていますが、技術史が好きなこともあって今回はAWSサービスの発表の歴史を年表でまとめました。 AWSからもWhat's Newとして公式アナウンスは発表されていますが、アナウンス日、GA日(一般提供開始日)、サービス名、サービス概要といった情報に圧縮して時系列でAWSサービス一覧を一枚もので確認できる記事が今まで欲しかったので自分で作成してみることにしました。 AWS全サービスの歴史年表の作成方法 AWS全サービスの歴史年表の対象となるAWSサービスは次の手順で選定しました。 AWSサービス・製品一覧「Cloud Products(英語版)」にあるサービスのうち「~ on AWS」といったサードパーティー製品がメインとなるサービスを除いたリストを作成 AWSサービス・製品一覧に記載

                    歴史・年表でみるAWS全サービス一覧 -アナウンス日、General Availability(GA)、AWSサービス概要のまとめ- - NRIネットコムBlog
                  • Amazon Musicでプライム会員は1億曲以上聞けるように→「聞きたい曲を押すと他の曲が流れる」「シャッフル再生しかできない」と不満の声続出

                    Amazon MusicがAmazonプライムの会員特典をリニューアルし、従来の200万曲から追加料金なしで1億曲以上聞けるようになりました。その一方で、再生の仕様にも変更があり、SNSでは不満の声が多く上がっています。 Amazonは11月1日、Amazonプライム会員向けにAmazon Music内で1億曲以上聞けるように仕様変更しました。しかし、おすすめの曲を自動で流す「ステーション」での再生がメインとなり、さまざまな機能上の制限も出ています。 例えば、アルバムで聞きたい曲を再生しようとすると、「あなたが選んだアルバムを似た音楽とミックスしてシャッフル再生します」という文言が現れ、別の曲が流れるように。これはプレイリストも同様で、1曲目から順番に聞くということができなくなっています。 ビートルズの名盤「Abbey Road」。1曲目の「Come together」を再生しようとするも

                      Amazon Musicでプライム会員は1億曲以上聞けるように→「聞きたい曲を押すと他の曲が流れる」「シャッフル再生しかできない」と不満の声続出
                    • 厚生労働省が10年備えた感染把握システムを採用せず、急造「HER-SYS」は機能不全

                      医療現場の負荷軽減へ縮小運用を続ける感染者情報管理システム「HER-SYS」。実は、厚生労働省が約10年かけて開発を進めてきた別の感染把握システムがある。「症例情報迅速集積システム(FFHS)」と呼び、現場の負荷を極力抑えたものだ。だが厚労省はなぜかFFHSを採用せず、HER-SYSを急造する選択をした。累計50億円以上を投じたHER-SYSを含め、決定の経緯と結果の検証が必要だ。 新型コロナウイルス対策に活用する「新型コロナウイルス感染者等情報把握・管理支援システム(HER-SYS)」がたび重なる運用見直しに追われている。その大きな要因の1つが、国が医療機関や保健所に求める入力事務の負荷の高さだ。 当初は患者の個人情報や症例に加え、濃厚接触の追跡に使う関連情報など約120項目の入力が必要で、1件に20~30分を要したという。医療現場から改善要望が強く、厚生労働省は2020年末に発生届と同

                        厚生労働省が10年備えた感染把握システムを採用せず、急造「HER-SYS」は機能不全
                      • 若者のスクショ共有文化はもう戻せないのでカジュアルOCRを推進すべき - 太陽がまぶしかったから

                        若者のスクショ文化 若者のスクショ癖を腐すの嫌なんだけど、1万回注意してもアシスタント(25歳)が参考資料などをスクショで送って来るので1万1回目のキレをかましてしまった😢地図でもサイトでもスクショで送ってくる😭情報追えねぇからURL貼れっつってもURL写ってる状態のスクショ送ってくる😭若者のコピペ離れ😭つら— $tina$ (@tinasuke) 2020年6月22日 若者がスクショでシェアしがちという話をよく聞く。テキスト形式でないとURLや再利用ができないといった弊害があるからやるべきではないという話になりがちだけど、特にスマートフォンは文章を範囲選択しづらいし、フォントスタイルやイメージなども保存しておこうと思えば、スクリーンショットのが楽だ。 自分自身もスマートフォンにおいてはスクリーンショット画像をそのまま Evernote などに保存する事が多い。それでもあまり困らな

                          若者のスクショ共有文化はもう戻せないのでカジュアルOCRを推進すべき - 太陽がまぶしかったから
                        • 画像の機械学習が劣化する理由 - Qiita

                          前書き 注意:ここに書いていることは2020年代としては、古すぎる見解になっている。 近年の自己教師あり学習の大幅な進展で、ここで述べているようなアプローチは大幅に古めかしいものになっている。 ・自己教師あり学習の進展は、画像認識タスクに対する共通のbackbone を作り出しており、後段で個々の画像認識タスクに対するfine-tuningをするアプローチに変わってきている。 ・そのため、ラベル付きの限られたデータで特徴量の抽出をしていたのが、自己教師あり学習に基づく特徴量の抽出になっている。 ・各人、自己教師あり学習について調べることをお勧めする。 主旨 単純に学習データを追加するだけでは学習が改善しないことがある。そのような場合へのヒントを著者の限られた経験の中から記述する。 はじめに 画像認識の機械学習を改善するためにはデータを追加すればよい。 そう思っている人が大半だろう。 ただ、

                            画像の機械学習が劣化する理由 - Qiita
                          • ディープラーニング(Deep Learning)の歴史を振り返る - 渋谷駅前で働くデータサイエンティストのブログ

                            先日Quora日本語版でこんな回答を書いたのですが、ついでなので少し文脈情報を付け足してブログの方に再録することにしました。理由は単純で、このブログでディープラーニングの歴史についてまとめた記事を今まで書いてきたことがなく、そしてブログ記事にした方がより認識違いや調査不足などについての指摘をもらいやすいと思われたからです。ということで、以下の説明に関してツッコミがあれば是非コメント欄などにお寄せくださいm(_ _)m (A Neural Network Playground) ディープラーニングを語る上で、その前史であるパーセプトロン、そして(人工)ニューラルネットワークの話題は欠かせません。以下大まかに説明していきましょう。(※歴史解説中では敬称略、各種用語は原則カナ表記*1) パーセプトロンの登場 ミンスキーによる批判と第1の冬の時代 誤差逆伝播学習則と中間層を用いたニューラルネットワ

                              ディープラーニング(Deep Learning)の歴史を振り返る - 渋谷駅前で働くデータサイエンティストのブログ
                            • 【2022年】AWS全サービスまとめ | DevelopersIO

                              こんにちは。サービスグループの武田です。このエントリは、2018年から公開しているAWS全サービスまとめの2022年版です。 こんにちは。サービスグループの武田です。 このエントリは、2018年から毎年公開している AWS全サービスまとめの2022年版 です。昨年までのものは次のリンクからたどってください。 AWSにはたくさんのサービスがありますが、「結局このサービスってなんなの?」という疑問を自分なりに理解するためにまとめました。 今回もマネジメントコンソールを開き、「サービス」の一覧をもとに一覧化しました。そのため、プレビュー版など一覧に載っていないサービスは含まれていません。また2021年にまとめたもののアップデート版ということで、新しくカテゴリに追加されたサービスには[New]、文章を更新したものには[Update]を付けました。ちなみにサービス数は 223個 です。 まとめるにあ

                                【2022年】AWS全サービスまとめ | DevelopersIO
                              • メガネの反射からWeb会議中の画面を盗み見る攻撃 閲覧中のサイトを特定する精度は94%以上

                                Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米University of Michiganと中国のZhejiang Universityによる研究チームが発表した「Private Eye: On the Limits of Textual Screen Peeking via Eyeglass Reflections in Video Conferencing」は、Web会議に参加するメガネをかけたユーザーのレンズの反射によって、画面上の機密情報を不注意に伝えてしまうことを明らかにした研究報告を発表した。 COVID-19をきっかけに、機密を扱う業務でも対面会議からWeb会議へと変わった。Web会議において研究者らは、ユーザー自身の

                                  メガネの反射からWeb会議中の画面を盗み見る攻撃 閲覧中のサイトを特定する精度は94%以上
                                • WEB開発に役に立つAPI一覧+API毎に関連するQiita記事を分類 ! - Qiita

                                  前回: Qiita APIで記事からYoutube動画を集めてみた 🎬 、Qiita APIを使って、Qiita記事を取得してYoutube動画のURLを抽出することができました。 今回は、特定APIに関連したQiita記事を取得して、API毎に分類、タグを集計してドーナツグラフ化することでAPIの特徴を表してみました。 最新のAPI一覧はこちら API一覧 | DOGAKIITAA! ~ APIごとにQiita記事を分類 ~ Google系 Cloud Vision API https://cloud.google.com/vision/docs/quickstart 📝 機械学習を使用して画像を解析します。画像ラベリング、顔やランドマークの検出、光学式文字認識(OCR)、不適切なコンテンツへのタグ付けなどができます。 Cloud Vision APIの凄さを伝えるべくRasPi b

                                    WEB開発に役に立つAPI一覧+API毎に関連するQiita記事を分類 ! - Qiita
                                  • 本当に役立つFAQ検索システムを目指して - Nota TechConf

                                    Nota Tech Conf 2021 Spring 3日目の発表資料です 2021/3/11 こんばんは daiizdaiiz.iconです Helpfeelの検索技術の話をします 開発、運用チーム プロダクトオーナー daiiz.icon プロジェクトマネージャー akix.icon Webディレクター akix.icon など テクニカルライター カスタマーサクセス エンジニア、デザイナー rakusai.iconakix.icondaiiz.iconshokai.icontakeru.iconTiro.icon 予測検索 Helpfeel CTO /masui/増井俊之.iconの展開ヘルプをベースとするFAQ検索システム PayPayフリマ様 FAQ テキパキと高速に検索できている クエリの表現に合わせて柔軟に結果が提示される Agenda いかにして探すか 1. 入力に対して遅

                                      本当に役立つFAQ検索システムを目指して - Nota TechConf
                                    • Windows 10の標準機能だけで画像からテキストを抽出する方法

                                      画像ファイルからテキストを抽出したい場合、何らかのOCR(光学式文字認識)ソフトウェアを利用するのが一般的だ。しかし、BetaNewsは1月6日(米国時間)、「Windows 10 has a secret way to grab text from images」において、特定のソフトウェアを使わずに、Windows 10に付属する標準機能だけでテキストの抽出を行う方法を伝えた。なお、この方法は現在のところ英語のテキストにしか対応しておらず、残念ながら日本語は読み取ることができない。 Windowsの標準機能といっても、何らかのORCツールが標準でインストールされているというわけではない。したがって、スタートメニューのアプリケーション一覧を探しても該当する機能は見つからない。Betanewsで紹介されているのは、Windowsの検索ユーティリティとスクリーンショットを取得するための「切り

                                        Windows 10の標準機能だけで画像からテキストを抽出する方法
                                      • ゼロから始める異体字の世界【レトロデザインのための近代日本語講座〈2〉】 - マチポンブログ

                                        今回は「異体字」についてお話しします。すこし専門的な部分もあるので、適宜不要な部分は読み飛ばすことをお勧めします。 こんな問題から始めてみましょう。世田谷区の区章とその説明文は以下のように書かれています。 外輪の円は区内の平和、中心は「世」の文字が三方に広がり、人びとの協力と区の発展を意味しています。(世田谷区の紋章、シンボル | 世田谷区ホームページより) 「中心は『世』の文字」とありますが、そうは見えません。なぜこのような形なのでしょうか。 前回の記事 本記事は連載形式で、前回の補足のような内容になっています。前回の記事もご参照ください。 shokaki.hatenablog.jp クリックで目次の表示/非表示 前回の記事 異体字とは 異体字の認識 異体字の使われ方 どこまでが同じ漢字か 誤字か異体字か 異体字はどうできるのか よく使う字は略字化する 画数の多い字は正確でなくても読める

                                          ゼロから始める異体字の世界【レトロデザインのための近代日本語講座〈2〉】 - マチポンブログ
                                        • PythonとWinRT OCRで文字認識 - Qiita

                                          import cv2 img = cv2.imread('test.jpg') (await winocr.recognize_cv2(img, 'ja')).text pip install jupyterlab jupyter_http_over_ws jupyter serverextension enable --py jupyter_http_over_ws jupyter notebook --NotebookApp.allow_origin='https://colab.research.google.com' --ip=0.0.0.0 --port=8888 --NotebookApp.port_retries=0

                                            PythonとWinRT OCRで文字認識 - Qiita
                                          • 【追記しました】知らない英単語を調べたいだけなのだが

                                            子どもの勉強を見ていて「知らない英単語を調べる方法」が定まっていないことに気づいた。 学校で一律購入したPCにはもちろん英和辞書が入っている。しかし紙のワークシートに行う英語の宿題のためにPCを手元に置いて必要時立ち上げてパスワードを入れ、アプリから調べる、というのはめんどくさいのだそうで、本人はこれまで教科書をひっくり返してなんとか探し出していたようだ。 なるほど使われる単語が限られている現在はこの方法が一番早いのだろう。 が、この方法は早晩行き詰まることが予想される。 ・英和辞典(物理)で調べる ・PC内の辞書アプリで調べる ・ググる ・Google Homeにきく ・スマホの文字認識翻訳アプリで調べる 我が家の環境だとざっと考えただけでもこれだけの方法が考えられる。 調べ方を身につけることも勉強ではあるのだが、今の主目的はそこではない。その時々で簡易と思われる方法を使い分ければ良いと

                                              【追記しました】知らない英単語を調べたいだけなのだが
                                            • PythonのWeb開発フレームワーク「Flask」とは? Django、Bottle、FastAPIの特徴と合わせて解説

                                              本記事は『Python FlaskによるWebアプリ開発入門 物体検知アプリ&機械学習APIの作り方』(佐藤昌基、平田哲也)の「はじめに」と「第0章 Flaskの概要と環境構築」の一部を抜粋したものです。掲載にあたって編集しています。 はじめに Flaskは、2010年4月1日にArmin Ronacher氏がエイプリルフールのネタとしてリリースし、そこからPython愛好家の間で人気になったPython製Webマイクロフレームワークです。2018年にはPython開発者調査で最も人気のあるWebフレームワークとして投票され、いまでも高い人気があります。 本書は、Flaskによる実践的なWebアプリケーション(以下、アプリ)の作成を通して、自力でアプリを作成できるようになることを目的としています。 まずは最小のアプリの作成から始め、問い合わせフォーム、データベースを使ったアプリ、認証機能と

                                                PythonのWeb開発フレームワーク「Flask」とは? Django、Bottle、FastAPIの特徴と合わせて解説
                                              • 日本語OCRはなぜ難しい? NAVERのエンジニアが語る、テキスト検出における課題と解決策

                                                2019年11月20、21日の2日間、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2019」が開催されました。1日目は「Engineering」をテーマに、LINEの技術の深堀りを、2日目は「Production」をテーマに、Web開発技術やUI/UX、プロジェクトマネジメントなど、より実践的な内容についてたくさんのプレゼンテーションが行われました。「NAVER ClovaのOCR(光学的文字認識) 」に登壇したのはNAVER OCR Team AI ResearcherのHwalsuk Lee氏。深層学習を用いたOCR技術の仕組みについて語りました。講演資料はこちら LINEのOCR技術の仕組み Hwalsuk Lee氏:みなさま、こんにちは。Hwalsuk Leeと申します。NAVER Clova OCR Teamから参りました。今

                                                  日本語OCRはなぜ難しい? NAVERのエンジニアが語る、テキスト検出における課題と解決策
                                                • 40歳エンジニア管理職が「Deep Learning for ENGINEER(E資格)」に合格した話 - Qiita

                                                  Deep Learning for ENGINEER(E資格)とは この記事は2020年1月時点の情報であることをご了承ください。 現在、この日本においてAIのスキルを証明する公的資格として下記が挙げられます。 JDLA Deep Learning for GENERAL(G検定) JDLA Deep Learning for ENGINEER(E資格) です。 位置付けとしては、G検定がAI関連技術に関する一般教養を問う試験。 E資格がAI関連技術に関する理論を理解し、AIを実装できるスキルを問う試験。 という理解です。 詳細というか、正確な定義については、日本ディープラーニング協会(JDLA)のサイトをご参照ください。 E資格の受験方法とJDLA認定プログラム とういうわけで、ここからはE資格のことを中心に話を進めていきたいと思います。 E資格を受験するチャンスは年に2回あり、2月と8

                                                    40歳エンジニア管理職が「Deep Learning for ENGINEER(E資格)」に合格した話 - Qiita
                                                  • 2万字なら、2時間話すくらいの分量だから余裕でいける。 2週間で1年分の学費..

                                                    2万字なら、2時間話すくらいの分量だから余裕でいける。 2週間で1年分の学費(=100万以上するでしょ)を稼ぐと思ったらやる気出ない? ・まずは5日でその本を読む。文字認識しないと言うことだけど、Google翻訳アプリもダメ?無料OCRツールは試した?原書読むより入力するほうが早いなら、最悪手打ちで入力して翻訳にかけたら? ・1日で論文の構成を考える。ここはChatGPTと相談しながらできるでしょ。 ・その翌日、Wordの音声認識を使ってガーっとしゃべっていく。とにかくしゃべる。 ・できた文を直し、切り張り切りはりして、整える。ここに2日かける。 ・時間が余ったら先行研究とかざっとネットで見る。それをちょいちょい引用・追加していく。(ちゃんとそれを残す=アピールポイント) やれたら自信になると思うよ。そして社会人になると、2万字くらいのレポートは1週間ももらえないんだよね。

                                                      2万字なら、2時間話すくらいの分量だから余裕でいける。 2週間で1年分の学費..
                                                    • RAGを専門用語に強くする手法「Golden-Retriever」

                                                      株式会社ナレッジセンスは、生成AIやRAGを使ったプロダクトを、エンタープライズ向けに開発提供しているスタートアップです。本記事では、RAGの性能を高めるための「Golden-Retriever」という手法について、ざっくり理解します。 この記事は何 この記事は、RAGシステムを専門用語に強くするための手法「Golden-Retriever」の論文[1]について、日本語で簡単にまとめたものです。 今回も「そもそもRAGとは?」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。 本題 ざっくりサマリー Golden-Retrieverは、RAG(Retrieval Augmented Generation)を、業界特有の用語・社内用語を含むような質問に強くするための手法です。カリフォルニア大学の研究者らによって2024年8月に提案されました。 従来のRAGシステム

                                                        RAGを専門用語に強くする手法「Golden-Retriever」
                                                      • デジタル庁の創設に向けた提言 - 一般社団法人 日本CTO協会

                                                        日本CTO協会ではオープンな議論を推進するため、GitHub 上で各種提言を公開しております。リポジトリはhttps://github.com/cto-a/policy-proposal 2020-10-09 17:02 追記 本稿は一般社団法人日本CTO協会理事一同による提言です。至らないところが多々あると思います。誤字脱字はもちろん、異論・他の論点・課題などをGitHub上のIssue等オープンな場でご指摘いただけますとありがたいです。これら提言により広範な議論がおこり国民的な関心が高まることを期待しています。 本提言の文責・主体 ​本提言は下記、日本CTO協会理事一同により作成され提言するものとなります。​ CTO協会理事 松岡 剛志 代表理事小野 和俊 理事栗林 健太郎 理事小賀 昌法 理事竹内 真 理事名村 卓 理事広木 大地 理事藤本 真樹 理事藤門 千明 理事松本 勇気 理事

                                                          デジタル庁の創設に向けた提言 - 一般社団法人 日本CTO協会
                                                        • 帝国議会会議録検索システムで全期間の本文テキストデータが利用できるようになりました(付・プレスリリース)|国立国会図書館―National Diet Library

                                                          2024年8月23日 帝国議会会議録検索システムで全期間の本文テキストデータが利用できるようになりました(付・プレスリリース) 国立国会図書館は、帝国議会会議録検索システムにおいて、戦前・戦中期分(明治23(1890)年11月~昭和20(1945)年8月)の速記録の画像データ(合計約27万ページ)からOCR(光学的文字認識)処理により作成した本文テキストデータを、新たに公開しました。 これにより、既に本文テキストデータを提供している戦後期分(昭和20(1945)年9月~昭和22(1947)年3月)と合わせて、帝国議会の全期間にわたり、速記録に掲載された質疑や議案本文などの全文検索とテキスト表示ができるようになりました。 ぜひご利用ください。 なお、今回公開した戦前・戦中期分の本文テキストデータは、人手による校正を行った戦後期分と異なり、OCR処理による文字の認識間違い(誤字・脱字)や認識不

                                                          • 自動車工場のガロア体

                                                            その誕生を地元新聞も経済新聞も記事にしなかった。2年後、『コードの情報を白黒の点の組み合わせに置き換える』と最下段のベタ記事で初めて紹介された時、その形を思い浮かべることができる読者はいなかった。いま、説明の必要すらない。QRコードはなぜ開発され、どう動くのだろうか。 QRコードは、自動車生産ラインの切実な要請と非自動車部門の技術者の「世界標準の発明をしたい」という野心の微妙な混交の下、1990年代前半の日本電装(現デンソー)で開発された。 トヨタグループの生産現場では、部品名と数量の記された物理的なカンバンが発注書、納品書として行き来することで在庫を管理する。そのデータ入力を自動化するバーコード(NDコード)を開発したのがデンソーだ。 バブル全盛の1990年ごろ、空前の生産台数、多様な車種・オプションに応えるため、部品も納入業者も急激に増え、NDコードが限界を迎えていた。63桁の数字しか

                                                              自動車工場のガロア体
                                                            • プレイステーションの歴史を紐解く書籍「プレイステーションの舞台裏:元CTOが語る創造の16年」が発売。黎明期の成功と発展を内側の視点から振り返る

                                                              「プレイステーションの舞台裏:元CTOが語る創造の16年」を日本および海外14か国で書籍発売2024年12月に発売30周年を迎える世界的ゲームプラットフォーム事業創造と発展の舞台裏を「オフィスちゃたにパブリッシング」ブランドで上梓。英語版は6月以後海外にも展開予定。 「創造」経営の実現を支援するオフィスちゃたに株式会社では、この度、コンテンツ出版事業を「オフィスちゃたにパブリッシング」ブランドで開始いたします。第1弾として、「プレイステーションの舞台裏:元CTOが語る創造の16年」(著者:茶谷 公之)をリリース致しました。日本語版は、紙書籍版および電子書籍版となっております。 紙書籍版: https://amzn.asia/d/ire58t1 (税込み価格 2,000円) 電子書籍版: https://amzn.asia/d/dmfjvM3 (税込み価格 1,000円) 【出版の背景】19

                                                                プレイステーションの歴史を紐解く書籍「プレイステーションの舞台裏:元CTOが語る創造の16年」が発売。黎明期の成功と発展を内側の視点から振り返る
                                                              • 高精度で話題の機械翻訳サービス「DeepL」を使ってゲーム内の文章をその場で翻訳。日本語未対応ゲームの強い味方「OCR2DeepL」が配信中

                                                                2020年3月、機械翻訳サービス「DeepL」が日本語に対応し、これまでスタンダードとされてきた「Google翻訳」以上の翻訳精度だとして大きな話題となった。DeepLにはデスクトップアプリ版も存在しており、そのアプリ版を使ってゲームの字幕の翻訳を補助する便利なソフトウェア「OCR2DeepL」が公開されている。 制作したのはWiNCHaN氏。「OCR2DeepL」は「OCR」(光学文字認識)ソフトとDeepLアプリを仲介し、コピーした文字列をDeepLに送る。簡単に言えば、画面に映った文字をそのままDeepLで翻訳できるという優れものだ。プレイヤーはゲームプレイ中に気になる文章があれば、マウスでその字幕が映っている範囲を選択するだけでよい。 OCR2DeepLの使用例 実際にテストしてみよう。OCRを使用するため、アクションゲームや字幕がすぐに消えてしまうゲームには使いづらい。まず試して

                                                                  高精度で話題の機械翻訳サービス「DeepL」を使ってゲーム内の文章をその場で翻訳。日本語未対応ゲームの強い味方「OCR2DeepL」が配信中
                                                                • ヘアスタイルをシミュレーションする独自AIのアプリ導入 〜 Core MLとVision Framework活用事例

                                                                  ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは! エンジニアの田中と池上です。 このたび、Yahoo! BEAUTYのiOSアプリにヘアスタイルシミュレーション機能を搭載しました。Yahoo! BEAUTYに投稿されたヘアスタイル写真から気になったスタイル、カラーが実際に自分に似合うかどうかをシミュレーションできる機能です。この機能はヤフーが独自に開発したAIで実現しています。 今回はCore MLとVisionといったiOSのフレームワークをフル活用することでこのAIをiOSアプリに搭載し、オンデバイスで機能を提供しています。これにより、みなさんの顔画像をサーバーに送ることなく、プライバシーに配慮した仕組みを実現しています。 具体的には下記の流れでシミュレーション

                                                                    ヘアスタイルをシミュレーションする独自AIのアプリ導入 〜 Core MLとVision Framework活用事例
                                                                  • 「画面上の英文を読み取ってそのまま翻訳できます」―ゲーム向け汎用翻訳支援ツールPCOT作者ぬるっぽ氏インタビュー【有志日本語化の現場から】 | Game*Spark - 国内・海外ゲーム情報サイト

                                                                    海外のPCゲームをプレイする際にお世話になる方も多い有志日本語化。今回は視点を変え、人間による翻訳ではなく機械翻訳の利便性を高めるアプローチに迫ります。 日本語化とは海外のゲームを日本語で遊べるようにすることです。その中でも、デベロッパーやパブリッシャーによる公式の日本語化ではない、ユーザーによる非公式な日本語化を有志日本語化(有志翻訳)と呼びます。一般的にボランティアで行われ、成果物は無償で配布されます。 連載第15回は、ゲーム画面の英語を読み取り自動的に翻訳するフリーソフト「PCOT」の作者ぬるっぽ氏に話を訊きました。 ヌルポインターストライク (翻訳支援ツールPCOTの配布サイト) PCOTの機能紹介 その1(基本機能) PCOTの使い方は簡単。翻訳したいゲームを選択し、好きなタイミングで位置を指定するだけです。すると自動的に英文が読み取られ、日本語に翻訳されて表示されます。 とある

                                                                      「画面上の英文を読み取ってそのまま翻訳できます」―ゲーム向け汎用翻訳支援ツールPCOT作者ぬるっぽ氏インタビュー【有志日本語化の現場から】 | Game*Spark - 国内・海外ゲーム情報サイト
                                                                    • 深層学習時代の文字認識とその周辺 / OCR and related technologies in the Deep Learning era

                                                                      ■イベント 
:【SenseTime Japan × Sansan】画像処理勉強会 https://sansan.connpass.com/event/230636/ ■登壇概要 タイトル:深層学習時代の文字認識とその周辺 発表者: 
技術本部 DSOC R&D研究員  宮本 優一 ▼Twitter https://twitter.com/SansanRandD

                                                                        深層学習時代の文字認識とその周辺 / OCR and related technologies in the Deep Learning era
                                                                      • 紙の書類を高精度にテキストデータ化できる無料Webサービス『Free Online OCR』【今日のライフハックツール】 | ライフハッカー・ジャパン

                                                                        取引先から送られてきたFAXや、印刷文書などをテキストデータ化したいこと、ありますよね。 カメラやスキャンアプリで画像化する手もありますが、画像のままだとスマートフォン上で確認したい場合や、内容を抜粋したい場合に扱いにくいのです。 ちなみに、個人的に過去最悪レベルで困ったのは、「セキュリティの問題で、データの状態では渡せない」と言われて紙の名簿を渡され、数百件分を宛名印刷するという、悪夢のような仕事でした…。 OCR(文字認識)アプリは、こんなときに役立つもの。 今回は、筆者が知る限り、無料サービスの中で最高レベルの識字精度を誇るWebサービスをご紹介します。 Screenshot: 田中宏和『Free Online OCR』はインターフェイスが英語ですが、単ページで完結できるシンプルな使い勝手なので、英語が苦手な人でも使いやすいWebサービス。 プライバシーポリシーには以下の点が記載され

                                                                          紙の書類を高精度にテキストデータ化できる無料Webサービス『Free Online OCR』【今日のライフハックツール】 | ライフハッカー・ジャパン
                                                                        • 簡単に利用できる PDF 文字認識 OCR 比較まとめ ~ AI OCR の頭抜けた実力 - GMOインターネットグループ グループ研究開発本部

                                                                          D.M.です。今回は RPA にて PDF を OCR で読み取る検証をしたお話です。 TL;DR ・実用性は AI OCR しか勝たん。 ・AI OCR は Google vs Microsoft の構図。 両者精度高。 ・Google も Microsoft も API に無料枠があり Python などのプログラムで連携できる。 ・Microsoft は有料の RPA 連携機能が超絶楽勝なのでコードを書かない前提ならこっちも選択肢。非エンジニアでも楽々自動化できる。 ※関連記事 AI OCR でクレカ読み取りをやっています。 スマホNativeアプリでクレジットカード番号の読み取り機能の技術検証結果まとめ https://recruit.gmo.jp/engineer/jisedai/blog/technical_review_ocr_solutions_on_auto_detect

                                                                            簡単に利用できる PDF 文字認識 OCR 比較まとめ ~ AI OCR の頭抜けた実力 - GMOインターネットグループ グループ研究開発本部
                                                                          • 数式や文章がぐにゃぐにゃに曲がった論文PDFでもくっきり認識する画期的なOCR『Nougat』 | AIDB

                                                                            科学的知識は主に書籍や科学誌に保存されていますが、PDF形式が一般的です。しかし、この形式は特に数学的表現においてセマンティック情報の損失を引き起こします。この問題に対処するために、Meta AIの研究チームは『Nougat(Neural Optical Understanding for Academic Documents)』という新しいOCR(光学式文字認識)技術を開発しました。 Nougatは、数式や文章が複雑に配置された画像であっても、それをマークアップ言語に高品質で変換する能力を持っています。この技術は、新しい論文だけでなく、電子データが存在しない古い書類などの解析にも非常に有用です。 参照論文情報 タイトル:Nougat: Neural Optical Understanding for Academic Documents 著者:Lukas Blecher, Guillem

                                                                              数式や文章がぐにゃぐにゃに曲がった論文PDFでもくっきり認識する画期的なOCR『Nougat』 | AIDB
                                                                            • 2019年、俺の読んだ論文50本全部解説(俺的ベスト3付き) - Qiita

                                                                              第一位 Focal Loss for Dense Object Detection 物体検知のためのFocal Loss これは不均衡データに対処するための損失関数Focal Lossを提案した論文なのですが, とにかくそのシンプルさにやられました. 画像のFLの式を見てください. たったこれだけです. ptは正解ラベルに対する予測値なのですが, ptが大きければ大きいほど損失値をしっかり抑えられるように設計された関数となっています. 正解ラベルに対して0.6と予測するサンプルを学習に重要視せず, 0.3とか0.1とか予測しちゃうサンプルにしっかりと重要視するのです. 自分も7月くらいまでは不均衡データに関する研究していたのですが, 自分が考えた多くのアイディアが結局Focal Lossの下位互換に帰結してしまうのです. しかもこの損失関数の汎用性は非常に高く, あらゆるタスクに入れること

                                                                                2019年、俺の読んだ論文50本全部解説(俺的ベスト3付き) - Qiita
                                                                              • 実在しない顔の画像3000点を無償配布、AI学習用データセットに 法人向け・商用利用可

                                                                                AI活用のコンサルティング事業を手掛けるAPTO(東京都渋谷区)とエイアイ・フィールド(東京都品川区)は10月5日、AIの学習データとして利用できる、実在しない男女の顔写真3000枚の無償配布を始めた。法人を対象に11月30日までの期間限定で提供し、商用利用も認める。「AI市場の加速に貢献できれば」(2社)という。 エイアイ・フィールドが自社の技術で自動生成した、実在しない10代~90代の男女の画像を提供。APTOが作成した年齢・性別などのアノテーション(画像を説明するテキスト情報)も付属する。申し込みは専用サイトで受け付ける。 もともとはエイアイ・フィールドが自社サービスで活用するために作成した画像だったが、6月に用途を研究目的に限った上で1000点を無料配布したところ、利用者からの反響があったことから、データを2000点追加し、商用利用を認めた上で再配布することを決めたという。 関連記

                                                                                  実在しない顔の画像3000点を無償配布、AI学習用データセットに 法人向け・商用利用可
                                                                                • 「マイナンバーカード対面確認アプリ」を公開しました|デジタル庁

                                                                                  デジタル庁は、本人確認を必要とする事業者や自治体スタッフのスマートフォンにダウンロードし、顧客や住民(利用者)による暗証番号の入力なしにICチップの情報を読み取ることで、厳格な本人確認を可能とするアプリ「マイナンバーカード対面確認アプリ」を開発し、8月20日に公開しました。 このアプリは、犯罪収益移転防止法や携帯電話不正利用防止法に基づく本人確認の業務に従事する民間事業者(金融機関、携帯電話会社、古物商など)や自治体のスタッフの皆さまに、店頭や窓口などでご活用いただくことを想定しています。アプリは、iOSとAndroidの両方でご利用いただけます。 開発の背景2024年6月18日に開かれた犯罪対策閣僚会議において、「国民を詐欺から守るための総合対策」が取りまとめられました。 この中では「犯罪者のツールを奪う」ための本人確認の実効性の確保に向けた取組として、店頭での手続など対面での本人確認で

                                                                                    「マイナンバーカード対面確認アプリ」を公開しました|デジタル庁