並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 156件

新着順 人気順

OCRの検索結果1 - 40 件 / 156件

  • Geminiを使うと本当に1ドルで6000ページ分のPDFをMarkdown化できるのか? - Ahogrammer

    少し前に、Hacker Newsで以下の記事が話題になっていました。 www.sergey.fyi この記事では、Geminiのモデル(Gemini 2.0 Flash)を使うと、1ドルで6000ページ分のPDFをMarkdown化できるという話が書いてあります。方法的には、各ページを画像化してモデルに渡してMarkdownを出力するだけなので珍しくはないのですが、その価格でそれだけ処理できるの?という部分に興味を持ちました。そこで、価格の計算をし、実際に試してみることにしました。 価格の計算 記事にも価格計算の方法は書かれているのですが、ここでも改めて計算してみます。対象とするモデルはGemini 2.0 Flash、価格計算には2025/02/25時点の価格表[1]を使います。また、APIとしては、通常のAPIと比べて半額のバッチAPIを使った場合の価格を計算します。以下に計算に使う数

      Geminiを使うと本当に1ドルで6000ページ分のPDFをMarkdown化できるのか? - Ahogrammer
    • MacbookでKindleのスクリーンショットを自動化&PDF化[スキャンだけ有料]

      よく電子書籍の内容をスクショし、Googleドライブで文字認識させた上でノートアプリにコピペしているのですが、これが中々に面倒くさい… 楽な方法はないかと調べた結果、スクショ部分を自動化することに成功しました。 本記事では以下を解説しています。 AppleScriptを使用してKindleのスクリーンショットを自動化 Xnconvertを使ってトリミング macの標準機能でPDF化 Adobe Acrobat のOCR機能でスキャン ⇦ここだけ有料 管理人 プログラミングの知識はなくてOK! ※スクショしたファイルを無断で配布すると著作権違反になる可能性があるので、個人の利用の範囲を超えないようご注意ください。 1. AppleScriptによるKindleの自動スクリーンショット手順 まずはじめにAppleScriptを使ってKindleを自動でスクショしていきます。 Apple Scr

        MacbookでKindleのスクリーンショットを自動化&PDF化[スキャンだけ有料]
      • 国立国会図書館からのPDFダウンロード(補償金支払い)をやってみた(その2) | YamadaShoji.net

        文化研究者・山田奨治の仕事(Blogは熟考中のことを書いているので、後で考えを変えることがあります。内容は個人的なもので、所属組織の立場、考え、意見等を表すものではありません。) 2025.2.20にオーダーしたPDF送信の件、本日、送信準備完了のメールが届いた。5開館日目にできてきたので、5-10開館日程度で送信との当初のお知らせどおりである。まだバックログが少ないせいか、スピードの面では満足できる。 送信準備完了メールのなかに、PDFがアップロードされている国会図書館のサーバーのURLがあり、そこをクリックして、自分のユーザーIDでログインしたらPDFをダウンロードできる。 PDFは紙面がやや黄色味がかかっているようにも思えるが、読むには問題ない。ページの上部にリクエストしたひとのユーザーIDと申込IDが、下部に発送日と「国立国会図書館」という文字、そして書名がプリントされている。 予

          国立国会図書館からのPDFダウンロード(補償金支払い)をやってみた(その2) | YamadaShoji.net
        • 日本語に特化したAI OCR「YomiToku」の紹介 - Qiita

          Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? OCR(Optical Character Recognition)というのは、手書きや印刷された文字を読み取り、デジタルデータに変換する技術です。スキャナーや、スマホアプリなどで使ってみた経験がある方も多いかと思います。 OCRはさまざまな場面で利用されていますが、たとえば既存の紙データのデジタル化であったり、ビジネス上やり取りされる帳票を使ったシステムの自動処理などで活用されています。 YomiTokuもそんなOCRソフトウェアの一つです。日本語に特化しており、複雑な表組みなども読み取れるのが特徴です。 今回は、YomiTokuの簡

            日本語に特化したAI OCR「YomiToku」の紹介 - Qiita
          • Kindle本を爆速でテキスト化してNotebookLMで使う方法(Mac限定)|いすむ

            ※最新のmacOSを使用しているユーザーを対象にしています ※合計155部のご購入をいただきました!ありがとうございます!(2月中旬現在) こんにちは、いすむです。 けんすうさんに刺激を受けてKindle本をテキストデータにして勉強の方法を変えたいと強く思って、爆速でできるいい方法を見つけたので共有したいと思います。 【AI用に物語思考のPDFを公開します】 AIを使って読書をするとめちゃくちゃに捗るよ、、という話をよくしているんですが「本のPDFがない」という人が多くて。 で、ちょっと試すのにPDFを用意するのって手間だよねえ、と思っているので、、… — けんすう - きせかえNFTの「sloth」 (@kensuu) June 10, 2024 そもそもの目的はコードが書けなくてもKindle本を圧倒的に早く、かんたんに、テキストデータにしてすぐAIと対話できるようにすることです 記事

              Kindle本を爆速でテキスト化してNotebookLMで使う方法(Mac限定)|いすむ
            • Evernoteはどこに行ったのか? 〜始まりから成長、日本との深い関係、そして凋落の足跡〜 デザイン会社 ビートラックス: ブログ

              かつて「もう紙のノートはいらない」と言わしめたデジタルノートサービスが、Evernoteである。数あるメモアプリの中でも一時は圧倒的な存在感を放ち、多くのユーザーの“第二の脳”として君臨していた。 しかし近年、その名前を耳にする機会がめっきり減ったと感じる人は多いのではないか。本記事では、Evernoteがどのようにして生まれ、いかに日本で熱狂的に受け入れられ、そしてなぜ失速してしまったのかを振り返る。 Evernoteの始まりEvernoteの源流は、ロシア系アメリカ人の起業家ステパン・パチコフ(Stepan Pachikov)が2000年代前半に立ち上げた「メモを一元管理できるソフトウェア」にある。 その後、2007年ごろにフィル・リービン(Phil Libin)が経営に加わり、クラウド型ノートサービスとしてのEvernoteが本格的に再始動した。 当時、「クラウド×ノート」という組み

                Evernoteはどこに行ったのか? 〜始まりから成長、日本との深い関係、そして凋落の足跡〜 デザイン会社 ビートラックス: ブログ
              • SmartHRとAIで、日本のGDPを上げる - SmartHR Tech Blog

                みなさんこんにちは、SmartHRのHead of AI 金岡(@ryopenguin) です。 SmartHRでは昨年8月にAI専任組織「AIインテグレーションユニット」を組成しました。そして2025年2月、最初の成果として「AI履歴書読み取り機能」をリリースできました。 しかしこれは、大きな野望の一歩目に過ぎません。私はSmartHRでAIを利用し、本気で日本のGDPを上げたいと思っています。 この記事では、SmartHRのAI利用の方針、そしてなぜそれがGDP増につながるのかをご説明します。 試行錯誤、答えの出ない日々 実は、SmartHRでは2023年のOpenAI GPT-3.5 APIのリリース前後から、AIについて試行錯誤していました。 私は当時兼務でAI機能に関わったり、LLMハッカソンの主催をしていました。「AIをやらないと何かまずそう」とだけ思っていましたが、なぜAIを

                  SmartHRとAIで、日本のGDPを上げる - SmartHR Tech Blog
                • Gemini 2.0 Flashは大量のPDFをAIで使用できるよう変換する作業でコスト・パフォーマンスの両面で劇的に優れている

                  プレゼンテーションや配布資料がPDFで共有されることがありますが、このPDFをテキストベースのデータに変換することは、大規模言語モデル(LLM)の出力を最適化するプロセスである検索拡張生成(RAG)にとって頭痛の種です。PDFをテキストベースのデータに変換してRAGで利用できるようにするためのソリューションにはさまざまなものが存在しますが、精度・拡張性・コスト効率を考慮すると微妙な選択肢が多い模様。しかし、Googleの「Gemini 2.0 Flash」を使えばこの作業が劇的に楽になると、Matrisk.aiのCTOを務めるデータサイエンティストのセルゲイ・フィリモノフ氏が解説しています。 Ingesting Millions of PDFs and why Gemini 2.0 Changes Everything - Sergey's Blog https://www.sergey.

                    Gemini 2.0 Flashは大量のPDFをAIで使用できるよう変換する作業でコスト・パフォーマンスの両面で劇的に優れている
                  • DeepSeekが雇用市場の苦境に拍車をかける恐れ - 黄大仙の blog

                    DeepSeekが突如として登場した後、中国企業がアプリケーションへのアクセスを発表し、AIが手作業に取って代わるという職場パニックを引き起こし、「私の仕事はAIに取って代わられるのか?」という心配も浮上しました。接客スタッフの95%を解雇した企業もあると噂されているほどです。 AIが人間の仕事をとる? 米国議会の出資によって設立された短波ラジオ放送局の自由亜州電台の記事より。 中央通訊社が15日に専門家の話を引用して伝えたニュースによると、伝統的な仕事の多くが失業の危機に直面しています。中国のAIの大規模な応用は、すでに悲惨な雇用市場に拍車をかける恐れがあります。 AIスタートアップ企業のAnthropic社は最近、人間の仕事の43%が自動化に取って代わられていること、AIの使用はソフトウェア開発とライティングに集中しており、中・高所得の仕事に最も普及していること、AIは人間の能力を増強

                      DeepSeekが雇用市場の苦境に拍車をかける恐れ - 黄大仙の blog
                    • 「システムはLLMが前提に」――LayerX CTO松本氏が語る、生成AIがシステムにもたらす変化 「AIエージェントがSaaSを操作する時代」に危機感を募らせる理由

                      ソフトウェアエンジニアがコードアシスタントAI(人工知能)を活用することは、もはや当たり前になりつつあるといっても過言ではない。2023年に登場した「ChatGPT」以降、エンジニア個人だけではなく、スタートアップや大企業でも生成AIを活用する取り組みが広まりつつある。 この2年で生成AI技術が目まぐるしく進化する中で、「LLM(大規模言語モデル)をシステムに組み込むことが当たり前になる」と、複数のエンジニア向けイベントで提言してきたのが、LayerXでCTO(最高技術責任者)を務め、同社のAI・LLM事業部も管掌する松本勇気氏だ。 LLMをシステムに組み込むことは、企業のビジネスにどのような価値をもたらすのか。LLMを組み込んだシステムの開発は、従来のシステム開発と何が違うのか? ITエンジニアが注意すべきポイントはあるのか。松本氏に話を聞いた(※編注:2025年1月上旬に取材を実施)。

                        「システムはLLMが前提に」――LayerX CTO松本氏が語る、生成AIがシステムにもたらす変化 「AIエージェントがSaaSを操作する時代」に危機感を募らせる理由
                      • Mistral OCR | Mistral AI

                        Throughout history, advancements in information abstraction and retrieval have driven human progress. From hieroglyphs to papyri, the printing press to digitization, each leap has made human knowledge more accessible and actionable, fueling further innovation. Today, we’re at the precipice of the next big leap—to unlock the collective intelligence of all digitized information. Approximately 90% of

                          Mistral OCR | Mistral AI
                        • [2025年2月13日] もう全部Deep Reseachでいいんじゃないかな (週刊AI)

                          こんにちは、Kaiです。 週刊とはいったい……何とかせねば。 さて、もうDeep Research一色です。私もついにProプランを契約して、使い始めました。 あまり驚き屋のようなことは言いたくないのですが、本当にこれは凄い。何度も試すうちに、少なくなったもののやはり固有名詞などでハルシネーションが発生することは確認しました。ですので、人間を完全に代替するとはいきませんが、デスクトップリサーチの一次タスクとしては十分すぎるレベルに達していると感じます。 あらゆる用途に使えるのはもちろんですが、特に「勉強」のやり方が全く変わるのではないかと感じています。これが好奇心MAXだった小学生の頃に使えたら、どれほどの質問を投げてどれほどのことを学んだのだろう、と想像してしまいます。 ただ、Deep Researchが登場して24時間後には、内部の推論過程を模倣したとされるコピーAIがオープンソースで

                            [2025年2月13日] もう全部Deep Reseachでいいんじゃないかな (週刊AI)
                          • 無料のWeb版WordでもPDFを編集できる、「Googleドキュメント」を使う方法も

                            PDFに文字や図形を書き足すことはできても、入力済みの文字列や画像に直接手を加えるのは難しい。Acrobat Proのような有料のPDF編集アプリを使わず、無料の範囲でやってみるなら、まずはWordでPDFを読み込む方法を試すのがお勧めだ。 Wordで読み込む場合、テキスト付きPDFはもちろん、テキストなしPDFでも文章の編集が可能になる。テキストなしPDFは、Word文書に変換することでOCR機能が働き、文字として編集できるようになる。そのため、テキストデータを取り出す目的でも、この方法が役に立つ。 Wordで読み込むことでレイアウトが崩れる場合もある。しかし、元のPDFがシンプルなレイアウトなら、フォントが多少変わる程度なので、再編集は可能だろう(図1)。この作業は、無料で使えるWeb版のWordでも可能だ。デスクトップ版のWordをインストールしていない場合は利用しよう。

                              無料のWeb版WordでもPDFを編集できる、「Googleドキュメント」を使う方法も
                            • 【dataiku】非エンジニアがGUIツールでRAGを実装してみた - Qiita

                              Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 1.本投稿の概要 1.1 目的・前置き 本記事の目的 自分の学びの整理&アウトプットするため。 今後Dataikuを使用しようと思った人の役に立ちたいため。 今回初めてDataikuを使ったのですが、総合的にとても魅力的でした。 機会があればぜひ今後も使いたいと思っているのですが、 私は決してDataikuの関係者ではありません。 また、私の本業もエンジニアではありません。 Pythonを少しだけ触れる・基本情報を持っているくらいのITレベルで、今回興味本位でRAG作成に向けてのGUIツールを触ってみています。 そんな自分だからこそ今回

                                【dataiku】非エンジニアがGUIツールでRAGを実装してみた - Qiita
                              • olmOCR – Open-Source OCR for Accurate Document Conversion

                                olmOCR is an open-source tool for converting PDFs to text with high accuracy, preserving reading order and supporting tables, equations, and handwriting.

                                  olmOCR – Open-Source OCR for Accurate Document Conversion
                                • tenntenn さんが聞くアンドパッドの Go 言語現状報告 | ANDPAD_Engineers

                                  アンドパッドには Ruby/Rails のプロダクトが沢山ありますが、 ... アンドパッドは Go のプロダクトも沢山あります ! そこで今回はアンドパッドの Go の技術顧問である tenntenn さんをお迎えし、アンドパッドの Gopher 、 小島 夏海 と tomtwinkle の二人と "アンドパッドの Go" について対談しました。 アンドパッドは Go をどう使っているか、 Gopher の雰囲気、 Go の社内勉強会 "Gopher 会" など成長できる環境を紹介しています。 Gopher だけでなく、 Go 未経験だけど Go に興味があるという方も、ぜひご覧ください ! 小島 夏海 @replu5 社内開発者向けの分散 DB 基盤の運用・ライブコマースサービスの開発・ toB 向けサービスの開発を経て、 2021 年にアンドパッドに入社。 現在はバックエンドエンジニ

                                    tenntenn さんが聞くアンドパッドの Go 言語現状報告 | ANDPAD_Engineers
                                  • Windows 11のSnipping Tool、画面からテキストをコピーする機能登場

                                    BetaNewsは2月21日(米国時間)、「Microsoft is giving Snipping Tool a major OCR upgrade in Windows 11」において、Windows 11の画面キャプチャーアプリ「Snipping Tool」が強化されると伝えた。 従来のOCR(Optical Character Recognition:光学文字認識)が進化し、スクリーンショットを撮らずにテキストの抽出が可能になるとのことだ。 Microsoft is giving Snipping Tool a major OCR upgrade in Windows 11

                                      Windows 11のSnipping Tool、画面からテキストをコピーする機能登場
                                    • Mistral OCR | Mistral AI

                                      Throughout history, advancements in information abstraction and retrieval have driven human progress. From hieroglyphs to papyri, the printing press to digitization, each leap has made human knowledge more accessible and actionable, fueling further innovation. Today, we’re at the precipice of the next big leap—to unlock the collective intelligence of all digitized information. Approximately 90% of

                                        Mistral OCR | Mistral AI
                                      • NotebookLMとは?Google発の“AIノートブック”を徹底解説|Yusuke

                                        みなさんは日々のリサーチや学習、ビジネスの場面で「扱う資料が多すぎて整理しきれない」「要点を一発でまとめたい」と感じることはありませんか? NotebookLMは、そんな情報の洪水を効率よく処理し、新たな知見を引き出すためのAIノートブックサービスとしてGoogleが実験的に開発を進めている注目のツールです。単なるメモアプリではなく、「自分がアップロードした資料に合わせてAIが要約・Q&A・アイデア生成などを行う」という、“AIリサーチ助手”のような役割を果たしてくれます。 本記事では、NotebookLMの基本機能・競合製品との比較・ビジネス/学術での活用例・ユーザーの評価やフィードバック・価格やプランの5つの観点から、たっぷりと解説していきます。最新情報や具体的なユースケースを交えながら紹介しますので、「自分のワークフローに合うかも?」と思った方は、ぜひ導入を検討してみてください。 1

                                          NotebookLMとは?Google発の“AIノートブック”を徹底解説|Yusuke
                                        • テキストなしPDFの文字情報を抽出、Windows 11付属アプリのOCR機能を使う

                                          図1 EdgeでPDFを開いた。テキストを選択できる場合は、右クリックのメニューで「コピー」を選ぶ(左)。ただし、画像は右クリックのメニューには「コピー」がない(右) とはいえ、テキストをコピーできるPDFなら、やり方次第で画像もコピーできるかもしれない。ただし、テキストを選択したときに「コピー」メニューがグレー表示になるPDFもある。その場合は、パスワードなどで保護されたPDFなので、画像のコピーも不可。スクリーンショットを撮って利用するなどの方法は可能だが、PDF制作者の意図はできるだけ尊重する方がよい。 テキストの部分をコピーできるPDFなら、「Acrobat Reader」や「PDF-XChange Editor」を使うことで、画像もコピーできる可能性が高い。WebサイトにあるPDFなら、いったんパソコンにダウンロードする。エクスプローラーでそのPDFを右クリックし、「プログラムか

                                            テキストなしPDFの文字情報を抽出、Windows 11付属アプリのOCR機能を使う
                                          • 確かに、昔は手作業でやることが多く、後から振り返ると「なんでそんな手..

                                            確かに、昔は手作業でやることが多く、後から振り返ると「なんでそんな手間をかけたんだろう?」と思うこともあります。でも、そういった経験があったからこそ、現在の効率的な方法やテクノロジーの有り難さを実感できるのではないでしょうか。 さて、「なぜ人間はそういう無駄なことに夢中になってしまうのか?」という部分に少し触れてみますね。 これは心理学的な観点から見ると、以下のような要因が考えられます: 新しい環境や状況への適応心** 新しい職場や役割において、何か有用なものを作ろう、貢献しようとする気持ちが強くなると、「最善の方法」よりも「今できること」に集中してしまうことがあります。 達成感や満足感を求める気持ち** 何かを「自分でやり遂げる」ことには強い達成感が伴います。手作業でのテキスト化は、手間がかかっても、自分が何かを成し遂げたという実感が得られるからかもしれません。 無意識の「没入感」**

                                              確かに、昔は手作業でやることが多く、後から振り返ると「なんでそんな手..
                                            • 時間を無駄にしたように感じるようなミス判断を避けるために 悔しいものは..

                                              時間を無駄にしたように感じるようなミス判断を避けるために 悔しいものはないですよね。今後、以下のような工夫が役立つかもしれません: でも、そんな経験は成長のきっかけになることも多いです。 目標の再確認作業に取り掛かる前に「これは本当に必要なことか?」「他の効率的な方法はないか?」と問いかけるクセをつけましょう。 ツールをリサーチ知らないツールが原因だったので、今後は作業の前に関連するツールを調査してみるのも良いですね。例えば、OCR関連の便利なツールを一覧で確認しておくとか。 優先順位を決める作業前に「この作業が本当に重要か?」をリスト化して明確にし、重要度が高いことに集中することで無駄な時間を削減できます。 時間制限を設ける例えば、「まずは30分だけ作業して、それ以上かかる場合はやり方を再考する」といったタイムボックスを設けて、時間を効率的に使うよう心がけることも有効です。 過去の教訓を

                                                時間を無駄にしたように感じるようなミス判断を避けるために 悔しいものは..
                                              • Embedding Python in Elixir, it's Fine - Dashbit Blog

                                                In the recent years, Elixir has been expanding its capabilities in Machine Learning and Data through the Nx (Numerical Elixir) effort. A number of projects emerged (Nx, Explorer, Axon, Bumblebee, Scholar, and more), drawing learnings from decades of work in ecosystems such as Python and R, often standing on the shoulders of C++ and Rust codebases. When we started, we made the explicit choice to no

                                                • GitHub - artnoage/Podcast

                                                  Podcast Creation (src/paudio.py) Extracts text from PDF files using OCR technology. Utilizes AI agents for content summarization, script writing, and script enhancement. The summarizer agent condenses the academic content into key points. The scriptwriter agent transforms the summary into an engaging dialogue between a host and a guest. The enhancer agent adds playful banter and improves the overa

                                                    GitHub - artnoage/Podcast
                                                  • AIにおけるAWSのマネージドサービスをまとめてみた - Qiita

                                                    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに AWSのAI/MLサービスには、インフラの管理が不要で簡単に利用できるマネージドサービスが多数あります。これらを活用すれば、機械学習の専門知識がなくても高度なAI機能をアプリケーションに統合できます。 本記事では、AWS認定(AIF/MLA) の学習に役立つように、代表的なマネージドAI/MLサービスを紹介します。試験勉強のインプットとして、ポイントも記載してます。 1. Amazon Textract 概要 Amazon Textract は、スキャンしたドキュメントや画像から テキストや構造化データを自動抽出 できるサービ

                                                      AIにおけるAWSのマネージドサービスをまとめてみた - Qiita
                                                    • 生成AI(gemini)を使って16進ダンプリストを入力する | ず@沖縄

                                                      過去のプログラムで遊ぶ時に 避けられないのがプログラムリストの入力である。 BASICであれば、入力時・実行時にエラーが出るので、まだなんとかなる。 でも、16進ダンプは打ち間違えると、プログラムが暴走してどこで間違えたかわからない。 後年になると、縦横チェックサムが考案されて チェックは楽になったのだが、入力の手間は変わらなかった。 近年、“Program List OCR” などの優秀なOCRソフトウェアが開発され、入力の手間は格段に楽になったのだが、それでも事前・事後の整形やチェックに少々手間がかかる。 Program List OCR: 808 Midwayもっと手間を省けないかと考えているうちに閃いた! 生成OCRに全部やらせれば良いんじゃない? Geminiに16進ダンプを喰わせてみたいくつかの生成AIで試してみたのですが、私が使った範囲では Google gemini が 精

                                                        生成AI(gemini)を使って16進ダンプリストを入力する | ず@沖縄
                                                      • OCR4all | Setup guide, user guide, developer documentation and more.

                                                        Fully free and open-sourceOCR4all is and will stay completely free and open-source. No subscriptions, paywalled features or private code. Flexible applicableFrom the high-quality processing of challenging manuscripts to the mass full-text recognition of printings Powerful layout and text annotation includedManually annotate, correct or compare layout and text elements using the powerful LAREX edit

                                                        • 8 Perfect List Of Free Adobe Software Alternatives

                                                          Exploring Adobe Software Alternatives has become increasingly popular as creators seek cost-effective and versatile options for their digital projects. This comprehensive guide delves into free and freemium substitutes for eight essential Adobe applications, including Photoshop, Lightroom, After Effects, Illustrator, Premiere Pro, Express, InDesign, and Acrobat. Perfect List of Free Adobe Software

                                                            8 Perfect List Of Free Adobe Software Alternatives
                                                          • 【R&D DevOps通信】Google Compute Engine + GPUで動作するMLサービスの基盤を刷新した話(完結編) - Sansan Tech Blog

                                                            技術本部 研究開発部 Architectグループの島です。 前回の記事の続きで、完結編です。Sansan内製の名刺OCRである「NineOCR」の基盤を改良します。 buildersbox.corp-sansan.com 筆が進まないまま前編から1年経ちそうで慌てて書いている次第ですが、そうこうしているうちに、実は更に新しいシステム構成にする話が挙がってきまして、なんとかその前に話を完結させておきます。あくまで取り組んだ当時の判断として開発した内容を以下ご紹介します。 新しい構成 前編ではGoogle CloudかつCompute Engineを使い続けるという結論への過程を述べました。新システムにより運用の課題を丸ごと葬るというおいしいルートは封じられてしまったため、「穏健に」どう改善するか頭を悩ませました。長い試行錯誤がありましたが、結論だけ以下に述べていきます。 マネージド インスタ

                                                              【R&D DevOps通信】Google Compute Engine + GPUで動作するMLサービスの基盤を刷新した話(完結編) - Sansan Tech Blog
                                                            • GitHub - adenta/fire_red_agent

                                                              This is my attempt at getting a large language model to play Pokémon FireRed autonomously. My bot has rudementery capabilities to play the game, explore, battle, and respond to game events. To me, this is the future of TV. While building the bot, I felt like I was producing television more than I was programming a computer. Ultimately, I ran into some technical hurdles around programmatic input co

                                                                GitHub - adenta/fire_red_agent
                                                              • 80年代のPCゲームファン必見! 「チャレンジ!! パソコンAVG&RPG SP1」3月10日発売(GAME Watch) - Yahoo!ニュース

                                                                電波新聞社は、書籍「チャレンジ!! パソコンAVG&RPG SP1」を3月10日に発売する。価格は5,500円。 ゲームライター/ゲーム評論家として知られる山下章氏の著書が約40年ぶりに復刻。本書籍は1985年に発行された「チャレンジ!! パソコン アドベンチャーゲーム」と、1986年に発行された「チャレンジ!! パソコンAVG&RPG」の中からセレクトした記事をまとめた一冊となる。 名作ゲームの数々を豊富な画面写真とともに解説しているのに加え、開発手記や設定資料なども掲載。1980年代のパソコンゲームの魅力を存分に味わえる内容となっている。 復刻にあたっては、誌面を高解像度でスキャニングしたのち、文字をOCRで読み取ることで鮮明に再現。また、シリーズ恒例の「なぜかはじめにある“あとがき”」は、2025年バージョンを新たに収録している。

                                                                  80年代のPCゲームファン必見! 「チャレンジ!! パソコンAVG&RPG SP1」3月10日発売(GAME Watch) - Yahoo!ニュース
                                                                • 会議中の声も手書きメモも即デジタル化!そんなノート、めっちゃ便利じゃない? | &GP

                                                                  つい後回しにしてしまいがちな議事録作成や商談記録、それにヒアリング調査・インタビューなどの文字起こし。やらなきゃやらなきゃと思っていてもなんだか面倒でテンションが上がらない…なんて人、きっと少なくないですよね。 この頃はリアルタイムで音声をテキスト化できる便利なアプリやサイトも登場していますが、一歩先行く使い方をしたいならぜひ試してみたいのが、Makuakeにて先行販売中のiFLYTEKのAIノート「iFLYTEK AINOTE Air 2」(5万7390円〜 2月12日現在)。 AI技術を用いたリアルタイムでの音声認識に加えて、手書きメモのデジタル化にも対応したハイテク電子ノートがあれば、会議や商談の記録はもちろん打ち合わせや取材も実にスムーズ、ワンランク上の仕事が実現できるかも! この「iFLYTEK AINOTE Air 2」は、ひと言でいうなら音声認識と手書きメモのデジタル化を融合

                                                                    会議中の声も手書きメモも即デジタル化!そんなノート、めっちゃ便利じゃない? | &GP
                                                                  • マルチモーダルLLMをllama.cppとMiniCPMでローカル環境に実装する - Safie Engineers' Blog!

                                                                    はじめに こんにちは。 セーフィー株式会社 先行開発Gの井上です。 今回は、タイトルの通り llama.cpp を使用して MiniCPM-o-2_6 をローカル環境で動作させる方法について解説します。ローカルでの動作環境を簡単に構築できる手順を紹介しますので、ぜひ参考にしてください。 はじめに 用語解説 llama.cppとは? MiniCPM-o-2_6とは? CMakeとは? CMakeを使用する利点 PCスペック・環境 実装の前準備 CMakeの導入方法(Windows 11基準) MiniCPM-o-2_6の用意 llama.cppの導入方法 Windows 11環境での導入手順 実行してみる 実行結果 ① Developers Summit 2024 Summerでの集合写真 所要時間 質問文 回答 ② セーフィーが掲げる映像プラットフォームの概念図 所要時間 質問文 回答 最

                                                                      マルチモーダルLLMをllama.cppとMiniCPMでローカル環境に実装する - Safie Engineers' Blog!
                                                                    • Geminiを使うと本当に1ドルで6000ページ分のPDFをMarkdown化できるのか? - Ahogrammer

                                                                      少し前に、Hacker Newsで以下の記事が話題になっていました。 www.sergey.fyi この記事では、Geminiのモデル(Gemini 2.0 Flash)を使うと、1ドルで6000ページ分のPDFをMarkdown化できるという話が書いてあります。方法的には、各ページを画像化してモデルに渡してMarkdownを出力するだけなので珍しくはないのですが、その価格でそれだけ処理できるの?という部分に興味を持ちました。そこで、価格の計算をし、実際に試してみることにしました。 価格の計算 記事にも価格計算の方法は書かれているのですが、ここでも改めて計算してみます。対象とするモデルはGemini 2.0 Flash、価格計算には2025/02/25時点の価格表[1]を使います。また、APIとしては、通常のAPIと比べて半額のバッチAPIを使った場合の価格を計算します。以下に計算に使う数

                                                                        Geminiを使うと本当に1ドルで6000ページ分のPDFをMarkdown化できるのか? - Ahogrammer
                                                                      • Empowering innovation: The next generation of the Phi family | Microsoft Azure Blog

                                                                        We are excited to announce Phi-4-multimodal and Phi-4-mini, the newest models in Microsoft’s Phi family of small language models (SLMs). These models are designed to empower developers with advanced AI capabilities. Phi-4-multimodal, with its ability to process speech, vision, and text simultaneously, opens new possibilities for creating innovative and context-aware applications. Phi-4-mini, on th

                                                                          Empowering innovation: The next generation of the Phi family | Microsoft Azure Blog
                                                                        • アプリ不要!iPhoneの標準機能で写真や画像から簡単に文字起こしする方法

                                                                          本投稿はnote投稿「iPhone画像から文字起こし」より移管しました この投稿の対象者 写真や画像内の文字を簡単にテキストデータに変換したいiPhoneユーザー​ 追加のアプリをインストールせずに、iPhoneの標準機能を活用したいユーザー​ 手書きメモや印刷物をデジタル化して効率的に管理したい方​ 名刺や書類の情報を手軽に取り込みたいビジネスパーソン​ 外国語の看板やメニューを翻訳したい旅行者 この投稿を読むメリット 時間と労力の節約:​手動入力の手間を省き、効率的にテキストデータを作成できます。​ 高い正確性:​手入力によるミスを防ぎ、正確なデータ変換が可能です。​ 多言語対応:​外国語のテキストも認識し、翻訳機能を通じて理解できます。​ 手書きメモのデジタル化:​手書きのメモやノートを簡単にデジタル化し、整理や共有が容易になります。​ 連絡先情報の即時利用:​名刺や看板の電話番号や

                                                                            アプリ不要!iPhoneの標準機能で写真や画像から簡単に文字起こしする方法
                                                                          • スクショ読み取るマルウェア、App StoreとGoogle Playで発見。パスワードや個人情報狙い | Gadget Gate

                                                                            テクノロジー モバイル 暗号通貨ウォレットのパスワード窃取が主な目的の模様 スクショ読み取るマルウェア、App StoreとGoogle Playで発見。パスワードや個人情報狙い Image:Morrowind/Shutterstock.com アップルとGoogleの公式アプリストアにある多数のiOSおよびAndroidアプリに、悪質なマルウェアのソフトウェア開発キット(SDK)が含まれているのを、カスペルスキーの技術者2人が発見した。問題を含むアプリは非公式のアプリストア経由でも配信されているという。 技術者らは、「Google Playで感染したアプリは24万2000回以上ダウンロードされていた。AppleのApp Storeでこの種のマルウェアが発見されたのはこれが初めてだ」と指摘している。 なお、アプリストア内のマルウェアは主に欧州とアジアのAndroidおよびiOSユーザーを標

                                                                              スクショ読み取るマルウェア、App StoreとGoogle Playで発見。パスワードや個人情報狙い | Gadget Gate
                                                                            • 【メモ】RAGシステムの救世主となるか?MarkItDownの可能性を探る - uepon日々の備忘録

                                                                              前回はDoclingというドキュメントコンバートツールを紹介しました。その後、他の変換ツールを探していた所、MicrosoftさんのGitHubにMarkItDownというツールがある事がわかりました。用途はDoclingと大きく変わりませんが、対応フォーマットが特殊ものもあり、こちらも見逃せないなということでメモを取っています。 MarkItDownは、様々なファイルをMarkdownに変換するユーティリティで、インデックス作成、テキスト分析などにも対応しているようです。 github.com インデックス作成機能により、RAGでの検索への活用も期待できます。また、対応するファイルフォーマットも以下のように多様なのですが、このなかで便利そうなのがAudio、XML、ZIPファイルでしょうか。Audioファイルの箇所にspeech transcriptionと記載されているので、かなり守備

                                                                                【メモ】RAGシステムの救世主となるか?MarkItDownの可能性を探る - uepon日々の備忘録
                                                                              • トランシーバーアプリ「LINE WORKSラジャー」提供開始 AIで文字と声の垣根を越える - 週刊アスキー

                                                                                2025年2月13日、LINE WORKSは「スマホでトランシーバー」を謳う新製品「LINE WORKSラジャー」の発表会を開催した。LINE AIで培ってきた技術を元に「オフィスは文字で、現場は声で」という新しいコミュニケーションを実現。LINE WORKSと連携する新製品として提供される。 現場とモバイルに強いLINE WORKSでも解決しきれなかった課題をAIで 発表会の冒頭に登壇したLINE WORKS プロダクト統括本部 本部長の大竹 哲史氏は、まずLINE WORKSの事業について説明した。 LINE WORKSは、前社名だったワークスモバイルジャパンの時代からビジネスチャット「LINE WORKS」を展開し、導入社数52万社、ユーザー数520万人という導入実績を持っている。しかし、2023年4月にLINEのAI事業が統合されたことで、複数のビジネス向けのAIサービスがLINE

                                                                                  トランシーバーアプリ「LINE WORKSラジャー」提供開始 AIで文字と声の垣根を越える - 週刊アスキー
                                                                                • DEIM2025(第17回データ工学と情報マネジメントに関するフォーラム)にプラチナスポンサーとして協賛します - LayerX エンジニアブログ

                                                                                  バクラク事業部 にてAIや機械学習領域のマネージャーを務めております機械学習エンジニアの松村(@yu-ya4)です。LayerXは、DEIM2025(第17回データ工学と情報マネジメントに関するフォーラム)にプラチナスポンサーとして協賛いたします。 DEIM2025 バーチャル背景 また、技術報告としてLayerXにおけるAI・機械学習技術の活用事例についての発表やスポンサーブースの展示を予定しております。オンサイト会場には私を含む数名のメンバーで会場を訪れ、データベース界隈の皆様との交流を深めさせていただければと思っておりますので、何卒よろしくお願い致します。 DEIM2025概要 DEIM(データ工学と情報マネジメントに関するフォーラム)は、コンピュータサイエンスに関する幅広い研究トピックについての議論・意見交換を目的として開催される研究会です。検索や推薦、画像認識や自然言語処理といっ

                                                                                    DEIM2025(第17回データ工学と情報マネジメントに関するフォーラム)にプラチナスポンサーとして協賛します - LayerX エンジニアブログ