並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 16 件 / 16件

新着順 人気順

MarkItDownの検索結果1 - 16 件 / 16件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

MarkItDownに関するエントリは16件あります。 microsoftmarkdownPython などが関連タグです。 人気エントリには 『GitHub - microsoft/markitdown: Python tool for converting files and office documents to Markdown.』などがあります。
  • GitHub - microsoft/markitdown: Python tool for converting files and office documents to Markdown.

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

      GitHub - microsoft/markitdown: Python tool for converting files and office documents to Markdown.
    • Microsoft、WordやPowerPoint、ExcelなどOfficeファイルをMarkdownファイルに変換できる「MarkItDown」ライブラリを公開。

      MicrosoftがWordやPowerPoint、Excel等のファイルをMarkdownに変換できるMarkItDownライブラリを公開しています。詳細は以下から。 Microsoftは現地時間2024年12月12日、PDFに加えWordやPowerPoint、ExcelなどのOfficeファイルをMarkdownフォーマットのファイルへ変換できるPythonライブラリ「MarkItDown」を新たに公開しています。 Python tool for converting files and office documents to Markdown.[…]The MarkItDown library is a utility tool for converting various files to Markdown (e.g., for indexing, text analysis,

        Microsoft、WordやPowerPoint、ExcelなどOfficeファイルをMarkdownファイルに変換できる「MarkItDown」ライブラリを公開。
      • MarkItDownとClaude Codeを使ってExcel方眼紙をリフォーマットしてみた | DevelopersIO

        こんにちは。たかやまです。 みなさんExcel方眼紙(巷では神Excelなんて呼ばれているもの)をご存じでしょうか? Excel方眼紙はExcelなどのセル結合機能を有した表計算ソフトで、縦横同幅程度の狭幅に設定したセルを方眼紙に見立てる様式で作成された以下のような表のことです。 Excel方眼紙は、大企業や官公庁などで、複雑なレイアウトの設計書や仕様書を視覚的に整理して作成するために広く活用されています。 しかし、このようなExcel方眼紙で作成された文書をAIツールで活用しようとすると、構造化されていないデータとして扱われるため、そのままでは効率的な処理が困難という課題があります。 そもそもExcelファイル自体AI活用する際には扱いにくいため、一度テキストデータに変換する必要があります。 テキストデータに変換するにあたってはMicrosoftが提供しているMarkItDownなどのツ

          MarkItDownとClaude Codeを使ってExcel方眼紙をリフォーマットしてみた | DevelopersIO
        • MarkItDownでひたすらいろんなファイルをmarkdownにしてみた - Qiita

          MarkItDownという「なんでもMarkdownにしてくれるライブラリ」が話題になっています。 先日の記事にも書いたんですが、内製チャットボットでは外部ファイルをどうAIが解釈可能な文字列として読み込ませるか悩むことが多いです。 すでにQiitaにも記事はあって若干煎じなんですが、もう少し社内のユースケースにありそうなものを試してみようと思います。 先にまとめ Unstructuredではライブラリそのものや機械学習モデルのサイズが大きいのに対して、MarkItDownでは一般的なライブラリのみです。画像や音声はOpenAI APIに頼っています。 Unstructuredを使っているとどうしてもデプロイに時間がかかったり、モデルダウンロード時の問題が発生したり困ることが多かったので。 pdfminer内でOCRモデル使っていたのでこのメリットは小さそうでした🥺 また、HTMLの構造

          • Microsoft の「MarkItDown」で Officeファイルを Markdownファイルに変換【Python】 - Qiita

            Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

            • 多様な形式のファイルを Markdown に変換できるMicrosoft 提供の MarkItDown を試してみた - Qiita

              概要 Microsoft が提供を開始した MarkItDown を試してみましたのでコードとその結果を共有します。MarkItDown では下記のファイルの変換をサポートしているようなのですが、ファイルを用意するのが面倒であったため、ライブラリのテストに利用されているファイルを変換してみます。コード実行環境を Google Colab で実施しています。 PDF (.pdf) PowerPoint (.pptx) Word (.docx) Excel (.xlsx) Images (EXIF metadata, and OCR) Audio (EXIF metadata, and speech transcription) HTML (special handling of Wikipedia, etc.) Various other text-based formats (csv, j

                多様な形式のファイルを Markdown に変換できるMicrosoft 提供の MarkItDown を試してみた - Qiita
              • MS謹製のanything to Markdownライブラリ: markitdownを試す&PRを出してみた件 - Qiita

                こんにちは!逆瀬川 ( https://x.com/gyakuse ) です! このアドベントカレンダーでは生成AIのアプリケーションを実際に作り、どのように作ればいいのか、ということをわかりやすく書いていければと思います。アプリケーションだけではなく、プロダクト開発に必要なモデルの調査方法、training方法、基礎知識等にも触れていければと思います。 今回の記事について 今回の記事では以下の内容に触れます MarkItDownの紹介 Pull-Requestを出してみる MarkItDownの紹介 さまざまなタイプのファイルをMarkdownに変換するためのライブラリです。非常に人気で、数日前に公開されたのですが記事公開時点で16.5Kスターもついています。内部を見るとパース処理のために python-pptx, pandas, pdfminer, mammoth等のライブラリを呼び出

                  MS謹製のanything to Markdownライブラリ: markitdownを試す&PRを出してみた件 - Qiita
                • markitdown/packages/markitdown-mcp at main · microsoft/markitdown

                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                    markitdown/packages/markitdown-mcp at main · microsoft/markitdown
                  • Microsoft、プラグインの対応やメモリ内変換、EPUBフォーマットをサポートしたOfficeキュメントなどをMarkdownに変換できるPythonツール「MarkItDown v0.1.0」をリリース。

                    Microsoftがプラグインの対応やメモリ内変換、EPUBフォーマットをサポートしたOfficeキュメントなどをMarkdownに変換できるライブラリ「MarkItDown v0.1.0」をリリースしています。詳細は以下から。 MicrosoftのHuman-AI eXperiences(HAX)グループのAdam Fourneyさんは2024年12月、AIを開発していく上で必要なPDFやOfficeファイル、Webサイトに記載されている情報をテキストベース(Markdown)へ変換するため、様々なファイルをMarkdownフォーマットへ変換する「MarkItDown」というPythonツール/ライブラリを公開しましたが、このMarkItDownがv0.0.2から大型アップデートされ「MarkItDown v0.1.0」としてリリースされています。 Version 0.1.0 (prev

                    • Jeffry Alvarado on X: "Microsoftのエンジニアが「markitdown」という非常に便利なツールを公開しました。 このツールを使うと、PDF、Word、Excel、HTML、JSON、音声、動画など、さまざまなファイル形式をMarkdownに変換することができます。 https://t.co/whFqsLKwAy"

                      • 【AI】さまざまな文書の情報をAIに取り込む(MarkItDown) - Qiita

                        MicrosoftのMarkItDownで日本語文書をMarkdown化する実践ガイド はじめに LLMに社内ドキュメントを食わせたい、RAGの前処理でPDFやOffice文書を正規化したい。そういうときに便利なのが Microsoft 製の MarkItDown です。 公式READMEは英語で網羅的ですが、日本人エンジニアが実際に使うときに引っかかるポイントはほとんど書かれていません。本記事では公式情報に加えて、 実際に日本語の Word / Excel / PowerPoint / PDF を合成して変換 それぞれで「何がどう変換されるか」を生の出力とともに公開 日本語文書特有のつまずきどころを検証結果から明らかにする ところまで踏み込みます。読了後、読者自身の手元ファイルで同じ検証を再現できる状態をゴールとします。本記事執筆時点の最新版は v0.1.5(2025年12月リリース)で

                          【AI】さまざまな文書の情報をAIに取り込む(MarkItDown) - Qiita
                        • Markdown変換ツールの精度を調べてみた ~MarkItDown VS Docling~ | Tech Blog | CRESCO Tech Blog

                          近年、PDFやWordなどの文書ファイルが、大規模言語モデル(LLM)の学習データやRAG(検索拡張生成)の外部情報として利用されることが増えています。このデータを生成AIに読み取らせる時、人間が理解しやすい形式に整えることが重要とされています。なぜなら文書の形式を整えることで、生成AIの情報読み取り能力が向上し、回答の精度が高くなるからです。 しかし、データを箇条書きの部分を1列で書いたり、表の中のデータをただ羅列したりすると、AIにとっては理解しにくい情報となり、期待する成果が得られないこともあります。 そこで、文書をより読み取りやすくし、AIが理解しやすい形式に変換する方法として、Markdown形式への変換が挙げられます。Markdown形式では、見出しや表、箇条書きなどが視覚的に整理され、情報の構造が明確になります。 今回は文書をMarkdown形式に変換する2つの技術、Mark

                          • Microsoft MarkItDown徹底解剖

                            MarkItDownとは? MarkItDownは、Microsoftが開発したPythonライブラリで、さまざまなファイル形式をMarkdownに変換することができます。 リリースされてからわずか2週間でGitHubで25k以上のスターを獲得し、急速に人気を集めています!🤯 なぜMarkItDownはこんなに人気なのか? MarkItDownは以下のような幅広いファイル形式に対応しています: Officeドキュメント: PowerPoint、Word、Excel リッチメディアファイル: 画像(EXIFおよび画像説明付き)、音声(文字起こし付き) ウェブ・構造化データ: HTML、CSV、JSON、XML アーカイブ: ZIPファイル WordやExcelなどの一般的な形式に対応しているだけでなく、OCRや音声認識を活用してコンテンツを抽出することで、マルチモーダルなファイルにも対応し

                              Microsoft MarkItDown徹底解剖
                            • いろんなファイルをMarkdownに変換する「MarkItDown」を試す

                              TIP MarkItDownは現在、Claude Desktopなどのこのようなアプリケーションとの統合のために、MCP(Model Context Protocol)サーバーを提供しています。詳細についてはmarkitdown-mcpをご覧ください。 重要 0.0.1から0.1.0への破壊的変更: 依存関係が現在、オプショナルな機能グループに整理されています(詳細は以下)。後方互換性のある動作を維持するにはpip install 'markitdown[all]'を使用してください。 convert_stream()が現在、バイナリのファイル様オブジェクト(例:バイナリモードで開かれたファイル、またはio.BytesIOオブジェクト)を必要とします。これは、以前のバージョンがio.StringIOのようなテキストファイル様オブジェクトも受け入れていたことからの破壊的変更です。 Docum

                                いろんなファイルをMarkdownに変換する「MarkItDown」を試す
                              • MarkItDownを活用した請求書データ抽出機能の検証 - GMOインターネットグループ グループ研究開発本部

                                1. はじめに こんにちは、次世代システム研究室のT.D.Qです。ビジネスでは、PDFや画像形式の請求書からデータを抽出する作業が頻繁に発生します。本記事では、Microsoftの「MarkItDown」ライブラリとOpenAIの「GPT-4o API」を活用し、効率的かつ正確に請求書データを解析・抽出できないか検証を解説します。 2. なぜMarkdown形式を選んだのか Markdown形式は、シンプルで軽量なマークアップ言語であり、様々なシステムでの互換性が高いことが特徴です。MicrosoftとMITの研究では、Markdown形式のプロンプトを使用することで、LLM(大規模言語モデル)の性能が向上することが示されています。この特性を活かし、請求書データの解析精度を向上させることを目指しました。 2-1. MarkItDownについて MarkItDownは、Microsoftが開

                                  MarkItDownを活用した請求書データ抽出機能の検証 - GMOインターネットグループ グループ研究開発本部
                                • 【メモ】RAGシステムの救世主となるか?MarkItDownの可能性を探る - uepon日々の備忘録

                                  前回はDoclingというドキュメントコンバートツールを紹介しました。その後、他の変換ツールを探していた所、MicrosoftさんのGitHubにMarkItDownというツールがある事がわかりました。用途はDoclingと大きく変わりませんが、対応フォーマットが特殊ものもあり、こちらも見逃せないなということでメモを取っています。 MarkItDownは、様々なファイルをMarkdownに変換するユーティリティで、インデックス作成、テキスト分析などにも対応しているようです。 github.com インデックス作成機能により、RAGでの検索への活用も期待できます。また、対応するファイルフォーマットも以下のように多様なのですが、このなかで便利そうなのがAudio、XML、ZIPファイルでしょうか。Audioファイルの箇所にspeech transcriptionと記載されているので、かなり守備

                                    【メモ】RAGシステムの救世主となるか?MarkItDownの可能性を探る - uepon日々の備忘録
                                  1

                                  新着記事