タグ

ブックマーク / lab.ndl.go.jp (21)

  • 次世代デジタルライブラリーへの新機能(表の構造化)の追加及び新機能のソースコード及びデータセットの公開について | NDLラボ

    2023年12月05日 実験サービス次世代デジタルライブラリーにおいて、 資料画像に含まれる表から表形式の構造化テキストデータを作成する新機能を追加しました。 また、新機能実現のためのプログラムのソースコード及び開発時に作成したデータセットを公開しました。 1. 新機能について 資料画像の表示画面でデジタル化資料の表領域を選択することによって、当該領域内のOCRテキストデータをHTML又はTSV形式に構造化して取得することができるようになりました。 利用手順は以下のとおりです。 1) ビューワ右上のパネルから二段目一番右の「表の構造化」アイコンをクリックする 2) ポップアップの指示に従って「範囲選択」をクリックする 3) 構造化したい領域をドラッグアンドドロップで選択する(オレンジ色の箇所が選択領域) (画像の出典:台湾総督府農業試験所 編『台湾総督府農業試験所彙報』第197号 甘藷の生

    Guro
    Guro 2023/12/11
    すげええ
  • NDLOCR ver.2の公開について | NDLラボ

    2023年07月12日 NDLラボ公式GitHubから、OCR処理プログラム「NDLOCR」のver.2を公開しました。 NDLOCRは、国立国会図書館(以下「当館」といいます。)がデジタル化した資料から、全文テキストデータを作成することを目的に開発したものです。 令和4年4月に公開したver.1が全文検索用途を主目的に開発したもの(令和3年度OCR処理プログラム開発事業参照)であるのに対して、ver.2では、視覚障害者等の読み上げ用途にも利用できるよう、機能の追加及び認識性能の改善を行っています。 ver.1からの追加機能として、①出力テキストデータの読み上げ順序の推定機能、②漢字の読み方の付与機能、③読み上げ上不要な要素(柱・ノンブル)の除去機能、④広告領域内の文字の読み取り機能を有しています。 合わせて、当館が今後デジタル化及びテキスト化をする資料の出版年代を考慮し、特に1960年代

    Guro
    Guro 2023/07/12
  • 2022年度「NDLデジタルライブラリーカフェ」 | NDLラボ

    2023年1月18日(水) に、デジタルライブラリーにかかわる研究や最新動向をもっと身近に、もっと楽しくするオンラインイベント「NDLデジタルライブラリーカフェ」を開催します。イベントでは、「サイエンスカフェ」の手法を取り入れ、研究者や各分野で活躍されている人をゲストにお迎えし、ゲストが紹介する最新の話題について、参加者を交えて語り合います。 目次 イベント概要 テーマ プログラム概要・発表者(敬称略) 日時 開催形態 定員 参加費 参加方法 過去のイベント お問い合わせ先 イベント概要 国立国会図書館は、「ビジョン2021-2025 -国立国会図書館のデジタルシフト-」を掲げて、2021年から2025年までの5年間に100万冊以上の所蔵資料のデジタル化を進めるとともに、OCR(光学的文字認識)による全文テキスト化も行い、検索や機械学習に活かせる基盤データとすることを目指しています。 デ

    Guro
    Guro 2023/01/12
  • 次世代デジタルライブラリーにOCRテキストを画像に重ねて表示する機能を追加しました  | NDLラボ

    2022年11月08日 11月1日に、次世代デジタルライブラリーに、デジタル化済み古典籍資料の一部(江戸期以前のくずし字資料等約6万点)のOCR全文テキストデータを追加し、全文検索ができるようにしました。 このたび、古典籍資料等のOCRテキストデータの表示方法として、次世代デジタルライブラリーの画像ビューワで表示する資料画像上に、くずし字等のテキストデータを重ねて表示する機能を追加しました。 OCRテキストデータは次世代システム開発研究室が開発したOCRソフトウェアがAI機械学習)により資料画像を読み取ったテキストデータですので、必ずしも正確とは限りませんが、資料を判読する際の手がかりとしてご利用いただけます。 使い方 ビューワ右上の「T」のボタン(矩形ごとにテキスト表示)をクリックします。 画像上のOCRテキストデータが存在する領域が赤い枠で表示されるので、テキストを確認したい枠にマウ

    Guro
    Guro 2022/11/09
    えっ!なにっ!す、すごい!(古典籍のくずし字が読めなくても検索できたうえに、さらにテキスト抽出できるの!)
  • 次世代デジタルライブラリー

    Guro
    Guro 2022/11/04
    ?小永井解太郎
  • 次世代デジタルライブラリーの全文検索機能の改善を実施しました | NDLラボ

    2022年10月17日 1.全文テキストデータの差し替え 次世代デジタルライブラリーに搭載している全文テキストデータについて、読み順の自動整序処理を行い、多段組資料等についても可能な限り読み順を補正したテキストデータへと差し替えを行いました。 改修は、「視覚障害者等用データ送信サービス」での提供に向けて、全文検索用テキストデータを読み上げ用テキストデータに変換する検討の過程で開発した技術を先行的に用いたものです。 自動処理のため、特に段組間の詰まった資料や紙面構成が複雑な資料等においてはうまく整序できない資料も存在することにご留意ください。 2.不具合等の改修 次の不具合等についても改修を行いました。 検索時にタイムアウトが発生することにより、来ヒットしている資料が検索結果に表示されない不具合 JISに含まれない漢字(「教」や「清」の旧字体等)において「〓」と表記されている部分の検索サ

    Guro
    Guro 2022/10/29
    なんと!こないだ調べてなかったやつ、もいっかい調べ直さないと!(調べた履歴で検索かけ直して教えてくれる機能ほしいな
  • 第24回図書館総合展 国立国会図書館主催フォーラム「#NDL全文使ってみた~「次世代デジタルライブラリー」&「NDL Ngram Viewer」」 | NDLラボ

    ホーム > イベント(参加する) > 第24回図書館総合展 国立国会図書館主催フォーラム「#NDL全文使ってみた~「次世代デジタルライブラリー」&「NDL Ngram Viewer」」 目次 イベント概要 開催概要 イベントのアーカイブ ハッシュタグ お問い合わせ先 イベントは終了しました。動画・概要はイベントのアーカイブご覧ください。 イベント概要 フォーラム「#NDL全文使ってみた ~「次世代デジタルライブラリー」&「NDL Ngram Viewer」」をオンラインで開催します。 当館は、令和3年度OCRテキスト化事業において、247万点(2億2300万画像)のデジタル化資料の全文テキストデータを作成しました。そのうち著作権保護期間の満了した図書約28万件は、実験サービス「次世代デジタルライブラリー」及び「NDL Ngram Viewer」で利用可能となっています。 当フォーラムでは、

    Guro
    Guro 2022/10/28
  • NDL Ngram Viewer | NDLラボ

    サービスURL https://lab.ndl.go.jp/ngramviewer/ 概要 OCRによって作成されたテキストデータから、出版年代ごとの単語及びフレーズ(以下「キーワード」といいます。)の出現頻度を可視化・列挙することができるサービスです。 可視化グラフの縦軸は、年代ごとにキーワードが何回出現したかを表す出現頻度と、出現頻度を出版年代ごとの総ngram数で割った値を表す出現比率の2種類を切り替えることができます。 2023年1月現在の対象は、国立国会図書館デジタルコレクションで提供されているデジタル化済み資料のうち、図書約97万点及び雑誌約132万点のOCRテキストデータから集計した、約17億種類のキーワードです。 具体的な内訳は次の通りです 図書及び雑誌約230万点(約17億種類のキーワード) 図書約97万点(約8.5億種類のキーワード) 雑誌約132万点(約8.9億種類の

    Guro
    Guro 2022/05/31
    人名など検索するときは誤字(誤ocr)を勘案して、先にこのサイトで、1字を.で置換して検索するとよいかもしれない。
  • Japan Open Science Summit 2022 国立国会図書館主催セッション「国立国会図書館デジタル化資料データ(画像・テキスト)の使い道:90分アイデアソン」 | NDLラボ

    ホーム > イベント(参加する) > Japan Open Science Summit 2022 国立国会図書館主催セッション「国立国会図書館デジタル化資料データ(画像・テキスト)の使い道:90分アイデアソン」 Japan Open Science Summit 2022 国立国会図書館主催セッション「国立国会図書館デジタル化資料データ(画像・テキスト)の使い道:90分アイデアソン」 目次 イベント概要 イベント資料 開催概要 申込方法 イベントのアーカイブ 当日の成果の概要 参考情報 お問い合わせ先 イベント概要 国立国会図書館は、オープンサイエンスをテーマとした日最大のカンファレンス「Japan Open Science Summit 2022(JOSS2022)」(6月6日(月)から10日(金)まで)に参加し、次世代システム開発研究室は6月10日(金)にセッション「国立国会図書館

    Guro
    Guro 2022/05/27
  • OCR処理プログラム及び学習用データセットの公開について | NDLラボ

    2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館(以下、「当館」とします。)が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日語のOCR処理プログラムです。 このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。 機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。 リポジトリ : https://github.com/ndl-lab/

    Guro
    Guro 2022/05/11
  • 次世代デジタルライブラリー

    Guro
    Guro 2022/04/22
    “職業別電話名簿 第18版 書誌 目次 本文 図表 ”
  • 「次世代デジタルライブラリー」の全文検索対象を著作権保護期間満了図書資料全件に拡大しました | NDLラボ

    2022年03月22日 https://lab.ndl.go.jp/news/2021/2022-01-31/ にてお知らせした全文検索の対象を著作権保護期間の満了した図書資料全件(約28万点)に拡大しました。 今回追加したテキストデータは、令和3年度に当館が実施中のデジタル化資料のOCRテキスト化事業(参考: https://lab.ndl.go.jp/event/digicafe2021/ )の成果物の一部です。 なお、次世代デジタルライブラリーでは、技術的検証を行うため、また、OCRテキスト化事業の成果を迅速にお届けするため、検索対象を著作権保護期間の満了した資料に限定して、現在の国立国会図書館デジタルコレクションの全文検索機能とは別に、実験的・先行的に提供しています。 著作権保護期間の満了していない資料を含めた全デジタル化資料の全文検索機能については、 令和5年1月頃にリリース予定

    Guro
    Guro 2022/03/24
  • 次世代デジタルライブラリー

    Guro
    Guro 2022/03/23
    “東京中央電話局電話番號簿 : 昭和十七年十月一日現在”濱田長栩
  • 次世代デジタルライブラリー

    Guro
    Guro 2022/02/16
    “中等教育諸学校職員録 昭和2年5月現在(第24版)”てか。昭和初期の私学教員も載っているのか。(関東学院・コベルの名がある)
  • 次世代デジタルライブラリー

    Guro
    Guro 2022/01/30
    や。めちゃくちゃすごいかも。今まで見つからなかった資料がどんどん出てくる的な
  • 2021年度「NDLデジタルライブラリーカフェ」 | NDLラボ

    2021年12月3日(金) に、デジタルライブラリーにかかわる研究や最新動向をもっと身近に、もっと楽しくする講演会を開催します。講演会では、「サイエンスカフェ」の手法を取り入れ、研究者や各分野で活躍されている人をゲストにお迎えし、ゲストが紹介する最新の話題について、参加者を交えて語り合います。 イベントは終了しました。アーカイブ動画を公開しておりますので、リンクからご覧ください。 目次 イベント概要 テーマ 日時 開催形態 定員 参加費 講師及び発表タイトル(敬称略) 過去のイベント お問い合わせ先 イベント概要 当館は、2021年度、国立国会図書館デジタルコレクションに登録されたデジタル化資料のほぼ全て(古典籍資料等を除く)を対象に、OCRテキスト化を行っています。2022年3月末には2億コマを越える画像から大量のテキストデータを入手できる見通しです。 一方で、デジタル化資料をテキスト化

    Guro
    Guro 2021/11/05
  • Japan Open Science Summit 2021 国立国会図書館主催セッション「Wikidata×デジタルアーカイブ×LOD―国立国会図書館・東京藝術大学・大阪市立図書館のリソースをつなげてみる―」 | NDLラボ

    ホーム > イベント(参加する) > Japan Open Science Summit 2021 国立国会図書館主催セッション「Wikidata×デジタルアーカイブ×LOD―国立国会図書館・東京藝術大学・大阪市立図書館のリソースをつなげてみる―」 Japan Open Science Summit 2021 国立国会図書館主催セッション「Wikidata×デジタルアーカイブ×LOD―国立国会図書館・東京藝術大学・大阪市立図書館のリソースをつなげてみる―」 目次 イベント概要 開催概要 プログラム・講演資料 当日のディスカッション 参考情報 お問い合わせ先 イベント概要 国立国会図書館は、オープンサイエンスをテーマとした日最大のカンファレンス「Japan Open Science Summit 2021(JOSS2021)」(6月14日(月)から19日(土)まで)に参加し、6月17日(木

    Guro
    Guro 2021/05/20
    “「Wikidata×デジタルアーカイブ×LOD―国立国会図書館・東京藝術大学・大阪市立図書館のリソースをつなげてみる―」”
  • NDC Predictor

    Guro
    Guro 2019/11/11
  • ご指定のページが見つかりませんでした

    ホームページのリニューアルによりアドレスが変更された ご指定のページが削除された 入力したURLに誤りがある などの理由が考えられます。 お手数ですが、上部のメニュー等からページをお探しください。下記のリンクから、サイトマップもご参照ください。 サイトマップ 過去に存在し現在は削除されているページは、国立国会図書館の「インターネット資料収集保存事業(WARP)」でご覧いただけます。 ※「国立国会図書館」で検索してください。

  • GLAMデータを使い尽くそうハッカソン | NDLラボ

    2019年9月14日と15日に、図書館・博物館・美術館分野のデータ、すなわちGLAMデータを活用してアプリケーションやツールを作る「GLAMデータを使い尽くそうハッカソン」を開催しました。10月15日に、当日の成果(開発した試作品)の概要を掲載しました。ご参加くださった皆様、ありがとうございました! イベント概要 2019年2月に、「ジャパンサーチ」の試験版が公開されました。ジャパンサーチは、国立国会図書館NDL)が開発を担当しているポータルサイトで、日国内の図書館・博物館・美術館分野のコンテンツ及びメタデータ、すなわちGLAMデータを集約し、横断検索やAPIを提供しています。これらのデータの利活用をテーマとしてハッカソンを実施します。 ハッカソンでは、GLAMデータの活用法についてアイデアを練り、アプリケーションやツールを試作する作業を、2日間かけて、参加者がチームに分かれて行います

    Guro
    Guro 2019/09/17