政府は9月11日、福島第一原発事故当時、所長だった吉田昌郎氏に当時の状況を聞いた、いわゆる「吉田調書」を内閣官房ホームページで公開した。政府が公開したテキスト埋め込みがされていないPDFファイルを、機械読み取りでテキストデータ化した。部分的に不正確な箇所もあるため、元の書類も合わせてご覧頂きたい。 Cranes operate at Unit 3, center, standing next to Unit 4, right, at Tokyo Electric Power Co.'s (Tepco) Fukushima Dai-ichi nuclear power plant in Okuma, Fukushima Prefecture, Japan, on Wednesday, July 9, 2014. All of Japan's 48 operable commercial re
「ストロンチウム」に続いて「原子力」「東京電力」も検索避けをしていると話題に 原子カ(カタカナのカ)で検索して驚いた。情報公開は義務なのに電力会社は原子力(ちから)でなくて意図的に多くの情報でカタカナのカを利用して検索逃れ。東京電力は東京電カ(←カタカナ)。似た漢字やカタカナと漢字で似た形は多いから、きっと他にも沢山やってる。 — 中山幹夫 (@nakayamamikio) 2014, 6月 8 検索避け要注意ワード:「ス卜口ンチウム」、「プル卜ニウム」、「原子カ」、「東京電カ」 ト=卜(ぼく)、ロ=口(くち)、力=カ(カタカナのカ) — Koji (@kwave526) 2014, 6月 8 東京電力じゃなくて、東京電カで検索すると原子力関連の記事出るの、見ちゃいけないもの見た感じあって怖いな — matui (@kyog02) 2014, 6月 8 すっげぇw 「東京電力」じゃなくて「
iPadの登場で価値が上がったもの=裁断済みの本。 理由はこんなかんじ。 公式電子書籍の数<勝手電子書籍の数の関係が崩れない限り自炊のニーズは存在する。 自炊の流れはこんな感じ→本を裁断@裁断機>電子化@スキャナ>閲覧@PC。 最後の閲覧フェーズがiPadに変化。 自炊の際のプロセスで自動化されにくく、利用者にとってコストが高いのが、a.裁断、b.裁断済み本のスキャナへの投入(セット)の二つ。 b.裁断済み本のスキャナへの投入、の解決には機械的なアプローチが必要そう。機械好きの方の登場を願う。 a.裁断、の部分はアウトソースが効く。だが裁断してPDFにするというところはグレーライン。 個人単位で考える。 自炊ニーズが高まれば、裁断した本が手元に残るはず。多くの人はそれを捨てていると思うが、実はこの本には「裁断」という付加価値がついている。 ということで。 関連して。 自炊の盛り上がりで裁断
むらかみふくゆき Fukuyuki @fukuyuki 解像度の問題を除けばそっちのほうが現実的かも。SD入るし。 RT ニンテンドーDSファミリの耐久性は異常 RT @junkoaile 例えばもしもiPadで教科書が見られたら? (via @poyopoyochan) 2010-05-07 09:40:35 むらかみふくゆき Fukuyuki @fukuyuki 非プロな書き手がたくさん出てくると今のiphoneアプリみたいにコンテンツの価格破壊がさらに進んで食えないモノカキがさらに増えるかも RT @sasakitoshinao: 電子書籍化されたらそこにも非プロな書き手が入ってきて、本を書く力量を持った人がたくさん現れてくると思う。 2010-05-07 14:57:38 むらかみふくゆき Fukuyuki @fukuyuki 電子書籍って今のケータイコミック業界の歴史を踏襲しそう
< 数冊なら机の上でもいいだろう。数十冊なら枕元でもいいだろう。しかし数百冊になると本棚は必須。数千冊を超えると本棚が日用品と干渉するようになり、そして数万冊となると不動産の問題になってくるのだ。 < そうなんです。そんなだから、前々から本を裁断&スキャンして電子化(PDF 化)しようと思っていて、今年のゴールデンウィークは、本の裁断&スキャンに没頭していました。 誰だってある程度数をこなせばコツをつかむものだと思うのですが、大切な本、1冊だって失敗したくないって人のために、気をつけるべきポイントをまとめてみます。 今回はとりあえず本の「裁断」について。あんまり長くなるとアレなので、スキャンその他については次の機会にチャレンジしてみる予定です。 **(2010年5月20日、5月30日、8月29日、9月17日 追記) スキャンや PDF 圧縮、PDF リーダーについても書きました。よろしけれ
本は分解・スキャンして寝床を確保 (作業手順解説) 猫本棚 白光 ハッコーヒーティングガン 883B 100V-1KW平型プラグ 883-13 "1: まず本のカバーを外してから背表紙を剥がします。このときドライヤーで本の背を暖めて糊を溶かし気味にすると楽に背表紙を剥がせます。ヒートガン(工業用ドライヤー)があるとより手早く作業できます。それから、ユリイカの目次やラノベの擬似ポスターのように折り返しになってるページは、この作業のすぐ後に展開しておきましょう。忘れて裁断すると涙目になりますから。" プラス 断裁機 PK-513L 裁断幅A4タテ 26-106 "2: 次に本の背を綴じた糊を含めて5〜10mmほど裁断機で裁ち落とします。糊が残っているとスキャナに汚れがついて画像に黒い縦スジが入るので余分に切るのがコツです。この裁断機は力をかけずとも垂直に裁ち落とせるので特にお勧めです。(PK-
Web上のニュース等ではまだ上がっていないようですが、5/13付けの朝日新聞で、今年度の補正予算案で国立国会図書館の蔵書デジタル化として計127億円が計上された、という報道がありました。 これは前年の100倍規模だそうです。 同館の蔵書は全部で917万冊。うち明治・大正期に刊行された書籍の一部、約14万8千冊をデジタル化してネットで公開しているが、蔵書の1.6%にすぎない。予算案が認められれば約92万冊、同館の国内図書の4分の1近くのデジタル化が終わる計算だ。 [朝日新聞.2009-05-13.朝刊.社会面.25ページ] 自分が確認したのは朝日新聞のデータベース「聞蔵IIビジュアル」版と筑波大学に所蔵されてた紙版ですが、こちらのリンク先にも途中まではほぼ同じ内容が掲載されています(ただし最後の1文が聞蔵版とリンク先では違って、聞蔵版ではGoogle Book Searchについての言及と国
これは西村さんからTwitterで教えてもらったことなのであるが、AWS+Hadoopの幸せな成功例である: Self-service, Prorated Super Computing Fun! NY Timesが過去のアーカイブを含めてすべて無料化したわけだが、そのシステム的な移行措置として過去のスキャンしたTIFF画像をPDFに変換する必要があったのだ。TIFFのサイズは合わせて4TBという巨大さ。 これを行うのに次の構成をとったそうだ:PDF変換にiTextを用いる。変換するマシンはAWS上の100インスタンスをHadoopでMapReduce構成をとることで並列化した。これによりすべてのPDF変換(なんと成果物は1.5TB)が、24時間未満の時間で終了したのだ。そして作業をしたのは、一人のプログラマだけである。 だから言ったでしょ。もう時代は一人大規模サービスの時代なんですよ。そ
米グーグル社が進めている書籍検索サービスが、波紋を広げている。「絶版だが著作権はある」という書籍のデジタル化をめぐる訴訟が「和解」という形で決着しそうで、この影響が日本の本にも及ぶというのだ。米国内に条件を満たした日本の絶版本があれば、すべて内容が世界中に公開されることになる。日本の業界からの反発は必至だが、専門家からは「利益が適切に配分されるのであれば、拒否すべきではない。紙で『死蔵』するよりはましだ」と、著作権側の立ち位置の見直しを迫る声もあがっている。 「絶版になったが著作権は存在している」書籍のデジタル化が進む 米グーグルは2004年、書籍の全文検索が可能になるサービス「グーグル・ブック・サーチ」を立ち上げ、現在は書籍100万冊以上の内容がウェブ上で検索できる。当然、この仕組みに、著作権者側は反発。米作家協会や米出版協会(AAP)が05年9月から10月にかけて、著作権侵害を訴え、グ
大日本印刷、先生が授業中に生徒全員のノートをPC上で読めるツールを発表 写真●「オープンノート OpenNOTE」の使用イメージ[画像のクリックで拡大表示] 大日本印刷は2008年11月26日、生徒が書いた文字や図形を教師がパソコン上で確認できる授業支援ツール「オープンノート OpenNOTE」を発表した。2008年12月から、小中学校、高校、大学向けに販売を開始する。価格は、ディジタル・ペン7本に受信機などを組み合わせたセットで65万円から。 オープンノート OpenNOTE(以下、オープンノート)は、ディジタル・ペンを使って専用用紙に記述した文字や図形をパソコンに送信するツール。ディジタル・ペンに内蔵された小型カメラがペンの軌跡を記録し、ディジタル・データ化する。そのディジタル・データをBluetooth受信機経由でパソコンに取り込む。 Bluetoothは、2.45GHz帯の電波を利
OCRという技術はアナログなデータをデジタル化する上で欠かすことができない。しかし様々な特許が絡み、オープンソースやフリーウェアとしては発展しづらい分野でもある。しかしそこに風穴を開けられるかも知れない技術が登場しそうだ。 デモサービスで試せます 今回紹介するオープンソース・ソフトウェアはNHocr、日本語OCRシステムだ。Google Code上にホスティングされ、まだソースコードは一部しか開示されていないが、デモサービスは公開されている。 デモサービスでは、BMP/JPEG/PBM/PGM/PPMのファイル(さらに各ファイルをGZip圧縮していても可能)をアップロードすると、それを解析した結果を日本語表示してくれる。日本語OCRとあって、漢字/ひらがな/片仮名/英語などが判別可能になっている。 読み取らせた画像 手書き文字であっても認識率はそこそこ高い。正式リリースがまだという段階にあ
Googleが、明治の活字に挑戦している。 現在の状況をみるとかなり苦戦しているようだ。 ところで、学問のすすめ は、どこにある? どうりで、検索できないわけだ。 ほんとうは、學問すゝめ: 自第一篇至第十七篇 というらしい。 一瞬、慶応義塾大学が、とんでもないミスをしたと 喜んだ、私が馬鹿だった。 明治に出版された表紙をみると、読めない。うーん。 Googleが正しいようだ。 ちなみに、青空文庫では、 さて、Googleは、明治の活字をどのように攻略するのか。 福翁自傳で考えてみよう。 すでに、デジタルデータがある。 すくなくとも、青空文庫にはある。 これを、ルビなどのない、OCRに対応するデータに加工して、 Googleが読んだOCRデータと付き合わせる。 すると、OCR読み取りパターンとテキストと対応することになるので、 そのまま、OCRの認識を強制的に修正、活字パターンと一致させる。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く