紙文書の保管に必要なスペースは問題になりがちです。文書をデジタル化すれば、持ち運びやすさが格段に向上します。電子書籍リーダーにライブラリ全体を簡単に保存できます。さらに、紙文書は編集可能なコンピュータ文書に変換できるため、検索も容易になります。検索フィールドに「ルーズベルト」と入力するのと、スクエア・ディールやニューディール政策を調べるためにマイクロフィルムや古い新聞を一日中目で追うのとでは、どちらがはるかに効率的でしょうか。デジタル文書は世界中の研究者にとって大きな恩恵をもたらしています。
文書をデジタルで保存する方法は2つあります。画像ファイルとテキストファイルです。画像ははるかに多くの容量を必要としますが、元の文書の特徴や雰囲気を維持します。スキャンした画像をテキストファイルやワープロファイルに変換するには、光学式文字認識(OCR)と呼ばれる処理が必要です。実際にはデジタル情報を処理しているので、少し誤解を招く表現ですが、この用語は定着しています。
元の文書が手書きであったり、芸術作品であったりする場合は、一般的に画像として保存することが望ましいです。手書きのスタイルは、文字そのものと同じくらい意味を持つことがあるからです。手書き文書を画像として保存するもう一つの理由は、スキャンした手書き文字を解釈できる市販の手書き認識パッケージが存在しないことです。今のところ、これはPDAやタブレットの世界でしか利用されていない技術です。手書き認識ソフトウェアを提供するVision ObjectsのAnne-Sophie Bellaud氏は、タブレットでは手書き文字や楷書文字が入力された順序がわかると説明しています。これはソフトウェアにとって大きな手がかりとなります。入力のタイムラインがなければ、手書き文字を認識するのは非常に困難です。
スキャナー
文書を画像ファイルで保存する場合でも、テキストファイルで保存する場合でも、デジタル化するにはスキャナーが必要です。処理する文書の数が比較的少ない場合は、複合機や「https://[removed-link]/article/id,220786/article.html」で紹介されているような専用のフラットベッドスキャナーで十分です。ただし、これらのスキャナーは比較的速度が遅く、複数ページの文書に対応できる自動原稿送り装置を備えているのは高価なモデルに限られます。

シートフィードスキャナは高価ですが、大量の書類を処理する必要があるなら最適です。富士通の495ドル(https://www.pcworld.com/shopping/detail/prtprdid,717545695-sortby,retailer/pricing.html)やHPの450ドル(ScanJet Professional 3000)などのスキャナは、書類の両面を一度にスキャンし、平均毎分20ページ以上の速度を実現します。HPは、書類の種類が混在する状況でも給紙の安定性がやや優れている点を高く評価しますが、富士通はソフトウェアの統合性が高く、より優れた製品です。
OCRソフトウェア
ほとんどのスキャナーには、PC にインストールできる OCR ソフトウェアが付属していますが、お使いの PC にインストールされていない場合は、ソフトウェアを別途購入できます。ABBYY の 100 ドル https://www.pcworld.com/downloads/file/fid,170692/description.html (https://www.pcworld.com/downloads/file/fid,72179/description.html は 400 ドル)、Nuance の 150 ドル https://www.pcworld.com/downloads/file/fid,88168/description.html (https://www.pcworld.com/downloads/file/fid,137948/description.html バージョンは 500 ドル)、Adobe の 299 ドル Acrobat X Standard (Pro は 449 ドル) はすべて良い選択肢です。 Nuance の 100 ドルの https://www.pcworld.com/downloads/file/fid,91683/description.html (Pro は 200 ドル) もスキャンや OCR を実行でき、ドキュメントの追跡を容易にするドキュメント管理機能も追加されます。
300dpiの鮮明なスキャン画像を使った実地テストでは、Acrobatが最も優れた文書変換性能を示し、FineReaderが僅差で続き、OmniPageとPaperPortはそれほど差がありませんでした。しかし、テスト文書に含めた低品質の150dpiスキャン画像3枚では、後者3製品の方が優れた結果を示しました。
画像として保存された文書の場合、通常は150~200dpiで十分ですが、OCRソフトウェアは300dpiでスキャンした方がはるかに精度が高くなります。これはニーズによって異なります。読みやすさだけを維持したい場合は、dpiを下げてストレージ容量を削減できる場合があります。
ウェブOCR
www.free-ocr.com、www.newocr.com、www.ocronline.com などのオンラインサービスは、小規模なプロジェクトや単発の作業に適しています。まず原稿をパソコンにスキャンし、その文書をウェブサイトにアップロードします。
これらのサービスには限界があります。私のテストでは、あまり正確な結果が得られませんでした。また、認識されるのはテキストのみで、線やその他のページ要素は認識されませんでした。
上で述べた最初のサービス (www.free-ocr.com) は無料ですが、ファイルのサイズは 2 MB 以下、幅と高さは 5000 ピクセル以下 (レター サイズのページで約 150 dpi) で、1 時間あたり 10 回以上のアップロードはできません。
www.newocr.com という別のサービスも無料ですが、インターフェースは原始的です。しかし、テキスト抽出の精度は free-ocr.com よりもはるかに高く、最大5MBの文書まで扱えます。
最後に、www.ocronline.com は無料アカウントの作成が必要ですが、4MB(1ページあたり約200dpi)の画像と1時間あたり最大15枚のアップロードが可能です。無料クレジットは10クレジット付与されますが、それを超えると有料となります。サイトではクレジットの販売数量が様々で、50クレジットで3.95ドル(1ページあたり8セント)から5000ページで49.95ドル(1ページあたり1セント)までとなっています。このサービスはテキストだけでなくグラフィック要素も処理できるので、良い結果が得られましたが、Acrobat X や FineReader 10 の水準には及びませんでした。
電子書籍
実物の本の感触、匂い、そして視覚的な安定感に勝るものはありませんが、Kindle、Nook、iPadなどのデバイスを使ってバーチャルブックを楽しむ人が増えています。携帯性は抜群で、テキストは検索可能です。スマートフォンやiPodでも十分な読書体験が得られます。私はiPodを使っていますが、頻繁にページをめくる動作は気になりません。とはいえ、いずれはもっと大きなサイズの本を選ぶことになるでしょう。ほとんどの本はオンラインストアで購入できますが、ご自身のコレクションの中にデジタル版が手に入らない本があるかもしれません。
紙の書籍を電子書籍に変換するには、まずページごとにスキャンし、その後、適切な言葉が見つからないのですが、OCR処理(文字認識)する必要があります。これは非常に面倒なので、高速なスキャナーを使用してください。書籍を破棄しても構わない場合、または製本し直す方法を知っている場合は、シートフィードスキャナーを使用してください(上記の「スキャナー」を参照)。前述のOCRプログラムのほとんどには、ページを整理する機能が備わっています。
テキストファイル(PDF、Word、またはその他の形式)を用意したら、https://www.pcworld.com/downloads/file/fid,155839/description.html にアクセスしてください。これは、非常に高機能で無料の電子書籍リーダー、整理ツール、エディター、そしてパブリッシャーです。ファイルをお使いのデバイスに適した形式(EPUBやPDFなど)に変換します。表示可能なファイルを作成したら、Stanzaなどのリーダーアプリを使って電子書籍をデバイスに読み込みます。デバイスまたはアプリは、サイドローディング(つまりPCからの読み込み)をサポートしている必要があります。