Không gian cần có để lưu trữ tài liệu bằng giấy có thể là một vấn đề. Số hóa tài liệu của bạn cho phép bạn có thể mang các tài liệu này theo bên mình – bạn có thể lưu cả một thư viện trên thiết bị đọc sách điện tử (e-reader) một cách dễ dàng. Và vì tài liệu bằng giấy có thể chuyển đổi thành tài liệu kỹ thuật số có thể hiệu chỉnh được trên máy tính, bạn có thể tìm kiếm các tài liệu này nhanh chóng. Hãy so sánh thao tác gõ một từ cụ thể trong thanh tìm kiếm thay vì suốt ngày phải lật giở các chồng báo cũ để tìm kiếm bằng mắt về nội dung nào đó. Tài liệu kỹ thuật số rất thuận lợi cho các nhà nghiên cứu trên khắp thế giới.
Bạn có thể lưu trữ tài liệu bằng phương pháp kỹ thuật số theo một trong hai cách: dưới dạng hình ảnh hay các tập tin văn bản. Hình ảnh tốn nhiều không gian lưu trữ hơn, nhưng giữ lại được chữ viết và nét đặc trưng của tài liệu gốc. Muốn chuyển đổi một hình ảnh đã được quét thành một văn bản hay tập tin xử lý bằng máy tính, cần phải dùng phần mềm nhận dạng ký tự quang học, hay còn gọi là phần mềm OCR. Đây là trường hợp dùng thuật ngữ sai, vì thật sự bạn đang xử lý thông tin kỹ thuật số, nhưng thuật ngữ này đã được dùng phổ biến rồi.
Nếu tài liệu gốc được viết tay hay là một bức họa, bạn nên lưu trữ nó bằng hình ảnh vì chữ viết tay có thể có ý nghĩa ngang với chính các từ được viết. Một lý do khác để lưu trữ tài liệu viết tay dưới dạng hình ảnh là hiện chưa có phần mềm thương mại nhận dạng chữ viết tay nào có thể chuyển đổi chữ viết tay từ các bản quét. Cho đến nay, đó là một công nghệ dành riêng cho thiết bị PDA và máy tính bảng, đối với chữ viết tay trực tiếp trên màn hình của các thiết bị này. Anne-Sophie Bellaud của Vision Objects (một công ty cung cấp phần mềm nhận dạng chữ viết tay) giải thích rằng, với máy tính bảng, bạn biết được thứ tự các chữ viết tay được nhập vào. Điều này giúp phần mềm đoán ra được. Nếu không có mốc thời gian nhập, chữ viết hầu như không dễ để nhận dạng.
Fujitsu ScanSnap S1500 là máy quét nhỏ gọn có thể giúp bạn số hóa tài liệu dễ dàng.
Máy quét
Dù bạn có lưu trữ tài liệu của bạn bằng cách nào đi chăng nữa – bằng hình ảnh hay tập tin văn bản – bạn sẽ phải cần máy quét để số hóa chúng. Nếu bạn có tương đối ít tài liệu để xử lý, bạn chỉ cần một máy in đa năng hay một máy quét phẳng chuyên dùng là đủ. Tuy nhiên, các máy này chạy tương đối chậm, và chỉ có các model đắt tiền hơn mới có khay nạp giấy tự động để xử lý các tài liệu nhiều trang.
Dù đắt tiền, nhưng các máy quét có khay nạp giấy là thích hợp nếu bạn cần xử lý nhanh nhiều tài liệu.
Các máy quét như ScanSnap S1500 của Fujitsu giá 495 USD (~10,4 triệu đồng) và ScanJet Professional 3000 của HP giá 450 USD (~9,5 triệu đồng) có thể quét cả hai mặt của một tài liệu cùng lúc với tốc độ 20 trang/phút hay nhanh hơn. Máy quét của HP có tính năng xử lý nạp giấy tin cậy hơn với các loại tài liệu lẫn lộn, nhưng máy của Fujitsu lại đi kèm phần mềm tích hợp tốt hơn, ưu việt hơn.
Phần mềm OCR
Hầu hết máy quét đều có đi kèm phần mềm OCR để bạn có thể cài đặt lên máy tính cá nhân, nhưng nếu máy quét của bạn không có phần mềm này, bạn có thể mua phần mềm riêng. Những chọn lựa tốt là FineReader 9 Express giá $50 (~1 triệu đồng) của ABBYY, OmniPage 17 Standard giá $150 (~3,2 triệu đồng) của Nuance, và Acrobat X Standard giá $299 (~6,3 triệu đồng) của Adobe. Ngoài ra, phần mềm PaperPort 12 Standard giá $100 (~2,1 triệu đồng) của Nuance cũng có thể quét, nhận dạng OCR, và có thêm tính năng quản lý tài liệu giúp bạn dễ dàng theo dõi tài liệu đã quét. Cũng có các phiên bản giá rẻ hơn cho hầu hết các chương trình này.
Trong các thử nghiệm thực tiễn với các bản quét độ phân giải 300dpi, Acrobat chuyển đổi tài liệu tốt nhất, theo sát sau đó là FineReader, và sau nữa là OmniPage và PaperPort. Nhưng 3 sản phẩm sau lại chuyển đổi tốt hơn trong thử nghiệm 3 bản quét 150dpi chất lượng thấp hơn.
Đối với các tài liệu lưu trữ bằng hình ảnh, các bản quét 150-200dpi thường chuyển đổi tốt, nhưng phần mềm OCR dùng tốt hơn với các bản quét 300dpi. Hầu hết tùy thuộc vào nhu cầu của bạn. Nếu bạn chỉ muốn cần đọc được, bạn có thể giảm độ phân giải và giảm dung lượng tập tin.
Trang web OCR
Nhiều dịch vụ trực tuyến như www.free-ocr.com, www.newocr.com, và www.ocronline.com rất tốt cho các dự án quy mô nhỏ hay chỉ thực hiện một lần. Trước hết, bạn hãy quét bản gốc vào máy tính rồi tải tài liệu lên trang web OCR.
Các dịch vụ này có mặt hạn chế là kết quả các thử nghiệm không được chính xác. Ngoài ra, chỉ nhận dạng được văn bản mà thôi, các dòng kẻ và các yếu tố khác của trang không nhận dạng được.
Dịch vụ trên trang web www.free-ocr.com là dịch vụ miễn phí, nhưng tập tin không được lớn hơn 2MB, và rộng hay cao hơn 5.000 pixel (khoảng 150dpi cho một trang khổ 8,5x11”); và bạn không được tải lên hơn 10 lần trong một giờ.
Một dịch vụ khác là www.newocr.com cũng miễn phí, nhưng giao diện còn thô sơ. Tuy nhiên, dịch vụ này chuyển đổi văn bản tốt hơn free-ocr.com và cho phép chuyển đổi các tài liệu có dung lượng lên đến 5MB.
Cuối cùng là www.ocronline.com, dịch vụ này đòi hỏi phải tạo một tài khoản miễn phí, nhưng cho phép chuyển đổi hình ảnh 4MB (khoảng 200dpi mỗi trang) và có thể tải lên đến 15 lần mỗi giờ. Bạn được tặng miễn phí 10 khoản tín dụng (credit), nhưng sau đó bạn phải trả tiền để mua credit. Trang web này bán credit với số lượng khác nhau, từ 50 trang với giá 3,95 USD (~83.000 đồng), tương đương 1.700 đồng/trang, đến 5.000 trang với giá 49,95 USD (~1 triệu đồng), tương đương 210 đồng/trang. Kết quả từ dịch vụ này rất tốt, xử lý được các yếu tố đồ họa và luôn cả văn bản, dù chưa đạt được chuẩn như các phần mềm Acrobat X hay FineReader 10.
Sách điện tử
Không gì sánh bằng tính ổn định về xúc giác, khứu giác và thị giác của một cuốn sách thật, nhưng ngày càng nhiều người đang sung sướng đọc sách ảo với các thiết bị như Kindle, Nook, iPad và các thiết bị khác. Điểm trội của loại sách này là tính di động, và văn bản có thể tìm kiếm được. Bạn cũng có thể đọc sách trên smartphone hay iPod. Với iPod, có thể bạn không ngại phải lật trang thường xuyên, dù chắc chắn là sau này nhiều người sẽ tìm một thiết bị lớn hơn. Ngoài sách từ các gian hàng trực tuyến, bạn có thể tự đưa vào những cuốn chưa được bán ra dưới định dạng kỹ thuật số.
Để chuyển đổi một quyển sách in thành sách điện tử (e-book), bạn cần quét từng trang một của quyển sách, sau đó OCR (người viết tạm dùng thuật ngữ này vì không có từ tốt hơn) các trang này. Công việc này khá mệt mỏi, hãy dùng máy quét có tốc độ nhanh. Nếu bạn sẵn sàng làm hỏng quyển sách, hay biết cách đóng gáy sách lại, bạn có thể dùng máy quét có khay nạp giấy tự động. Hầu hết các chương trình OCR nói trên đều có tính năng giúp sắp xếp trang.
Khi bạn đã có được tập tin văn bản (ở định dạng PDF, Word hay định dạng khác), hãy dùng Calibre – một phần mềm đọc, sắp xếp, hiệu chỉnh, xuất bản e-book miễn phí và mạnh mẽ - chuyển đổi tập tin sang định dạng thích hợp với thiết bị của bạn, thí dụ EPUB hay PDF. Khi bạn đã tạo được một tập tin xem được, hãy dùng một ứng dụng đọc sách như Stanza để tải sách điện tử này vào thiết bị của bạn. Thiết bị hay ứng dụng của bạn phải hỗ trợ tính năng tải tài liệu từ máy tính (side-loading).