Phân biệt các loại file PDF 1 lớp, PDF 2 lớp

Tại sao file pdf 2 lớp lại quan trọng trong các dự án số hóa hiện nay? Chúng ta đều biết, ngoài các file pdf theo chuẩn công nghiệp, thì thường chúng ta chỉ quan tâm một số loại thông dụng sau:

  • pdf 1 lớp: là file pdf tạo thành từ quá trình scan tài liệu bản cứng thành bản điện tử, nó chỉ có 1 lớp là lớp hình ảnh và không thể tìm kiếm. Có nhiều loại máy scan hiện nay hỗ trợ OCR để tạo thành pdf 2 lớp nhưng với tài liệu tiếng Việt thì không được chính xác
  • pdf 2 lớp: là pdf 1 lớp hình ảnh được xử lý qua các phần mềm như OCR để tạo thành 2 lớp: lớp trên là hình ảnh, lớp dưới là text để phục vụ tìm kiếm. Hai lớp này được đóng trùng khít vào nhau
  • pdf searchable: gồm có 2 loại
    • pdf 2 lớp: như giải thích ở trên
    • pdf 1 lớp text: là file pdf chỉ có 1 lớp text có thể tìm kiếm. file pdf này được hình thành như từ việc save as các file word, excel… hoặc từ quá trình nhập tay dữ liệu và tạo thành pdf bằng phần mềm

Với các phần mềm số hóa, đầu vào thường là pdf lớp hình ảnh (không thể tìm kiếm) và đầu ra là pdf searchable (pdf 2 lớp và pdf 1 lớp text).

Có thể thấy, nhu cầu của chúng ta hiện nay hầu hết là pdf searchable. Việc tạo pdf searchable cần dùng phần mềm chuyên biệt để có thể tạo hàng loạt số lượng lớn.