hot_boy02005

New Member
Có nhiều phần mềm giúp chuyển một file pdf tiếng Anh sang Word một cách nhanh chóng và chính xác, nhưng chuyển đổi một file pdf tiếng Việt sang Word , trả toàn không dễ dàng như vậy. Bài viết sẽ trình bày một cách phối hợp 3 phần mềm để cho các font tiếng Việt không hay ít bị lỗi sau khi khi chuyển đổi từ pdf sang Word.



Chuyển đổi file pdf thành Word với một văn bản tiếng Anh là không khó khi có sự trợ giúp đắc lực của các phần mềm như Solid Converter PDF to Word, miễn phí PDF to Word Doc Converter... Nhưng với một file pdf tiếng Việt , chuyện dùng những phần mềm nêu trên là không hiệu quả, font chữ sẽ bị lỗi rất nhiều và chuyện sửa lỗi còn mất nhiều thời (gian) gian hơn là ngồi gõ lại. Bài viết này xin trình bày cách phối hợp 3 phần mềm là: IrfanView 4.1, PDF Converter XP và VnDocr 4.0 để chuyển một file pdf tiếng Việt sang định dạng doc quen thuộc.




1. Download và cài đặt các chương trình lên máy tính:


Bộ cài đặt bao gồm tất cả các phần mềm kể trên, bạn
click vào đây
để tải về .
ABBYY FineReader 12 Professional

2. Chuyển file pdf thành file ảnh:




- Mở chương trình PDF Converter XP lên, chuyển qua tab Pdf > Image.


- Chọn Add files..., sẽ có 1 hộp thoại xuất hiện yêu cầu bạn nhập file pdf.




- Chọn file pdf xong, hãy bấm vào nút Convert now! Một hộp thoại mới xuất hiện, yêu cầu xác định nơi lưu file ảnh xuất ra, độ phân giải của ảnh. Bạn nên chọn độ phân giải là 300 dpi để chuyện nhận dạng ký tự được chính xác hơn.

3. Chuyển định dạng ảnh về đen trắng (2 color):


Việc chuyển thành ảnh đen trắng này nhằm để cho chương trinh VnDocr 4.0 có thể làm chuyện được.


- Mở chương trình IrfanView 4.1, chọn File > Patch conphiên bản/rename. Một hộp thoại xuất hiện. Trong phần Look in bạn chọn dường dẫn tới nơi bạn vừa lưu file ảnh ở bước 2. Chọn tất cả hình cần rồi bấm Add.


- Bấm chọn vào Use advanced options > Advanced > Change color depth > 2 color (black/white) (1BPP) > OK.


- Chọn nơi lưu file trong mục Output directory for result files, chọn Patch để chương trình bắt đầu làm việc.


4. dùng phần mềm VnDocr 4.0 để nhận dạng văn bản:




- Mở phần mềm VnDocr 4.0, chọn Đọc ảnh, chọn các ảnh vừa lưu ở bước 3, bấm Open.


- Bấm chọn nút nhận dạng trên menu, trong bước này ta cần xác định chính xác vùng chọn là văn bản, ảnh hay là bảng biểu, bằng cách bấm chuột phải vào vùng đó và chọn định dạng phù hợp (lưu ý là chương trình thường nhầm lẫn giữa dịnh dạng ảnh và bảng).


- Sau khi vừa chỉnh định dạng các vùng, bấm vào nút Nhận dạng để chương trình làm việc.

5. Copy qua Word văn bản vừa được nhận dạng:


Vì bản demo của chương trình VNDocr 4.0 không cho phép ta lưu văn bản nhận dạng được nên nên phải copy qua Word để lưu.


- Mở một file Word mới và để dưới taskbar.


- Trong VnDocr 4.0, quét chọn vùng văn bản cần dùng, bấm giữ chuột trái vào vùng vừa chọn và kéo rê thả vào Word ở dưới thanh taskbar.


Tới đây bạn vừa hoàn thành chuyện chuyển văn bản. Các phần mềm giới thiệu ở trên đều có thể làm chuyện với nhiều file một lúc, giúp bạn đỡ tốn thời (gian) gian để trả thành công việc. Kinh nghiệm cho thấy, chuyển một file pdf 10 trang toàn chữ thành Word chỉ mất chưa tới 5 phút, chắc chắn là đỡ mất công hơn nhiều so với chuyện ngồi gõ lại 10 trang này...
 

Zhou

New Member
Đến bước 5 rồi không kéo rê xuống word được chủ topic ơi!!!
 

Percy

New Member
mình sau khi chuyển sang lại bị lỗi phong chữ thì làm thế nào hả bạn
 

nhox_love094

New Member
tại sao mình làm đến bước 4 chọn ảnh đen trắng thì khi chọn vao file lưu ảnh thì không mở được hả các bạn ơi???????????????

---------- Bài thêm lúc 01:53 ---------- Bài trước là lúc 01:37 ----------

bac oi. khi em bấm nhận dạng thì nó báo v- chỉ nhận dạng đen trắng mà rõ ràng em làm đúng theo trình tự

trời ơi

các bạn giúp em với
 
sử dụng Arobat Pro 8 là chuyển vô tư , vừa chuyển từ work sang pdf và ngược lại. đọc được file pdf tại sao không dùng mà đi dùng mấy phần mền đâu không.pó tay
 

Các chủ đề có liên quan khác

Top