كيفية إجراء OCR لاستخراج النصوص من PDF [الدليل النهائي]
تم التحديث الأخير في 27 سبتمبر 2022 by تينا كلارك
فقط التقط بعض الصور للعرض وتريد استخلاص النصوص منه بسهولة ، ماذا تفعل؟ يعد OCR ملف PDF المستند إلى الصور خيارًا بسيطًا للحصول على الملفات المطلوبة. عندما تحتاج إلى تحويل ملف PDF إلى ملف قابل للبحث والتحرير ، ما هو أصعب تطبيق خوارزمية OCR على ملفات PDF؟ يجب أن تكون قاعدة بيانات اللغات هي الإجابة الصحيحة. قد تجد أن ميزة التعرف الضوئي على الحروف تعمل مع لغة واحدة ، ولكن ليس مع لغة أخرى. ما عليك سوى معرفة المزيد عن العناصر الستة المستخدمة بشكل متكرر التعرف الضوئي على الحروف PDF الحلول واختيار الحل المناسب وفقًا لمتطلباتك.

الجزء 1: طريقة سهلة لتحويل PDF إلى نص باستخدام PDF OCR
PDFelement هو محرر PDF متعدد الإمكانات لتنفيذ خوارزمية OCR ، والتي تدعم 23 لغة مختلفة بتقنيات متقدمة. يقوم بتنفيذ حل OCR PDF للاحتفاظ بنفس تنسيق المحتوى الأصلي الخاص بك ، وسيكون النص قابلاً للبحث والتحديد. كما أنه يوفر حرفيًا الآلاف من الميزات التي تجعل الأفكار المتعلقة بـ PDF سهلة الفهم والتطبيق على مجموعة واسعة من المواقف.
1. تطبيق خوارزميات OCR على ملفات PDF الممسوحة ضوئيًا وملفات PDF القائمة على الصور.
2. استخراج النصوص المطلوبة من ملفات PDF بأكثر من 20 لغة.
3. تحويل الصور القائمة PDF إلى Wordو Excel و PPT وتنسيقات الملفات الأخرى.
4. احتفظ بمحتوى PDF الأصلي لجعل ملف PDF قابلاً للبحث والتحرير.
الخطوة1: قم باستيراد ملف PDF المستند إلى الصور أو ملف PDF الممسوح ضوئيًا إلى PDFelement ، كما يمكنك استخدام PDFelement iOS لالتقاط ملفات PDF باستخدام كاميرا جهاز iPhone أو iPad. هناك العديد من الاستراتيجيات التي يمكن استخدامها لضمان عرض الصورة.

الخطوة2: بمجرد قيامك باستيراد ملف PDF المطلوب ، يمكنك العثور على ملف أداء التعرف الضوئي على الحروف زر لاستخراج النصوص المطلوبة. علاوة على ذلك ، انقر فوق التعرف الضوئي على الحروف لاختيار وضع التعرف الضوئي على الحروف ثم انقر فوق تغيير اللغة لاختيار لغة مختلفة لمحتوى الصورة.

الخطوة3: سيتعرف حل OCR PDF على النص في صورتك ، مما يسمح لك بتغيير النص. علاوة على ذلك ، فإنه يحتفظ بنفس تنسيق محتوى PDF الأصلي الخاص بك وسيكون النص قابلاً للبحث والتحديد. بعد ذلك ، يمكنك إجراء بعض التغييرات على نصوص PDF.
الخطوة4: بمجرد قيامك بتحويل ملف PDF المستند إلى الصور باستخدام خوارزمية التعرف الضوئي على الحروف ، فإنه سينشئ ملف PDF قابلاً للتحرير تمامًا. لإجراء تغييرات فورية على النص ، حدد ملف تعديل زر من القائمة المنسدلة في الزاوية العلوية اليسرى من الشاشة قبل الحفظ.

الجزء 2: 5 حلول OCR PDF لاستخراج الكلمات من PDF
Sejda - حل OCR PDF عبر الإنترنت
سجدة هو حل OCR PDF عبر الإنترنت لاستخراج النص من ملفات PDF. يأتي مع عميل سطح مكتب لأنظمة Windows و macOS و Linux ، بالإضافة إلى برنامج OCR المستند إلى المتصفح للاستخدام على الويب. يمكنك الحصول على مستند PDF يمكن البحث فيه ، حيث يجب تراكب النص غير المرئي على الصور الأصلية في المواقع الصحيحة.
الايجابيات
1. توفير طريقة سهلة وسريعة لتطبيق بعض وظائف التعرف الضوئي على الحروف الأساسية.
2. خدمة مجانية لملفات PDF تصل إلى 10 صفحات أو 50 ميجابايت و 3 مهام في الساعة.
3. دعم الخدمات غير المنظمة ولديك الحرية في فعل ما تريد تعديله.
سلبيات
1. مهام محدودة خلال اليوم ، وحجم ملف محدود بحد أقصى 50 ميغا بايت.
2. تحتاج إلى تحسين سطوع وتباين PDF قبل OCR PDF.

صفحة Omni - OCR PDF مع 120 لغة
صفحة أومني تمكنك من استغلال قدرات التعرف الضوئي على الحروف بسرعة وفعالية. لا تعمل خوارزمية OCR PDF فقط مع PDF ولكن أيضًا BMP و ملفات صور GIF بسهولة لأكثر من 120 لغة. علاوة على ذلك ، يوفر أيضًا خوارزمية متقدمة للحفاظ على المحتوى الأصلي ، بما في ذلك الأعمدة والجداول والرموز النقطية والرسومات وما إلى ذلك.
الايجابيات
1. قدم الاحتفاظ بالتخطيط الأصلي والتنسيق الناتج الإجمالي.
2. توفر محركات OCR المحسنة دقة فائقة لتحويل ملفات PDF.
3. قم بتضمين موصل Nuance Cloud المتطور المدعوم من Gladinet.
سلبيات
1. يتم تحميل برامج الإعلانات المتسللة على النظام عند استخدام ميزة التعرف الضوئي على الحروف.
2. واجهة المستخدم الخاصة بالبرنامج ليست بديهية مثل تلك الخاصة بالبرامج الأخرى.

Microsoft Word - برنامج OCR PDF مدمج لـ Office
ليس من الضروري تنزيل برنامج OCR منفصل وتثبيته إذا كنت قد اشتركت بالفعل في Microsoft Office. لتحويل ملفات PDF والصور إلى نص ، تم دمج تقنية PDF OCR في Microsoft ، بما في ذلك ميكروسوفت وردو Excel و OneNote. كل ما عليك فعله هو فتح ملف PDF في Word لتحويله إلى ملف قابل للتحرير.
الايجابيات
1. تحويل النص في ملف PDF قائم على الصور الممسوحة ضوئيًا إلى مستند Word.
2. انسخ النص من الصور والملفات المطبوعة باستخدام OCR في OneNote.
3. أضف نصًا مباشرةً إلى ملاحظاتك بعد استخراج الجداول إلى Excel / Word.
سلبيات
1. طلب الاشتراك في Office 365 لاستخراج الجدول في الإصدار عبر الإنترنت.
2. لا يمكن الاحتفاظ بجداول PDF الأصلية والرموز والرسومات وغيرها.

Tesseract - محرك PDF OCR قوي
تسراكت هي حزمة OCR PDF احترافية ومفتوحة المصدر أخرى. يحظى بمستوى عالٍ من الاحترام بين رجال الأعمال. يمكنك استخدامه لتحويل المستندات الورقية الممسوحة ضوئيًا ، في شكل ملفات أو صور PDF ، إلى بيانات قابلة للبحث والتحرير. يتضمن عادةً ماسحًا ضوئيًا يحول المستند إلى الكثير من الألوان المختلفة ، والمعروفة باسم صورة نقطية.
الايجابيات
1. توفير حل OCR PDF مجانًا لنظام التشغيل Windows و Mac و Linux مجانًا.
2. قم بإجراء بعض التغييرات الأساسية على البرنامج لجعله أكثر تعددًا للغات.
3. نفذ في قسم من المستند بدلاً من المستند الكامل.
سلبيات
1. استخدم واجهة سطر الأوامر ، فهي ليست جزءًا مباشرًا من البرنامج.
2. التعرف البصري على الحروف أقل دقة مما يعتقده مطوروه.

فاين ريدر - حل OCR PDF المدعوم بالذكاء الاصطناعي
القارئ على ما يرام هي واحدة من أكثر خدمات التعرف الضوئي على الحروف لملفات PDF خبرة. يُنظر إليه على نطاق واسع على أنه أحد التطبيقات القائمة على الذكاء الاصطناعي والتي ساهمت في التحسين الشامل لجودة حياة المستخدم. يوفر ميزات OCR عبر الإنترنت وغير متصل لاستخراج النص بسرعة من عمليات المسح إلى تنسيق TXT على جهازك دون اتصال بالإنترنت.
الايجابيات
1. دعم 192 لغة مختلفة ومراجعة إملائية لـ 47 لغة.
2. تحديد حجم المستند في الواقع المعزز للمستندات غير القياسية والمزيد من الطباعة.
3. التحويل إلى تنسيق آخر والحفاظ على تنسيق المستند الأصلي.
سلبيات
1. غير قادر على العمل بكفاءة بسبب بطء البرنامج.
2. لا يمكن إجراء OCR على مستندات TXT مع هذا البرنامج مباشرة.

في الختام
فيما يلي بعض حلول OCR PDF الشائعة المتوفرة في السوق. عندما تحتاج إلى تحويل بعض ملفات PDF القائمة على الصور أو الممسوحة ضوئيًا إلى ملف PDF قابل للبحث والتحرير ، يمكنك معرفة المزيد من الميزات الخاصة حول حلول OCR PDF ، خاصة اللغات المدعومة. يعد PDFelement أحد أفضل الطرق لضمان استخدام أفضل برامج التعرف الضوئي على الحروف المكتوبة بخط اليد عند مسح المستندات ضوئيًا ورقمتها.