عرض سريع لملامح اللغة العربية :
1 - النص العربي سواء مكتوب بخط اليد أو مطبوعاً هو نص متصل تنضم الأحرف مع بعضها البعض على عكس اللغة الإنكليزي .
4- في اللغة العربية يأخذ الحرف عدة أشكال حسب موضعه في الجملة فشكله في بداية الكلمة يختلف عن شكله في وسطها و نهايتها مما يجعل العدد الفعلي للأحرف العربية 160 حرف لتمييزها و الشكل (2.3) يوضح ذلك .
5- يتم تشكيل الكلمة بحركات ولكن غالبا ما يتم حذفها عند المعالجة لأن ليس المطلوب فهم الكلمة حيث التشكيل يؤدي إلى التغيير في معنى الكلمة و هذا ليس محور العمل .
6- يوجد في اللغة العربية حروف متشابهة :
لا يشكل هذا النوع من التشابه عائقا كبيرا مقارنة بالنوع المذكور سابقا، ويرجع سبب ذلك إلى قلة حالات التشابه هذه، وإلى أن التشابه لا يكون ظاهرا بشكل كبير في المستندات المطبوعة وإنما قد يكثر في المستندات المكتوبة يدوياً.
ويكون هذا التشابه عادة في بعض الحروف التي قد يكون لها الشكل نفسه مثل حرفي الفاء والغين إذا كانا في وسط الكلمة ، كما في كلمتي (صغير) و (صفير) الموضحتان في الشكل (2.4) ، فمن الممكن أن يسبب هذا التشابه إرباكاً للبرنامج في التمييز بينهما, ومثل حرفي الدال والراء كما في كلمتي (أحمد) و (أحمر) من الممكن أن يسبب هذا التشابه إرباكاً أيضا في التمييز بينهما. يمكن ملاحظة هذا التشابه أكثر عند محاولة التعرف على الكتابة اليدوية
7- السوابق واللواحق:
بعض الحروف لها سوابق أو لواحق السوابق هي ما فوق أعلى السطر أما اللواحق هي ما تحت السطر الأسفل