Abstract:
تعتمد أنظمة التعرف على الكتابة (Optical Character Recognition) (OCR) التي تستخدم الطريقة التحليلية (Analytical Approach) على تجزئة (Segmentation) الكلمة إلى حروف و من ثم تحاول التعرف على كل حرف بمفرده. و من أكثر الصعوبات التي تواجه أنظمة التعرف على الكتابة العربية هى التجزئة (Segmentation)، حيث تتميز الكتابة العربية باتصال حروفها (Cursive) بصورة معقدة و متعددة الاشكال. ومن هنا جاءت الحوجه إلى وجود جهود بحثية كبيرة للوصول لنظام تجزئة فعّال للغة العربية.
هذه الدراسة تقدم نظام لتجزئة الكلمة العربية المكتوبة بخط اليد إلى مكوناتها الحرفية. يقوم نظام تجزئة الكلمات المقترح بتجزئة الكلمات التي يظهر اتصال حروفها بشكل أفقي وعمودي (Overlapped Characters) مثال الكلمات: "حسن" و "محمد" على الترتيب. ويعتمد نظام تجزئة الكلمات المقترح على استخدام السمات الشكلية (Morphological Features) للحرف العربي. ويعتبر هذا النظام جزء من نظام التعرف على الكلمات العربية المكتوبة بخط اليد باستخدام الطريقة الشمولية (Holistic Approach) بحيث يلجأ نظام التعرف إلى نظام تجزئة الكلمات المقترح في حالة عدم التعرف على الكلمة.
مجموعة البيانات المستخدمة هي عبارة عن مجموعة بيانات جديدة للأسماء العربية المكتوبة بخط اليد وتسمى بمجموعة بيانات جامعة السودان للأسماء (SUST-ARG – names) Sudan University of Science and Technology - names-Arabic Recognition Group. وجُهزت مجموعة البيانات (SUST-ARG – names) من قِبل مجموعة التعرف على الأنماط البحثية بجامعة السودان للعلوم والتكنولوجيا.
اُختبر نظام تجزئة الكلمات المقترح على 287 كلمة تشمل كلمات تحتوي على حروف متداخلة (Overlapped Characters) وغير متداخلة وتم التوصل إلى نسبة تجزئة عامه 67.64% و نسبة %64.41 خاصة للكلمات التي تحتوي على حروف متداخلة (Overlapped Characters). ولأن الكتابة كانت بشكل حر بدون أي قيود ظهرت مشكلتان في النظام المقترح تحتاجان لمواصلة البحث والتطوير وهما: التجزئة الزائدة (Over Segmentation) والتجزئة الناقصة (Under Segmentation).