Abstract:
الويب هو أكبر مصدر للبيانات في العالم، إنهحقل متعدد التخصصات يتضمن إستخراج البيانات، و التعلم الآلي، ومعالجة اللغات الطبيعية، والإحصائيات، وقواعد البيانات، وإسترجاع المعلومات، والوسائط المتعددة، وغيرها.
المشروع يحل مشكلةعدم تغطية المفردات ( out of vocabulary) مثل المصطلحات التي صيغت حديثاً والمصطلحات الفنية وأسماء الأعلاموغيرها التيلا توجد في القواميس ثنائية اللغة (عربي- إنجليزي) لذلك تم إستخدام تقنية تنقيب الويب المستخدمةلحل هذه المشكلة، .يتم البحث عن المصطلح هو مجرد في القاموس ثنائي اللغة إذا تم العثور على معناها يتم إسترجاعه وإذا لم يوجد معناها في القاموس يتم تنقيب الويب للحصول على العديد من المعاني المحتملة للمصطلح المدخل وتم إستخدام إختبار (Chi-Square ) لإيجاد أقرب معنى للمصطلح. وتم إدخال 180 مصطلح وكانت نسبة المصطلحات الصحيحة 80% ونسبة المصطلحات الخطأ 20% ونعزي ذلك لمشاكل المعالجة المبدئية للغة العربية.