|
||
لإنشاء لائحة كلمات مزدوجة أو ثلاثية n-grams مثل
OF THE
IN THE END
ONCE UPON A TIME
الخ .. ستحتاج أولا إحصاء index file. هذا يعرف بالأساس كل كلمة على حدة ضمن قائمة المفردات العامة التي لديك ( Corpus ).
انظر ايضا : making the multi-word unit wordlist