Чтобы построить список слов, включающий двучленные и трехчленные словосочетания (N-граммы), такие как
OF THE
IN THE END
ONCE UPON A TIME
и т. п., Вам сначала нужно создать указатель (index file). Он по сути содержит информацию о местонахождении каждого отдельного слова в Вашем корпусе.
Смотри также : (построение списка многочленных словосочетаний)