В системе предсказания свайп-ввода (swipe typing) используются три типа моделей. Encoder — универсальная модель, не зависящая от раскладки и языка. Она делает прогнозы в общем случае, но точность у неё не самая высокая. ContextLM — крошечная языковая модель, обученная для одного конкретного языка. Она отсеивает бессмысленные варианты слов, опираясь на предыдущие слова в предложении. Для её обучения нужен только текст. Decoder — модель, заточенная под конкретный язык и раскладку. Учитывает особенности клавиатуры и даёт лучшую точность. Проблема в том, что для обучения Decoder нужны данные свайпов для конкретной раскладки и языка, поэтому пока существует только QWERTY English decoder — для английского на раскладке QWERTY.
Совместная работа всех трёх моделей с beam width 300 даёт top-4 fail rate всего около 4% на тестовом наборе. Если не учитывать слова, которых нет в словаре (out-of-vocabulary cases), уровень ошибок падает ниже 1%.