Табличные данные — основа корпоративной инфраструктуры и критически важны для множества задач машинного обучения: от прогноза оттока клиентов до выявления финансового мошенничества. Годами в этой сфере рулили supervised-алгоритмы на деревьях — AdaBoost, XGBoost, random forests. На структурированных данных они работают надёжно.
Но развёртывание таких моделей — узкое место. Подогнать XGBoost под новый датасод — это не один вызов .fit(). Нужна уйма ручной работы: часы на подбор гиперпараметров и инженерию признаков, чтобы вытянуть из сырых данных вменяемый сигнал.
Тем временем индустрия шагнула вперёд — большие языковые модели (LLM) показали, как круто работает zero-shot prediction через in-context learning (ICL). Модель учится новой задаче прямо на лету: даёшь ей примеры и инструкции во входном контексте, и никакого обновления весов не нужно.
Сегодня представили TabFM — foundation model, заточенную под классификацию и регрессию на таблицах. TabFM превращает табличное предсказание в задачу ICL. Это убивает сразу трёх зайцев: ручное обучение, тюнинг гиперпараметров и сложный фича-инжиниринг. Пользователь просто делает один forward pass на незнакомой таблице — и получает качественные предсказания. TabFM уже выложили на Hugging Face и GitHub.