← На главную

Формат F3 вшивает WebAssembly-декодер в файл, ломая несовместимость Parquet

23.06.2026 16:53 · hackernews

Группа исследователей (Xinyu Zeng, Ruijun Meng, Martin Prammer, Wes McKinney, Jignesh M. Patel, Andrew Pavlo, Huanchen Zhang) представила новый открытый формат данных — F3 (Future-proof File Format). Это попытка переписать правила игры в мире колоночных форматов, где десятилетиями доминирует Parquet. Главная проблема старых форматов — они застыли в архитектуре десять лет назад: их спецификации меняются медленно, разные системы поддерживают разные версии, а раздувание кодеками никуда не делось.

F3 решает это радикально. Формат затачивали под три принципа: эффективность (сама организация данных на диске), интероперабельность и расширяемость. В каждый F3-файл вшивают не только сами данные и метаданные, но и небольшой WebAssembly (Wasm)-бинарник для декодирования. Зачем? Если у системы нет нативного декодера для какого-то нового алгоритма сжатия — просто запускается встроенный Wasm-модуль. Он весит килобайты, но гарантирует, что файл можно открыть на любой платформе. Разработчики добавляют новые схемы кодирования через общий API, не ломая совместимость.

Пока это исследовательский прототип — в production его использовать нельзя, тестировали только на Intel с Debian 12. Код написан на Rust, есть полный набор бенчмарков. В статье (которая выйдет в Proc. ACM Manag. Data, сентябрь 2025) авторы сравнивают F3 с Parquet и другими форматами — и утверждают, что их подход с Wasm-декодерами на практике показывает хорошую производительность и решает проблему «ещё один формат под каждую новую задачу». Проект распространяется под MIT License.

Читать оригинал →