Исследователи представили Epicure — семейство из трёх векторных представлений ингредиентов, переученных с нуля на мультиязычном корпусе рецептов. Они собрали 4,14 миллиона рецептов из 11 источников на семи языках: английском, китайском, русском, вьетнамском, испанском, турецком, индонезийском, немецком и индийском английском. Сырые названия ингредиентов привели к 1790 каноническим записям через пайплайн с LLM.
Дальше построили два графа. Первый — NPMI-граф «ингредиент-ингредиент» на 203 508 рёбер с мерой совместной встречаемости. Второй — FlavorDB граф «ингредиент-химическое соединение» на 80 019 рёбер, где 2247 типизированных узлов соединений распределены по 15 категориям. На этих графах обучили три варианта Metapath2Vec. У них одинаковая архитектура и гиперпараметры, различается только схема случайного блуждания.
Модель Cooc гуляет только по графу совместной встречаемости. Chem — только по типизированным метапутям химических соединений. Core смешивает оба подхода, добавляя прогулки по графу встречаемости с контролируемой долей. Каждая модель оказывается в своей точке спектра «химия против контекста рецепта».