ChatGPT 5.5 Pro решил за час задачи уровня PhD

Мы вынуждены постоянно пересматривать в уме оценки математических способностей больших языковых моделей. Доступ к ChatGPT 5.5 Pro подтвердил эти сомнения: за час система решила задачи уровня PhD в комбинаторике практически без участия человека. Ранее модели могли решать известные Erdős-проблемы из базы Thomas Bloom, находившиеся в литературе или легко выводящиеся из известных результатов. Теперь смех сменился удивлением: модели находят неочевидные для людей простые доказательства, которые остальные пропустили из-за недостатка внимания к задаче. В свою очередь, если задача кажется гениальной, часто выясняется, что она просто собирает известные факты.

Автор решил проверить ChatGPT 5.5 Pro на задачах из статьи Мела Натансона о разнообразии, равноправии и включении в аддитивной теории чисел. Натансон интересен тем, что его темы часто становились модными после публикаций, что обеспечило его учебникам огромное влияние. Он рассматривает размеры множества сумм $hA$ для конечного множества целых чисел $A$. Сначала модель пыталась найти точный ответ для размера $hA$ при $h=1$, а затем решала задачу о минимальном диаметре множества, обеспечивающего конкретные размеры его сумм. Натансон доказал существование подмножеств с нужными свойствами, но не нашел оптимальной верхней границы диаметра. ChatGPT 5.5 Pro проанализировала проблему 17 минут и предложила конструкцию с квадратичной верхней границей, которая оказалась оптимальной. Модель использовала идею построения множеств из Sidon-множеств и арифметических прогрессий. Автор проверил корректность аргумента и заметил, что модель просто применила более эффективный тип Sidon-множеств, о которых Натансон не знал в своём первоначальном индуктивном доказательстве.

Далее проверка перешла к случаям $h > 1$. Доказательство для $h=1$ опиралось на работу Ирдёша и Земереди об известных размерах множеств, что казалось сложной задачей для ИИ. Однако студент MIT Айзаак Рааджагопал уже доказал экспоненциальную зависимость. Настоящая сложность заключалась в конструировании множеств с заданными размерами сумм для любого $h$. ChatGPT не решала задачу с нуля, а улучшала аргумент Рааджагопала. За 16 минут 41 секунду модель снизила границу с экспоненциальной зависимости от полиномиальной. Написание претприна заняло еще 47 минут. Рааджагопал подтвердил корректность результата. Когда авторы спросили о поиске полиномиальной зависимости для фиксированных $h$, модель обнаружила проблему и вернулась через 31 минуту с готовым доказательством. Айзаак Рааджагопал заявил, что идея оригинальна и убедительна.

Исаак отметил, что ChatGPT в два часа достиг уровня, соответствующего главе комбинаторного PhD. Для студента найти это улучшение было бы невозможно без долгих месяцев размышлений. Искусственный интеллект уже решает «мягкие» задачи, поэтому барьер входа в исследование вырос: теперь нужно доказывать то, что модели не могут. Искусственный интеллект не создаёт полностью новые идеи, а лишь перекомбинирует существующие знания и техники, что является основой всей математики. Эпоха, когда имя математика навсегда связывалось с теоремами, близится к концу. Однако, решая сложные проблемы, мы получаем уникальное понимание процесса исследования, что критически важно для будущих исследований. Математика остается переносимым навыком, и сотрудничество с ИИ только усилит позиции исследователей в новом мире.