← На главную

macOS впереди: AI-агенты опираются на accessibility API

29.05.2026 14:59 · hackernews

Год десктопного Linux так и не наступил, а теперь появилась новая и куда более мрачная причина. Будущий пользователь компьютера — это не человек. Или не только человек. Роботы приходят на десктоп, и пандусы для них уже построены. Они назывались accessibility API.

Если открыть Accessibility Inspector на Mac, внутри обычного интерфейса обнаруживается второй экземпляр системы — иерархическое дерево объектов. Window. Group. Button. Text field. Scroll area. Каждому элементу присвоены свойства, значения, действия. Изначально это проектировалось не для мышки, а для VoiceOver, switch control и диктовки. Операционной системе пришлось научиться описывать саму себя. И теперь это же нужно AI-агентам.

Нагляднее всего это видно в OpenAI Codex Computer Use. На macOS он не просто делает скриншот — он вытягивает «доступный текст» из активного окна, включая контент за пределами видимой области прокрутки, и взаимодействует с системой через независимую мышь, не мешая пользователю. OpenAI купила разработчика этой технологии — компанию Software Applications Incorporated (продукт Sky) — в октябре 2025 года. Бинарник до сих пор называется SkyComputerUseClient.

Секрет не в наличии API как такового — они есть и в Windows (Microsoft UI Automation), и в Linux (AT-SPI). Секрет macOS в дефолтах. Ещё в конце 1990-х Apple решила, что если сделать приложение из стандартных NSButton, NSTextField или WKWebView, оно будет доступно из коробки. Разработчик писал обычную программу и получал accessibility-дерево бесплатно. Затраты были зашиты в SDK, а не в приложение. Слепой пользователь получил дерево. Спустя годы — Codex.

Проблема Windows в археологии. UI Automation технически отличный, но Windows — музей приложений: Win32, WPF, WinForms, UWP, WinUI, Electron, встроенные веб-страницы. Дерево напоминает пустой дом. Приложение должно соответствовать API, а оно часто не соответствует.

С Linux ещё тяжелее. AT-SPI существует, GTK и Qt его поддерживают, но агенту нужно не просто дерево. Ему нужны перечисление окон, захват экрана, синтез ввода и единая модель разрешений. На Mac это два тумблера — Accessibility и Screen Recording. В Linux под Wayland захват — один портал, ввод — другой (или libei), перечисление окон — протокол конкретного композитного менеджера. Кросс-композитная эволюция — протокол Newton — разрабатывается одним человеком, Мэттом Кэмпбеллом, на грант, и ещё «не строго определён». KDE на него не подписался.

Linux может сделать почти всё, но не может заставить всех заботиться об этом одновременно. Стандарт «пригодного для использования десктопа» сместился. Теперь вопрос не в том, удобно ли вам работать. Вопрос в том, может ли нечто, не являющееся вами, работать за вас. Высококачественное дерево доступности, надёжный синтез ввода, согласованная модель разрешений — Apple строит это три десятилетия. Microsoft инженирит, но позволяет половине платформы прогуливать домашку. А Linux собирает это по частям, часто силами одного человека. И это не тот разрыв, который закрывается хорошим кодом.

Читать оригинал →