Bayer запустил AI-систему PRINCE для поиска доклинических данных

Bayer запустил PRINCE — агентную AI-систему для поиска и анализа доклинических данных. Раньше исследователи тонули в разрозненных silos: структурированные метаданные лежали в базах, а золотой стандарт информации — в PDF-отчётах за десятилетия. Классический keyword search с булевой логикой не справлялся с нюансами биомедицинских запросов.

PRINCE прошёл три фазы: Search (единый шлюз с фильтрами по метаданным), Ask (добавили RAG, чтобы задавать вопросы на естественном языке и получать ответы из PDF) и Do (текущий этап — мультиагентная система для сложных задач вроде подготовки регуляторных документов).

Архитектура построена на LangGraph и FastAPI. Оркестратор координирует нескольких агентов. Сначала Clarify User Intent — уточняет домен (токсикология, фармакология), чтобы не гонять все инструменты впустую. Затем Think & Plan — «пространство для размышлений» над стратегией, вдохновлённое Anthropic Think tool. Это резко повысило точность выбора инструментов.

Researcher Agent собирает данные двумя способами. RAG для неструктурированных PDF: на лету генерирует метаданные-фильтры, делает query expansion (n=5 вариантов запроса), гибридный поиск по OpenSearch (семантика 0.7 + keyword 0.3) и cross-encoder bge-reranker-large для отбора топ-7 чанков. Text-to-SQL для структурированных данных в Amazon Athena — с динамическим few-shot промптингом и автоматическим повторением при ошибках (до 3 попыток).

Reflection Agent проверяет, достаточно ли и релевантно ли собраны данные. Если нет — генерирует уточняющие вопросы и возвращает их в цикл Think & Plan. Writer Agent синтезирует ответ с обязательными цитатами и номерами исследований. Для сложных отчётов может запускать внутренний ревью-цикл на полноту.

Весь пайплайн мониторится через Langfuse, оценка по RAGAS. Bayer подчёркивают: большие контекстные окна не отменили необходимость контекстной дисциплины — каждый агент получает только свой срез данных, что упрощает отладку. Сейчас команда эволюционирует Researcher Agent в иерархию доменных саб-агентов, чтобы избежать путаницы между overlapping инструментами.