Czy ufasz swojemu agentowi?

Wyobraź sobie taką sytuację – masz współpracownika, któremu ufasz. Ale z czasem zaczynasz się zastanawiać, czy aby przypadkiem nie jest przypadkiem Koreańczykiem, tym z północy. Cóż zrobić?

Rozwiązanie jest banalnie proste, wystarczy poddać taką osobę testowi Stroopa... ...tak, wiem. Tak naprawdę opowieści o wykorzystaniu tego konkretnego testu do demaskowania szpiegów mają bardziej anegdotyczny charakter, ale użyłem tego przykładu celowo, bo ostatnio okazało się, że LLM też mają problem z tym testem, patrz Stroop Test Exposes Inherent LLM Flaw.

Zbliżając się do sedna – ostatnio uczestniczyłem w dyskusji odnośnie projektowania toola udostępnianego przez MCP dla agenta. Tool miał za zadanie pozwolić agentowi wykonywać potrzebne operacje, ale jednocześnie zablokować możliwość wycieku danych. Na pierwszy rzut oka rozwiązanie było poprawne, szczegóły danych nigdy nie były ujawniane agentowi, tylko pewne statystyki, które agent potrzebował do analizy wydajności. Problem rozwiązany?

Nie do końca. Narzędzie to, z uwagi na swoje przeznaczenie, nadal miało kilka subtelnych side channels pozwalających na wnioskowanie o danych, czyli efektywnie – wyciek danych nadal był możliwy. Co więcej, obecne LLM bez trudu były w stanie zidentyfikować ten scenariusz na podstawie opisu narzędzia (co przyjmuje na wejściu i co robi). Ups.

I teraz naprawdę korci mnie, by przetestować ten case w Agentic Misalignment: How LLMs could be insider threats.

Autor: Paweł Goleń