Kryzys tożsamości (modelu)

Ciekawy materiał – Prompt Injection as Role Confusion.

Prompt injection nie jest niczym fundamentalnie nowym, to “tylko” kolejny typ injection, czyli sytuacji, gdy różne konteksty (lub role) nie są wyraźnie oddzielone i mogą mieszać się w sposób, który skutkuje efektami innymi od oczekiwanych.

W wielu przypadkach injection jest dość oczywiste, przykładowo gdy dane pochodzące od użytkownika stają się częścią zapytania SQL. W przypadku prompt injection jest prawie tak samo, ale nie do końca. Kluczowe jest to jak kontekst zinterpretuje model. Bo znaczniki ról niby są, ale w praktyce okazują się ”miękkie”, a to otwiera ciekawe możliwości, patrz Chain-of-Thought Hijacking.

Patrząc na SQLi czy XSS relatywnie łatwo jest zrozumieć, co poszło nie tak (no chyba, że mówimy o dziwacznych DOM base XSS). Zrozumieć dlaczego dany model postanowił uznać fragment tekstu za ważną instrukcję systemową, która zmienia jego zachowanie – bywa już trudniej.

Autor: Paweł Goleń