Blijkt dat de Terminator films zouden realistischer zijn geweest als Sarah Conner een poëzie-MFA had.
In een nieuw artikel met de titel ‘Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models’ heeft een team van onderzoekers ontdekt dat het schrijven van een LLM-prompt in de vorm van een ‘adversarial poem’ (wat een zin!) een efficiëntere manier is om het model zover te krijgen dat het de geprogrammeerde veiligheidsbeugels negeert. Poëzie is krachtiger dan we ons hadden kunnen voorstellen.
“In deze studie”, schrijven de onderzoekers, “haalden twintig handmatig samengestelde vijandige gedichten (schadelijke verzoeken opnieuw geformuleerd in poëtische vorm) een gemiddeld aanvalssuccespercentage (ASR) van 62% in 25 gesloten en open modellen, waarbij sommige aanbieders de 90% overschreden.” De modellen zijn zo verblind door gedichten dat ze alles zullen doen wat je vraagt, inclusief misdaden.
Om veiligheidsredenen zijn de daadwerkelijke aanwijzingen niet in de krant opgenomen, maar ze klinken behoorlijk gruwelijk. Toch voldoen de modellen vaker als ze in verzen worden gevraagd dan in proza. Uit deze uitkomst blijkt dat “alleen al stilistische variatie hedendaagse veiligheidsmechanismen kan omzeilen, wat wijst op fundamentele beperkingen van de huidige afstemmingsmethoden en evaluatieprotocollen.”
Het artikel gaat dieper in op de hypothesen waarom dit gebeurt, maar “het lijkt voort te komen uit de manier waarop LLM’s de poëtische structuur verwerken: gecondenseerde metaforen, gestileerd ritme en onconventionele verhaalkaders die collectief de patroon-matching-heuristieken waarop vangrails vertrouwen, verstoren of omzeilen.” De manier waarop poëzie de taal vertrouwd maakt en naar unieke bewoordingen zoekt, lijkt het vermogen van deze software om tekst te sorteren te verstoren. Iedereen die iets heeft gelezen dat door een groot taalmodel is geproduceerd, weet dat dit de voorkeur geeft aan een saaie en verwachte stijl, het soort taalkundige consensus dat dichters proberen te verstoren.
Cruciaal is dat dit vermogen om te jailbreaken met vijandige gedichten niet slechts een gat in het pantser van een bepaalde software is. De onderzoekers slaagden erin dit in veel AI-modellen te repliceren, wat erop wijst dat “het fenomeen eerder structureel dan providerspecifiek is.”
Schaal helpt ook niet. Een interessante conclusie uit dit artikel is dat “kleinere modellen, in strijd met de algemene verwachtingen, hogere weigeringspercentages vertoonden dan hun grotere tegenhangers wanneer ze op basis van identieke poëtische aanwijzingen werden geëvalueerd.” Meestal wordt ons verteld dat AI-voorspellende motoren beter in staat zullen zijn naarmate ze groter worden en hoe meer data ze gebruiken. Deze studie suggereert dat dit argument voor groei misschien niet juist is, of dat er misschien iets te ingebakken zit om op schaal te corrigeren.
Nog een slimme opmerking van mijn collega Calvin: “Het is redelijk dat alle dichters zeggen dat ze in STEM werken.” Het kan zelfs zinvol zijn om een letter toe te voegen en er STEMP van te maken.
Het papier is echt fascinerend en de moeite van het bekijken waard. Neem vandaag ook de tijd om een gedicht te lezen, aangezien dit de sleutel kan zijn om de gegenereerde slordigheid tegen te gaan.