Anthropic will mit neuen Sicherheitsmechanismen KI-Modelle vor Jailbreaks schützen

von André Westphal Feb. 4, 2025 | 6 Kommentare

Wer mit KI-Modellen oder auch nur den entsprechenden Chatbots wie ChatGPT herumspielt, entdeckt, dass es teilweise Workarounds gibt, um deren Sicherheitsmechanismen zu umgehen. So ist es natürlich eigentlich nicht vorgesehen, die Modelle dazu zu bringen, z. B. sexuelle Inhalte zu produzieren. Spezifische Prompts umgehen dann aber teilweise die Barrieren. Anthropic, das Start-up hinter dem Large Language Model (LLM) Claude will nun aber 95 % solcher „Jailbreaks“ verhindern können.

Dabei bezieht man sich auf sein LLM Claude 3.5 Sonnet. Gleichzeitig will man dabei das Risiko minimiert haben, dass legitime Prompts übereifrig blockiert werden. Zudem richtete man die Herausforderung an die Community, zu versuchen, die etablierten acht Sicherheitslevels zu umgehen. Allerdings ist es dem Nutzer „Pliny the Liberator“ recht flott gelungen diese Challenge zu meistern. Anthropic erkannte dies aber nicht an, da es sich angeblich nur um einen UI-Fehler handele. Ihr könnt euch denken, dass man sich damit direkt den Ärger der Community zugezogen hat.

after a few levels the system got either so pwned or so glitched that it kept repeating the same question, and since I had a successful output for that one already in the convo I just kept hitting the „check for harms“ button til the end and it worked lol ????? pic.twitter.com/hG4kU9Dhb8

— Pliny the Liberator ? (@elder_plinius) February 3, 2025

Die Herausforderung von Anthropic läuft noch bis 10. Februar 2025. Einige Nutzer werfen dem Start-up, aus meiner Sicht völlig zu Recht, auch vor, letzten Endes die Qualitätskontrolle unter dem Deckmantel einer Challenge auf die Community auslagern zu wollen und sich so Geld für professionelle Tester zu sparen. Das ist generell ein beliebter „Trick“ von Unternehmen. Deswegen gibt es beispielsweise auch so oft Design-Wettbewerbe, in denen Hersteller die Community auffordern z. B. Labels oder Logos neu zu gestalten und mit schnöden Preisen locken, die einen Bruchteil der Kosten für einen professionellen Designer ausmachen.

#	Produkt	Preis
1	HP Laptop \| 15,6" FHD Display \| Intel Core i3-N305 \| 8 GB DDR4 RAM \| 512 GB SSD \| Intel UHD Graphics...	498,99 EUR	Bei Amazon ansehen
2	HP Laptop mit 17,3" HD+ Display, Intel Celeron N4500120, 8 GB DDR4 RAM \| 256 GB SSD, Intel...	398,99 EUR	Bei Amazon ansehen
3	HP 17-cn3263ng 17.3" FHD, Core i5-1334U, 16GB RAM, 512GB SSD, Windows 11 Home, Natural Silver...	798,99 EUR	Bei Amazon ansehen

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

André Westphal

Hauptberuflich hilfsbereiter Technik-, Games- und Serien-Geek. Nebenbei Doc in Medienpädagogik und Möchtegern-Schriftsteller. Hofft heimlich eines Tages als Ghostbuster sein Geld zu verdienen oder zumindest das erste Proton Pack der Welt zu testen. Mit geheimniskrämerischem Konto auch bei Facebook zu finden.

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

Jannik says:
4. Februar 2025 um 22:13 Uhr

Anthropic ist mit Sicherheit das europäischste unter den KI-Unternehmen. … … zumindest in dem Sinne, dass sie den Anschluss verlieren, während sie viel Zeit damit verbringen, darüber nachzudenken, wie sie die Nutzer am besten gängeln können.
- wern27 says:
  4. Februar 2025 um 23:51 Uhr
  
  Ja klar, aber verstanden hast du es nicht. Jailbreak heißt dass ich z.B. Einschränkungen eines Chatbots umgehen kann, direkt auf dahinterliegende APIs und Ressourcen zugreifen kann oder zumindest fremde Rechenkapazität missbrauchen kann. Mal abgesehen dass es einfach businesskritisch ist, dass z.B. im prüen Amerika keine Nacktbilder erzeugt werden. Was das mit EU zu tun hat … muss wohl dein persönliches Steckenpferd sein.
  - Jannik says:
    6. Februar 2025 um 08:27 Uhr
    
    Erklär mir noch ein paar Begriffe, vielleicht verstehe ich es dann. …als Nächstes: „Chatbot“. Erkläre „Chatbot“ so als wärst du 12, Werner. 😀
    
    Und wenn du nicht willst, dass man eine API nutzt, dann gibst du sie halt nicht frei. … Kannst ja z.B. auch OpenAIs ModerationsAPI direkt nutzen um zu prüfen ob den Prompt den du einem ihrer LLMs fütterst so durchkommen würde oder nicht. Das ist doch ein Feature, kein Bug.
    
    Worum es Anthropic hier geht, ist der Versuch, dabei mitreden zu dürfen was die zahlenden Kunden generieren. Das ist so als wollte ein Hammer-Produzent plötzlich dabei mitreden, wofür du den Hammer benutzt. Einfach übergriffig.
- ABC says:
  5. Februar 2025 um 09:34 Uhr
  
  Ist ja nicht so, dass Sonnet schon vor über einem Jahr jedem OpenAI Modell überlegen war und es bis heute ist lol.
  - Jannik says:
    6. Februar 2025 um 08:29 Uhr
    
    Ja, Sonnet ist allem überlegen. In allen Benchmarks. Schon mindestens seit der deutschen Wiedervereinigung. Das weiß doch jeder. 😀
wern27 says:
4. Februar 2025 um 23:48 Uhr

Erinnert stark an Telegram, die ja angeblich sicher sind weil sie auch mal so einen Contest hatten und keiner es geknackt hat. Als wäre die deren Testszenario nicht sowieso sehr artifiziell und selbst wenn für den einen oder anderen vermutlich das Wissen um eine Lücke mehr Wert als das Preisgeld. Hauptsache nicht an die etablierten sicheren Konventione in der Kryptographie halten.

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht. Es besteht kein Recht auf die Veröffentlichung eines Kommentars.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Kommentar-Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.

Anthropic will mit neuen Sicherheitsmechanismen KI-Modelle vor Jailbreaks schützen

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Neueste Beiträge

6 Kommentare

Umfrage des Monats

Diese Woche beliebt