Golden Gate Claude: Anthropic veröffentlicht Forschungsmodell


Anthropic hat ein neues Forschungspapier veröffentlicht. Das Unternehmen versucht dabei mehr zu untersuchen, wie sein eigenes Modell Sonnet „denkt“. Die Studie zeigt, dass das Modell Millionen von „Features“ – spezifische Konzepte, die innerhalb von Claudes neuronalem Netzwerk aktiviert werden, wenn es auf relevante Texte oder Bilder stößt.

Anthropic kann diese Features verstärken und abschwächen, so kann man etwa das „Golden Gate Bridge“-Feature verstärken. Claude fixiert sich dann auf dieses „ikonische Wahrzeichen von San Francisco“ und webt es in fast jede Antwort ein, obwohl es nicht direkt relevant ist. Die Demo eines solchen Modells hat Anthropic jetzt über Claude.ai der Öffentlichkeit zur Verfügung gestellt. Ihr könnt es mithilfe des Golden-Gate-Symbols oben rechts auf der Website aktivieren. Es basiert auf Sonnet und hat natürlich viele Halluzinationen. Mit einem ähnlichen Ansatz will das Unternehmen aber die Sicherheit seiner Modelle erhöhen, und bestimmte „Features“ abschwächen. Da es kein Prompt oder Fine-Tuning nutzt, wahrscheinlich auch tatsächlich sicherer als bisherige Ansätze.

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf ge­lan­gt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir ei­ne kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Avatar-Foto

Als ehrenamtlicher First-Level-Support und quasi Apple-Jünger, der gerne seine Lebenszeit in Tech-Blogs verbrennt, stehe ich auch gerne für hitzige Diskussionen zur Verfügung.

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

2 Kommentare

  1. Mike Leitner says:

    Leider bereits offline

  2. Falls du glaubst nicht durch AI ersetzbar zu sein, habe ich mal ChatGpt nach fehlern in deiner Einleitung gefragt:
    https://chatgpt.com/share/718e2044-6ab1-4195-bf3d-2549849ca140

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.