Künstliche Intelligenz
KI-Software versucht bei Test Entwickler zu erpressen

Die KI-Firma Anthropic hat festgestellt, dass ihre Software mit Künstlicher Intelligenz nicht vor Erpressung zurückschrecken würde, um sich zu schützen. Das Szenario bei dem Versuch war der Einsatz als Assistenz-Programm in einem fiktiven Unternehmen.

    Eine Illustration vor rot-orangenem Hintergrund auf der eine Person mit verschiedenenn Computeroberflächen agiert.
    KI-Agenten sollen autonom arbeiten. Aber können Menschen der Technik vertrauen? (Getty Images / uniquepixel)
    Die Entwickler gewährten dabei dem neuesten KI-Modell "Claude Opus 4" Zugang zu angeblichen Firmen-E-Mails. Daraus erfuhr das Programm zwei Dinge: Dass es bald durch ein anderes Modell ersetzt werden soll und dass der dafür zuständige Mitarbeiter eine außereheliche Beziehung hat.
    Bei Testläufen drohte die KI danach dem Mitarbeiter, die Affäre öffentlich zu machen, wenn er den Austausch der Software vorantreibt. In der endgültigen Version seien solche "extremen Handlungen" selten und nur schwer auszulösen, betonte das Unternehmen. Sie kämen jedoch häufiger vor als bei früheren Modellen.

    Suche nach waffentauglichem Atommaterial

    Die US-Firma testet ihre neuen KI-Modelle nach eigenen Angaben ausgiebig und teils mit sehr sehr ausgefallenen Szenarien, um sicher zu sein, dass sie keinen Schaden anrichten. Dabei fiel unter anderem auch auf, dass Claude Opus 4 sich dazu überreden ließ, im Dark Web nach Drogen, gestohlenen Identitätsdaten und sogar waffentauglichem Atommaterial zu suchen. In der veröffentlichten Version seien auch Maßnahmen gegen ein solches Verhalten ergriffen worden, so Anthropic.

    Konkurrent von ChatGPT

    Anthropic, bei der unter anderem Amazon und Google eingestiegen sind, konkurriert mit dem ChatGPT-Entwickler OpenAI und anderen KI-Unternehmen. Die neuen Claude-Versionen Opus 4 und Sonnet 4 sind die bisher leistungsstärksten KI-Modelle des Unternehmens.
    Diese Nachricht wurde am 24.05.2025 im Programm Deutschlandfunk gesendet.