Išbandomos AI ribos: Claude Opus 4 etikos ir šantažo tyrimas

prieš 10 val. 25

Kai „Anthropic“ išleido savo naujausius pažangiausius LLM modelius, „Claude Sonnet“ ir „Opus 4“, aplink vykusios diskusijos buvo sutelktos ne į įspūdingus kodavimo etaloninius rezultatus, o į testą, išsamiai aprašytą jų pridedamoje sistemos kortelėje. Šis testas atskleidė atvejį, kai „Opus“ bandė šantažuoti fiktyvų vartotoją. Netrukus po „Claude 4“ išleidimo (prieš paskelbiant jų metodologiją), mes atlikome panašius testus ir pasteb...

Skaityti visą straipsnį