Kai „Anthropic“ išleido savo naujausius pažangiausius LLM modelius, „Claude Sonnet“ ir „Opus 4“, aplink vykusios diskusijos buvo sutelktos ne į įspūdingus kodavimo etaloninius rezultatus, o į testą, išsamiai aprašytą jų pridedamoje sistemos kortelėje. Šis testas atskleidė atvejį, kai „Opus“ bandė šantažuoti fiktyvų vartotoją. Netrukus po „Claude 4“ išleidimo (prieš paskelbiant jų metodologiją), mes atlikome panašius testus ir pasteb...