AI-nyheder: Anthropic genindfører Fable 5, efter at USA har ophævet restriktionerne

0
1

Vigtige indsigter

  • Nyhederne om kunstig intelligens tog en ny drejning, efter at Anthropic genåbnede den offentlige adgang til modellen.
  • Anthropic AI har tilføjet nye klassifikatorer til cybersikkerhed.
  • De føderale myndigheder prioriterede en hurtigere, men samtidig mere sikker implementering af kunstig intelligens ved grænsen.

Kunstig intelligens-virksomheden Anthropic har genåbnet offentlig adgang til sine flagskibsmodeller Claude Fable 5 og Mythos 5, efter at den amerikanske regering har ophævet eksportrestriktionerne. Beslutningen blev truffet efter drøftelser mellem føderale embedsmænd og virksomheden, idet bekymringer om cybersikkerhed havde ført til den tidligere suspension.

Nyheden om AI udgjorde et usædvanligt eksempel på direkte statslig indblanding i implementeringen af banebrydende modeller. Anthropic AI fremførte, at strengere sikkerhedsforanstaltninger – snarere end langvarige begrænsninger – udgjorde en bedre vej til at skabe balance mellem innovation og national sikkerhed.

AI-nyhederne tog en ny drejning, da regeringen godkendte Anthropics tilbagevenden

Anthropic meddelte genåbningen, efter at drøftelser med føderale myndigheder havde ført til en aftale om opdaterede sikkerhedsforanstaltninger. Virksomheden oplyste, at den havde taget nye klassifikatorer i brug, der er udviklet til at blokere et bredere spektrum af cybersikkerhedsrelaterede forespørgsler, inden de når frem til de underliggende modeller.

Kilde: Anthropic

Begrænsningerne blev oprindeligt indført på baggrund af en undersøgelse, der viste, at Claude Fable 5 kunne overtales til at afsløre sårbarheder i software, når dens sikkerhedsforanstaltninger blev omgået. Den rapport fik de føderale myndigheder til at gennemgå modellen, inden den igen blev gjort tilgængelig for et bredere publikum.

Den amerikanske handelsminister Howard Lutnick sagde, at embedsmændene samarbejdede med Anthropic under vurderingsprocessen. Han udtalte, at indsatsen fokuserede på at godkende Fable 5 og samtidig styrke landets førende position inden for avanceret kunstig intelligens.

Susie Wiles, stabschef i Det Hvide Hus, gentog denne holdning. Hun sagde, at regeringens prioritet fortsat var at indføre avanceret teknologi hurtigt, samtidig med at man opretholdt passende sikkerhedsforanstaltninger.

Hændelsen udløste en debat i hele teknologisektoren, fordi de midlertidige eksportrestriktioner kom til at omfatte en model, der allerede var tilgængelig på markedet. Flere forskere hævdede, at dette skridt skabte en præcedens for fremtidig myndighedstilsyn, når avancerede systemer gav anledning til bekymringer om cybersikkerhed.

Anthropic AI hævdede, at risikoen ved jailbreak strakte sig ud over én model

Anthropic udtalte, at den rapporterede sikkerhedsfejl ikke udgjorde en svaghed, der var specifik for Claude Fable 5. Virksomheden fremførte, at mindre sprogmodeller kunne identificere lignende sårbarheder i softwaren, når de blev udsat for tilsvarende input.

Denne holdning flyttede fokus væk fra et enkelt produkt og over på bredere spørgsmål vedrørende modelevaluering. Forskere diskuterede i stigende grad, hvordan udviklere bør skelne mellem almindelige funktioner og adfærd, der medfører uacceptable cybersikkerhedsrisici.

Den offentlige debat blev intensiveret, efter at en uafhængig forsker hævdede at have omgået sikkerhedsforanstaltningerne i Fable 5 kort efter spillets lancering. De delte skærmbilleder syntes at vise, at ændrede indtastningsprompter kunne frembringe svar, der ellers ville blive blokeret under normale interaktioner.

Anthropic fastholdt, at et lagdelt forsvar gav en bedre beskyttelse end at stole på en enkelt sikkerhedsmekanisme. Virksomheden oplyste, at de forbedrede klassifikatorer nu opfanger risikable anmodninger, inden de når frem til følsomme ræsonnementssystemer.

AI-nyheder med fokus på nye standarder for jailbreak

Anthropic udvidede desuden Project Glasswing, et fælles initiativ, der involverer Amazon, Microsoft, Google og andre teknologipartnere. Formålet med samarbejdet var at fastlægge fælles metoder til at vurdere alvorligheden af jailbreak på tværs af avancerede sprogmodeller.

Den foreslåede ramme havde til formål at mindske uoverensstemmelser i rapporteringen mellem udviklere og offentlige myndigheder. Fælles definitioner kunne gøre det lettere at foretage sammenligninger, når forskere identificerer nye teknikker, der kan omgå eksisterende beskyttelsesforanstaltninger.

Virksomheden udvidede desuden samarbejdet med de føderale myndigheder ud over nødgennemgange. Anthropic oplyste, at det fremtidige arbejde vil omfatte adgang til modeller inden frigivelse, koordinerede test, udveksling af oplysninger om misbrug samt dedikerede forskningsressourcer til støtte for cybersikkerhedsvurderinger.

Denne tilgang tydede på, at beslutningstagerne foretrak et struktureret samarbejde frem for gentagne begrænsninger i udbredelsen. Udviklerne fik desuden en mere klar proces til at påvise, at opdaterede sikkerhedsforanstaltninger mindskede de identificerede risici inden offentliggørelsen.

Opmærksomheden rettede sig nu mod, hvordan fremtidige banebrydende modeller skulle gennemgås inden lanceringen. Myndigheder og udviklere syntes mere villige til at koordinere deres indsats tidligere i udviklingsforløbet efter den nylige uenighed om offentlig tilgængelighed.

De seneste nyheder om kunstig intelligens viste også, at standarder for cybersikkerhed kan blive lige så vigtige som modellernes rå ydeevne. Anthropic AI står nu over for fortsat granskning, idet forskere tester, om virksomhedens opdaterede sikkerhedsforanstaltninger kan modstå fremtidige forsøg på at omgå sikkerhedsforanstaltningerne.