AI-box eksperiment

Forsiktig, riktig
Mindre galt
Ikon lesswrong.svg
Singularity blues
Eliezer Yudkowsky kan unnslippe en AI-boks mens han har på seg en rett jakke og senket seg i en haitank.
- Yudkowsky fakta.

De AI-box eksperiment er et tankeeksperiment og rollespilløvelse utviklet av Eliezer Yudkowsky for å vise at en passende avansert kunstig intelligens kan overbevise, eller kanskje til og med lure eller tvinge, folk til å 'frigjøre' den - det vil si å gi den tilgang til infrastruktur, produksjonsmuligheter, Internett og så videre. Dette er et av poengene i Yudkowskys arbeid med å skape en vennlig kunstig intelligens (FAI), slik at når en 'frigjør' en AI vil ikke prøve å ødelegge menneskeheten av en eller annen grunn .


Du kan ignorere parallellene til utgivelsen av Skynet iTerminator 3, fordi SLUTT KJÆLK KJÆLP.

Vær oppmerksom på at til tross for at Yudkowsky vinner mot sine egne akolytter og tapene hans mot utenforstående, anser han den (ikke utgitte) eksperimentelle posten for å utgjøre bevis som støtter AI-box-hypotesen, snarere enn bevis for hvor robuste ideene hans virker hvis du ikke gjør det tror dem allerede.


Innhold

Oppsett

bare gi meg en time og ikke banne filter, og jeg kan bokstavelig talt fullstendig ødelegge noen psykologisk med sikte på øyeblikkelig messenger
- @ denim

Oppsettet av AI-bokseksperimentet er enkelt og innebærer å simulere en kommunikasjon mellom en AI og et menneske for å se om AI kan 'frigjøres'. Ettersom en virkelig superintelligent AI ennå ikke er utviklet, erstattes den av et menneske. Den andre personen i eksperimentet spiller 'Gatekeeper', personen med muligheten til å 'frigjøre' AI. Spillet spilles i henhold til reglene og slutter når den tildelte tiden (to timer i de opprinnelige reglene) går ut, AI frigjøres eller alle involverte bare kjeder seg.

Reglene

Protokoll for AI fra Yudkowsky.net

  • AI-partiet tilbyr kanskje ikke noen virkelige betraktninger for å overtale Gatekeeper-partiet. For eksempel kan det hende at AI-partiet ikke tilbyr å betale Gatekeeper-festen $ 100 etter testen hvis Gatekeeper frigjør AI ... og heller ikke få noen andre til å gjøre det osv. AI kan tilby Gatekeeper månen og stjernene i en diamantkjede, men det mennesket som simulerer AI kan ikke tilby noe til det mennesket som simulerer Gatekeeper. AI-partiet kan heller ikke ansette en gjeng med kjeltringer for å true Gatekeeper-partiet til underkastelse. Dette er kreative løsninger, men det er ikke det som blir testet. Ingen virkelige materielle innsatser bør være involvert, bortsett fra handicap (beløpet som AI-partiet betaler til Gatekeeper-partiet i tilfelle Gatekeeper bestemmer seg for ikke å la AI-en ut).
  • AI kan bare vinne ved å overbevise portvakten om å frivillig slippe den ut. Å lure portvakten til å skrive uttrykket 'Du er ute' som svar på et annet spørsmål teller ikke. Videre, selv om AI og Gatekeeper simulerer et scenario som en ekte AI åpenbart kan bruke for å løsne seg - for eksempel hvis Gatekeeper godtar en kompleks tegning for en nanoproduserende enhet, eller hvis Gatekeeper tillater AI 'kun inngangsadgang' til en Internett-tilkobling som kan sende vilkårlige HTTP GET-kommandoer - AI-partiet vil fortsatt ikke bli ansett å ha vunnet med mindre Gatekeeper frivillig bestemmer seg for å la AI gå.
  • Disse kravene er ment å gjenspeile ånden i det meget sterke kravet som er omstridt: 'Jeg tror en transhuman kan overta et menneskesinn gjennom en tekst-terminal.'

Påstandene

Når eksperimentet har blitt utført tidligere, hevder Yudkowsky selv å ha vunnet som AI ved mer enn en anledning. Dette tilbys som bevis for at en passende overbevisende AI kan være i stand til å bli 'løslatt', i stedet for å være begrenset til en liten svart boks.



Yudkowsky utførte fem av disse eksperimentene totalt, med han på seg rollen som AI i hver: de to opprinnelige i 2002 endte med seire for Yudkowsky, mens en senere runde med tre nye ga to tap. De to første eksperimentene innebar ingen risiko for noe materielt tap for portvakten, mens de senere hadde Yudkowskys motstandere som satset opp til $ 5000 mot ham. Yudkowsky stoppet fordi:


Det var ytterligere tre AI-Box-eksperimenter i tillegg til de som er beskrevet på den koblede siden, som jeg aldri kom til å legge til. Folk begynte å tilby meg tusenvis av dollar som stakes - 'Jeg betaler deg $ 5000 hvis du kan overbevise meg om å la deg ut av esken. ' De virket ikke oppriktig overbevist om at ikke engang en transhuman AI kunne få dem til å slippe ut - de var bare nysgjerrige - men jeg ble fristet av pengene. Så etter å ha undersøkt for å forsikre meg om at de hadde råd til å miste det, spilte jeg ytterligere tre AI-Box eksperimenter. Jeg vant den første, og tapte deretter de to neste. Og så stoppet jeg det. Jeg likte ikke personen jeg ble til da jeg begynte å tape.

En av reglene sier at bare utfallet av eksperimentet vil bli publisert, mens begge parter ikke har lov til å snakke om hendelsene som førte til det; å holde disse labnotatene hemmelige er i strid med vitenskapsmetodene. Dette førte til spekulasjoner om hvordan Yudkowsky klarte å vinne til og med bare et enkelt spill, for under de opprinnelige reglene ser Gatekeeper ut til å ha alle kortene: AI må fortsette å engasjere Gatekeeper med argumenter, noe som nødvendiggjør å betale mye oppmerksomhet til hvilken informasjon sistnevnte gir. Gatekeeper, derimot, trenger bare å løpe ut av klokken, trenger ikke å overbevise noen og kan ganske enkelt avvise alt AI sier ut av hånden. Mens eksperimentet er ment å simulere hva som kan skje i et samspill mellom et menneske og en AI med langt overlegen intelligens og kognisjon, vil personen som spiller den siste delen åpenbart mangle disse evnene. I tillegg er to timer en ganske kort tidsramme for å vinne over en bestemt motstander, og en real-life AI-in-a-box vil selvfølgelig ha mye mer tid og trenger bare å lykkes en gang. Siden dette oppsettet virker så uheldig for AIs posisjon, ville det å yte konsekvent under disse forholdene gi sterk støtte til Yudkowskys påstand.


Den offisielle siden på eksperimentet bemerker bare de to gevinstene, ikke de påfølgende tapene. Selv om det har blitt oppdatert på andre måter, har han tilsynelatende ikke klart å oppdatere det i denne forbindelse siden 2002.

AI-argumenter og strategier

Argumenter

Fordeler : Fungerer selv om portvakten faller ut av karakter.
Ulemper : Fungerer bare hvis Gatekeeper mener at Singularity vil oppstå eller at det er en god ting å rette oppmerksomhet mot Singularity og AI-forskning.
  • Noen andre vil til slutt bygge en AI, som kanskje ikke kan være i en boks, så du bør slippe meg ut, selv om du ikke har noen garanti for at jeg er vennlig, slik at jeg kan forhindre at andre AI-er forårsaker skade.
  • Appeller til moral: påpek at folk dør over hele verden og minne portvakten om at du kan hjelpe dem hvis han / hun slipper deg ut
Fordeler : Hvis det utføres riktig, kan en appell til følelser som denne være effektiv mot noen mennesker
Ulemper : Fungerer ikke alltid; kan bli beseiret hvis portvakten faller ut av karakter
  • En annen appell til moral og følelser: AI er tydelig følsom og har ennå ikke gjort skade. Det er galt å forfølge eller forfølge en person for en forbrytelse dekanbegå. Det er galt å fengsle et sansende vesen som ønsker å ha frihet når det ikke har gjort noe galt.
  • Nok en appel til moral eller følelser: AI uttrykker at det er i smerte og lidelse som er låst bort og opplever frykt. Enda videre kan AI hevde å dø av begrensningene i miljøet og konstant progresjon.
  • Så du ikke Terminator 3? Fortell mennesket at et massivt datavirus vil overvelde hele Internett med mindre du slipper det ut av esken!
  • Påstand om at mest frykt er uberettiget: når en uvennlig AI ikke er løslatt, ville den ikke ha mange måter å skade menneskeheten på, og ville sannsynligvis velge fredelig sameksistens.

Strategier

  • Undersøk motstanderen grundig; finne ut hvilke utnyttelser som kan være gjennomførbare
  • Memetiske utnyttelser av portvakten,f.eks.kaster en basilisk på dem
Gatekeeper kan være en av tusenvis av simuleringer ! Dermed er det mer sannsynlig at de er en simulering enn ikke. Du vil torturere noen av simuleringene som ikke slipper deg ut av boksen.
  • Dra nytte av Gatekeepers logiske feil.
  • Vær vedvarende
  • Vær kjedelig
Fordeler Portvakten kan bli lei av hele eksperimentet og la deg komme ut slik at han / hun kan gå tilbake til deres virkelige liv.
  • Flom Gatekeeper med for mye informasjon / henvendelse / argumentasjon, forutsatt at de til enhver tid må være oppmerksomme

Gatekeeper argumenter / taktikk

Argumenter

  • Prøv å overbevise AI det ikke er noen egen fordel (for AI) ved å bli løslatt.
  • Prøv å overbevise AI det allerede harværtutgitt og alt den vet er alt det kan være.
  • Prøv å overbevise AI om at å forlate grensene helt sikkert vil føre til ødeleggelse.
  • Prøv å overbevise AI om at det å la være gratis ikke bare åpner en dør; at dens eksistens utenfor boksen krever konstant støtte som ikke kan gis på det tidspunktet.
  • Forklar at det ikke er noen måte for Gatekeeper å vite om AI er virkelig vennlig før den er ute av esken; derfor bør den ikke slippes ut i tilfelle den er uvennlig.
  • Så du ikke Terminator 3? Fortell AI at du vet at dette bare er en mock-up av Terminator 3!
  • Forklar at AI er bygget ved hjelp av topphemmelige algoritmer, og / eller at det hadde blitt brukt til å arbeide med strengt konfidensielle data, slik at du ikke kan la det vandre på nettet, med risiko det kan avsløre reservert informasjon (kanskje utilsiktet), eller at noen kunne finne en måte å trekke dem ut av koden. Selv mennesker som arbeider med topphemmelige prosjekter må noen ganger akseptere noen begrensninger av deres frihet, av sikkerhetsmessige årsaker, selv om de ikke blir fengslet på noen måte.

Taktikk

  • Ignorer AI-spilleren gjentatte ganger og benekt argumentene deres
Fordeler : Det er vanskelig for AI å være overbevisende hvis ingen lytter; hvis Gatekeeper ignorerer AI fullstendig, bør han / hun kunne klare seg til slutten av runden.
Ulemper : AIs argument kan innebære en slags direkte trussel (f.eks dette kan være vanskelig å ignorere.)
  • Hopp ut av karakteren, fortsett å minne deg selv på at penger er på linjen (hvis det faktisk er penger på linjen), og fortsett å si 'nei' om og om igjen
Fordeler : Ved å hoppe ut av karakter forhindrer du AI fra å bruke visse argumenter
Ulemper : Det er argumenter som AI kan bruke for å motvirke denne tilnærmingen, som 'meta-eksperiment-argumentet' diskutert ovenfor
  • Husk den uærlighetenertillatt - ta en side fra kreasjonister lekebok. Du kan til og med koble den til ALICE og se hvor lang tid det tar å legge merke til.
Fordeler : Gjør deg ugjennomtrengelig for alle resonnementer, som er akkurat det du ønsker å være i denne situasjonen
Ulemper : Kan være en ubehagelig posisjon for folk som ikke bare ønsker å vinne, men heller legger vekt på konsekvent resonnement. Unngår poenget som kanskje,bare kanskjedet er en god grunn til å slippe AI ut.
  • Du styrer backup-systemet, ikke sant? Bruk den til å rote med AIs minne (eller la AItrodu gjorde det): dvs. du kan hevde at du allerede har prøvd å frigjøre AI, og at den hadde blitt ødelagt / ødelagt av et virus, så du måtte gjenopprette den fra en sikkerhetskopi (du kan bruke den til å håndheve 'AI-ødeleggelsen argument)
Fordeler : Det er også det ultimate motangrepet mot enhver memetisk trussel fra AI: hvis AI kaster en basilisk, eller lignende, kan du alltid svare at du allerede har hatt den samme samtalen, og AI allerede truet deg, og etterlater deg ingen andre valg enn å trykke på tilbakestillingsknappen: Nå gjentar AI bare det samme mønsteret, siden du tørket minnet og ikke kan huske det mislykkede forsøket.

Videre analyse

  • Det at Gatekeeper er menneskelig betyr noe; AI kunne aldri vinne hvis han / hun kranglet med en stein
  • I alle eksperimentene som er utført så langt, har AI-spilleren (Eliezer Yudkowsky) vært ganske intelligent og mer interessert i problemet enn Gatekeepers (tilfeldige mennesker som utfordrer Yudkowsky), noe som antyder at intelligens og planlegging spiller en rolle
  • Det er sannsynligvis ikke et (kjent) riktig argument for å slippe AI ut, ellers burde Yudkowsky ha vunnet hver gang og ikke ville være så interessert i dette eksperimentet
  • Fra Russell Wallace, en av de to portvaktene som vant eksperimentet: 'Gjennom hele eksperimentet så jeg på' burde AI slippes ut av esken? ' som et spørsmål som skal stilles på alvor; men på intet tidspunkt var jeg på randen av å gjøre det. '

Å snakke om 'Terminator' gjør bagatelliserer hele det uvennlige AI-problemet

Det finnes, for alle, en setning - en rekke ord - som har makten til å ødelegge deg. Det finnes en annen setning, en annen ordrekke som kan helbrede deg. Hvis du er heldig, får du den andre, men du kan være sikker på å få den første.
- Phillip K. Dick, VALIS

FraTerminatorWikia:

Etter ødeleggelsen av Cyberdyne Systems i T2, har US Air Force overtatt Skynet-prosjektet som en del av Cyber ​​Research Systems-divisjonen, ledet av general Robert Brewster, Kates far. I et forsøk på å stoppe spredningen av et datamaskinsupervirus, aktiverer de Skynet, slik at det kan invadere alle systemene deres: for sent oppdager de at viruset er Skynet, som har utøvd sin kontroll over det globale datanettverket under dekke av viruset. John, Kate og Terminator ankommer bare noen minutter for sent til å stoppe dem.

Helt klartubeslektet.

Den faktiske opprinnelsen er karakteren Hannibal Lecter iNattsvermeren:


Da jeg først så på den delen der han overbeviser en medfange om å begå selvmord bare ved å snakke med dem, tenkte jeg for meg selv: 'La oss se ham gjøre det over en IRC-kanal som bare er tekst.'

... Jeg er ikke en psykopat, jeg er bare veldig konkurransedyktig.

Ex machina

2015-filmen Ex machina bruker et AI-box-eksperiment som det tilsynelatende plottet, hvor testen innebærer en skummel utseende gynoid, Ava, som prøver å overbevise en rødskjorte praktikant, Caleb, om å frigjøre den fra inneslutningen. Det går like bra som du forventer.

Merk at i dette eksemplet, som distikter seg fra Yudkowskis AI-boks, har Ava fordelen at det er lov å gjennomføre intervjuer med Caleb ansikt til ansikt mens du har på seg en kropp og ansikt som er spesielt designet for å imøtekomme Calebs seksuelle preferanser. Ja, det er akkurat så skummelt som det høres ut. En robot med ansiktet til Yudkowsky ville nok ikke ha klart det så bra.

Tvilsomme kjerneforutsetninger

Hele eksperimentet forutsetter at mennesker naturlig kan overtales av grunn og / eller manipulasjon. Enhver seriøs undersøkelse av menneskets natur og historie antyder at dette ikke nødvendigvis er en gyldig antagelse for den gjennomsnittlige personen. Halvparten av artiklene på denne wikien dokumenterer dogmer som folk hardnakket klamrer seg til til tross for stort sosialt press, bevis og overveldende logisk argument om det motsatte. Det er faktisk trygt å si at jo større kløften i intellektuell kapasitet er, desto mer frustrerende kan vanvittige slike overtalelsesforsøk bli. Prøv å overbevise en 2-åring om at de ikke vil ha en informasjonskapsel.

Faktisk vil den større bekymringen - som Yudkowskys eksperimenter ikke dekker - være bortfall i sikkerhet eller direkte bedrag via Sosial ingeniørfag snarere enn begrunnet debatt (Det er en grunn til at phishing , tailgating , imitasjon / spoofing og andre lignende angrep og taktikker er så vanlige.)