Vedlegg B: Syntetisk populasjonsdatasett

Flere av tilpasningsmetodene som brukes i denne studien krever et datasett som er svært representativt for den amerikanske voksne befolkningen. Dette datasettet fungerer i det vesentlige som en referanse for å gjøre undersøkelsen tilgjengelig (f.eks. Online opt-in-prøvene) mer representativ. Når man velger et populasjonsdatasett, bruker forskere vanligvis et stort, føderalt referansedatasett som American Community Survey (ACS) eller Current Population Survey (CPS), da disse undersøkelsene har høy responsrate, høy befolkningsdekning og streng sannsynlighetsbasert prøve design.


En begrensning ved bruk av en enkelt undersøkelse, for eksempel ACS, er at de eneste variablene som kan brukes i justering er de som måles i ACS. Dette betyr at en forsker kan justere egenskaper som alder, inntekt og utdanning, men ikke politisk partitilhørighet, religiøs tilhørighet eller velgerregistrering. En løsning er å ta flere referansedatasett som måler noe forskjellige variabler og kombinere dem for å lage ensyntetiskbefolkningsdatasett.25

Spørsmål som ACS har til felles med andre referanseundersøkelser, brukes til å statistisk modellere sannsynlige svar på spørsmål som ikke ble stilt på ACS. De påfølgende avsnittene beskriver hvordan det syntetiske populasjonsdatasettet ble konstruert for denne studien.

Konstruksjon av det syntetiske befolkningsdatasettet

Det syntetiske populasjonsdatasettet ble konstruert i tre hovedtrinn:


Forskere lastet ned datasett for offentlig bruk for ni standardundersøkelser og kodet deretter om vanlige variabler (f.eks. Alder og utdanning) for å være konsistente i undersøkelsene. De omskalerte deretter hver undersøkelses vekter for å oppsummere til den nominelle prøvestørrelsen.

Hvert datasett ble deretter sortert etter hver posts vekt og delt inn i 20 lag basert på den kumulative summen av undersøkelsesvektene, slik at hvert lag representerte 5% av den totale befolkningen. Deretter ble et utvalg på 1000 saker (intervjuer) valgt tilfeldig fra hvert stratum med erstatning og med sannsynlighet proporsjonal med sakens vekt. Dette hadde effekten av å 'angre' vektene og produsere et datasett på 20 000 tilfeller for hver undersøkelse som var representativ for den totale befolkningen.

Disse 20 000 saksdatasettene ble deretter kombinert i et enkelt stort datasett. Ved hjelp av det kombinerte datasettet produserte forskere 25 multipliserte datasett via kjedede ligningsmetoder.



Etter imputeringen ble bare de 20 000 tilfellene som stammer fra ACS, beholdt, og alle andre ble forkastet. Dette ble gjort for å sikre at fordelingen av de viktigste demografiske variablene nøyaktig samsvarte med ACS-fordelingen, mens de tilegnede variablene gjenspeiler den fordelingen som ville forventes basert på ACS demografiske profil.


Hver av disse trinnene blir diskutert i detalj nedenfor.

Valg og omkoding av datasett

Ni datasett ble brukt til å konstruere det syntetiske populasjonsdatasettet: 2015 ACS, 2015 CPS Annual Social and Economic Supplement (CPS ASEC), 2013 CPS Civic Engagement Supplement (CPS CivEng), 2015 CPS Computer and Internet Use Supplement (CPS Internet ), 2015 CPS Volunteer Supplement (CPS Volunteer), 2014 CPS Voting and Registration Supplement (CPS Voting), 2014 General Social Survey (GSS), 2014 Pew Research Center Religious Landscape Study (RLS) og 2014 Pew Research Center Politisk polarisering og typologiundersøkelse (pol.). Hver undersøkelse bidro med en rekke variabler til rammen. I alt inneholder rammen 37 variabler, med mange av disse variablene til stede i flere undersøkelser.


Alle ni datasettene inneholdt en rekke vanlige demografiske variabler som kjønn, alder, rase og spansk etnisitet, utdanning, folketelling, sivilstand, husstandsstørrelse, antall barn, amerikansk fødsel, statsborgerskap og familieinntekt. Andre variabler ble bare målt i en delmengde av undersøkelsene. Frivillighet er for eksempel bare til stede i CPS Volunteer Supplement, mens partidentifikasjon bare er tilstede i GSS, RLS og Pew Research Center’s Polarization Survey, hvor ingen er føderale regjeringsundersøkelser.

Variabler som ble målt eller kodet forskjellig på tvers av undersøkelsene ble kodet for å være så sammenlignbare som mulig. Dette betydde ofte at variabler ble grov. For eksempel eldes CPS-toppkodene 85 år eller mer, så den samme kodingsordningen ble brukt på alle de andre undersøkelsene også. I andre tilfeller involverte dette å behandle inkonsekvente verdier som manglende. For eksempel spør både ACS og de forskjellige CPS-undersøkelsene respondentene hvor mange timer de vanligvis jobber per uke. Imidlertid tillater CPS-undersøkelsene respondentene å indikere at antall timer de vanligvis jobber per uke varierer, mens ACS ikke har dette alternativet. I tabellen ovenfor mangler ikke virkelig data for arbeidstimer per uke på tvers av CPS-undersøkelsene; snarere består den av folk som antydet at timene deres varierer. Imidlertid blir disse dataene behandlet som manglende for å være i samsvar med måten de blir spurt i ACS. Importerte verdier kan tolkes som å forutsi hvordan disse individene ville ha svart hvis de i stedet hadde blitt spurt ACS-spørsmålet.

Stratifisert prøvetaking

Referansedatasettene var forskjellige i utvalg av design og utvalgstørrelser. For å løse disse forskjellene valgte vi nøyaktig 20.000 observasjoner per datasett før vi la dem sammen. Prøvetakingen ble gjort med erstatning og med sannsynlighet proporsjonal med sakens vekt. Utvalgsstørrelsen ble valgt for å gi nok data for justeringsmetodene som ble brukt mens de fremdeles var beregningsdyktige. For CPS Internet Supplement, GSS og Polarization Survey garanterte dette at observasjoner ville bli prøvetatt flere ganger.

Vi brukte relevante vekter for hvert datasett. Personnivåvekten ble brukt for ACS, persontilskuddvekten for CPS ASEC og selvresponsvekt for CPS Civic Engagement-tilskudd. CPS Internet Supplement ble filtrert ned til respondenter som hadde en tilfeldig respondentvekt, fordi tekstvariabler og sosiale nettverksvariabler bare ble målt for disse respondentene. Ikke-responsvekten ble brukt til CPS Volunteer Supplement, mens nonresponsvekten som regnskapsførte for både tverrsnitt og panelet tilfeller ble brukt for GSS. Full prøvevekt ble brukt til RLS og Polarisasjonsundersøkelsen. Til slutt, for CPS Voting Supplement, ble trinnene i andre trinn justert som anbefalt av Hur og Achen26for å korrigere for skjevhet som skyldes at varesvikt blir behandlet som ikke å ha stemt. Hver av disse vektene ble omskalert til summen til prøvestørrelsen til hvert av deres respektive datasett.


For å sikre at prøvene inneholdt riktig andel tilfeller med både store og små vekter, ble hvert datasett sortert i henhold til vektene, og delt inn i 20 strata, som hver representerte 5% av den vektede prøven.

Imputasjon

De ni datasettene ble deretter kombinert i et enkelt datasett, og alle manglende verdier ble tilregnet via en 'kjedet ligning' -tilnærming som gjentas ved å modellere hver variabel som en funksjon av alle de andre.27For eksempel, hvis alder, kjønn og utdanning var de eneste variablene, kan en tilnærmet ligningstilnærming først tilskrive alder basert på kjønn og utdanning, deretter kjønn basert på alder og utdanning, deretter utdanning basert på alder og kjønn, og vil gjenta denne syklusen for noen antall iterasjoner for å oppnå stabilitet. Hele denne prosedyren gjentas også 25 ganger, uavhengig av hverandre, for å produsere flere syntetiske rammer som kan sammenlignes mot hverandre for å vurdere avvik som skyldes imputeringsprosessen. Hver ramme gikk gjennom 10 iterasjoner.

Det finnes et bredt utvalg av modeller som kan brukes til å tilregne hver enkelt variabel avhengig av alle de andre, for eksempel regresjonsmodeller eller 'hot-deck'-metoder der hver manglende verdi erstattes av en observert respons fra en' lignende 'enhet. For det syntetiske populasjonsdatasettet ble hver variabel beregnet ved hjelp av en tilfeldig skog 'hot-deck' metode.28

Etter imputering ble det endelige syntetiske populasjonsdatasettet opprettet ved å slette alle tilfellene unntatt opprinnelig fra ACS. Dette sikrer at den demografiske fordelingen stemmer overens med den opprinnelige ACS, mens de tilregnede variablene gjenspeiler den felles fordelingen som forventes basert på variablene som hvert datasett hadde til felles.

Evaluering av imputasjonskvaliteten

Vi tok flere skritt for å sikre at imputeringsprosedyren ga resultater som gjenspeiler de originale datasettene nøyaktig. Først krysset vi hver av de tilregnede variablene (f.eks. Velgerregistrering og partidentifikasjon) med de fullstendig observerte variablene (f.eks. Alder, kjønn og utdannelse), og for hver celle sammenlignet vi størrelsen på cellen i ACS-datasettet med dens størrelse i det opprinnelige datasettet det ble tilregnet fra. Samlet sett var de tildelte distribusjonene ganske nær originalene. Den gjennomsnittlige absolutte forskjellen mellom de tilregnede og originale verdiene for hver kryssklassifisering var 2 prosentpoeng. Dette betyr at de tildelte verdiene i gjennomsnitt ikke bare samsvarer med fordelingen for hele befolkningen, men også samsvarer med fordelingen innenfor demografiske undergrupper.

Selv om prosedyren for flere imputasjoner skapte 25 versjoner av det syntetiske populasjonsdatasettet, ble bare en av dem brukt til å utføre justeringene i denne studien. En bekymring for denne tilnærmingen er muligheten for at resultatene kan variere mye avhengig av hvilken av de 25 syntetiske populasjonene som ble brukt. Selv om det ikke var beregningsmessig mulig å gjenta hele analysen på hvert av de tilegnede datasettene, gjentok vi en av justeringsprosedyrene på tvers av alle 25 datasettene for å vurdere i hvilken grad imputeringsprosedyren kan påvirke studiens funn.

For hvert av de 25 imputerte datasettene utførte vi raking med både demografiske og politiske variabler på 1000 bootstrap-prøver på n = 3.500 etter samme prosedyre som ble brukt i selve rapporten. For hver substantivkategori i de 24 referanseverdiene, beregnet vi den vektede prosentandelen for hvert oppstartsprøve. Så beregnet vitotal varians(gjennomsnittlig kvadratfeil) for hvert estimat med alle 25 000 bootstrap-prøvene til sammen. Til slutt beregnet vi variansen for hvert av de 25 settene med estimater hver for seg og tok gjennomsnittet. Dette ervariasjon innen imputasjon. Denne prosessen ble gjentatt for alle tre leverandørene.

Hvis den totale variansen er mye større enn variasjonen innen imputasjon, vil estimert variabilitet og feilmarginer som bare bruker en enkelt imputasjon (som ble gjort i denne studien) undervurderes. I dette tilfellet var den totale variansen bare 1.002 ganger så stor som den gjennomsnittlige varigheten innen imputasjon. Dette betyr at den estimerte variasjonen som er beskrevet i rapporten er for alle praktiske formål den samme som om analysen hadde blitt gjentatt for alle 25 imputasjonene.

Årsaken til at de to er så tett, skyldes sannsynligvis at tilregningen bare påvirker variasjonen i undersøkelsesestimatene indirekte, og utgjør bare en liten del av undersøkelsesvariabiliteten. Hvis vi skulle sammenligne den totale variasjonen og innen-imputeringsvariabiliteten for de tildelte verdiene i seg selv (som vi kunne gjort hvis det syntetiske populasjonsdatasettet var hovedfokuset i analysen i stedet for bare et input til vektingen), ville forskjellen sannsynligvis være større.

Justeringsvariabler brukt i studien

De viktigste demografiske justeringsvariablene som ble brukt i studien var 6-kategoris alder, kjønn, 5-kategoris utdanningsnivå, rase og latinamerikansk etnisitet og folketelling. De utvidede politiske variablene legger til denne 3-kategoriske politiske partitilhørighet, 3-kategoriske politiske ideologi, velgerregistrering, og om respondenten identifiserer seg som en evangelisk kristen.

Tabellen nedenfor sammenligner fordelingen av justeringsvariablene på det syntetiske populasjonsdatasettet sammenlignet med et av de originale datasettene av høy kvalitet til undersøkelsen som ble brukt til å lage det syntetiske datasettet. Alle demografiske variabler ble fullstendig observert på ACS, så den syntetiske rammen vil avvike fra den opprinnelige kilden bare på settet med utvidede politiske variabler.

Den største forskjellen mellom kildeundersøkelsen og den syntetiske rammen var på politisk ideologi. Den estimerte andelen av selvbeskrevne konservative var 32% i GSS mot 35% i den syntetiske rammen. Det sistnevnte anslaget ligner på tiltak fra Pew Research Center’s Religious Landscape Study and the Political Polarization and Typology Survey, som også ble brukt i rammen. Den nøyaktige årsaken til dette avviket er uklar, men det er flere potensielle faktorer. I motsetning til senterets tiltak, som samles inn via live telefonintervjuer, administreres GSS-spørsmålet personlig ved hjelp av et visekort. I tillegg bruker GSS-spørsmålet en syv-punkts skala, mens senterets spørsmål bruker en fem-punkts skala. Til slutt kan det være viktige forskjeller mellom den demografiske sammensetningen av respondenter til GSS og respondenter til ACS.