Privacykwesties kunnen een ongekend plan om Facebook-gegevens te gebruiken om verkiezingen te bestuderen, ontsporen

Facebook-medewerkers werken aan het verminderen van de verspreiding van verkeerde informatie die van invloed kan zijn op verkiezingen.

NOAH BERGER / AFP / Getty Images

Privacykwesties kunnen een ongekend plan om Facebook-gegevens te gebruiken om verkiezingen te bestuderen, ontsporen

Door Jeffrey MervisSep. 24, 2019, 16:50 uur

Gary King profiteerde van de perfecte timing bij het verkopen van Facebook op het idee om een ​​schat aan gegevens te delen met academici. Maar nu werkt de klok tegen de inspanningen van King en anderen om het innovatieve project - dat tot doel heeft beter te begrijpen hoe informatie op Facebook de verkiezingen en politieke instellingen over de hele wereld beïnvloedt - uit elkaar te vallen. Het belangrijkste knelpunt: bescherming van de privacy van Facebook-gebruikers.

In maart 2018 bracht King, een kwantitatieve sociale wetenschapper aan de Harvard University, een bezoek aan het hoofdkantoor van Facebook in Menlo Park, Californië. De media hadden net het nieuws gebroken dat een Brits bedrijf, Cambridge Analytica, stemprofielen aan kandidaten had verkocht op basis van persoonlijke informatie die onbewust door miljoenen Facebook-gebruikers was verstrekt. Het resulterende schandaal was een ontnuchterende les voor Facebook om zijn gegevens niet met buitenstaanders te delen.

King gooide een betere manier voor Facebook om gegevens te delen. Zijn plan was ontworpen om te voldoen aan hoge ethische en intellectuele normen en tegelijkertijd drie belangrijke doelen te bereiken: het beschermen van de privacy van Facebook-gebruikers, het beschermen van de bedrijfsgeheimen van het bedrijf over hoe haar gegevens werden beheerd, en het opleggen van geen beperkingen aan wat onderzoekers uit de gegevens konden publiceren.

De nieuwe regeling, gelooft King, zou de kwantitatieve sociale wetenschap kunnen transformeren door onderzoekers toegang te geven tot echt grote gegevens in plaats van de enquêtes en kleine steekproeven die traditioneel hun basisvoedsel waren geweest. Het zou ook een grote uitdaging voor het veld zijn: particuliere bedrijven beschikken nu over veel meer informatie over hoe mensen zich gedragen dan regeringen. En onderzoekers hadden betere toegang tot die gegevens nodig.

Facebook-functionarissen luisterden beleefd naar King's toonhoogte maar deden geen beloften. Hij dacht dat hij was uitgeschakeld.

Toen herinnerde hij zich onlangs: "Ik was in mijn hotelkamer aan het inpakken om naar huis te gaan, toen ik een e-mail kreeg van de mensen met wie ik net had gesproken." Het stelde de vraag: "Wat kunnen we hieraan doen?" naar het Cambridge Analytica-schandaal. Ambtenaren van het bedrijf, die ontzet hadden gekeken terwijl de koers van Facebook-aandelen kelderde na de onthullingen, maakten zich duidelijk zorgen over hoe het schandaal de reputatie van het bedrijf zou kunnen schaden.

Een paar dagen later kreeg King een volgend telefoontje. "Hé, kun je een onderzoek naar de verkiezingen van 2016 doen en iedereen vertellen dat we de uitkomst niet hebben veranderd?", Vroeg een Facebook-functionaris hem. "En als we iets verkeerd hebben gedaan, vertel ons wat we moeten doen en we zullen het meteen doen." King zegt zijn eerste reactie was: "Ik denk dat het verliezen van $ 100 miljard aan marktkapitalisatie de geest concentreert."

“Een belangrijk nieuw model”

De oproep stuurde King en Nate Persily, een professor in de rechten aan de Stanford University in Palo Alto, Californië, overdrive op hun plan om Social Science One op te staan, een non-profit entiteit die de online site zou zijn voor onderzoekers om toegang te krijgen tot alle gegevens die Facebook heeft vrijgegeven . Het eerste project zou onderzoekers een kijkje geven in hoe Facebook's 2 miljard gebruikers websites hadden gedeeld die de Amerikaanse presidentsverkiezingen van 2016 bespraken, evenals democratische instellingen over de hele wereld.

De gegevenssets bevatten de webadressen of URL's die Facebook-gebruikers openbaar hadden gedeeld, enkele kenmerken van die URL's, en verzamelde informatie over de sharers, waaronder hun leeftijd, geslacht, locatie en politieke voorkeuren. Het beloofde een goudmijn te zijn voor onderzoekers die studeerden onder welke omstandigheden en door wie nepnieuws op internet wordt verspreid.

Op 9 april 2018 kondigde Elliot Schrage, een senior Facebook-directeur, het nieuwe initiatief aan, waarvan hij schreef dat het zou helpen "bij te dragen aan onafhankelijk, geloofwaardig onderzoek naar de rol van sociale media bij verkiezingen." In een blog noemde Schrage het "een belangrijke nieuwe model voor partnerschappen tussen industrie en academie. ”En hoewel hij Cambridge Analytica niet noemde, dacht hij duidelijk aan het schandaal. "Dezelfde Facebook-tools die politici helpen contact te maken met hun kiezers ... kunnen ook worden misbruikt om te manipuleren en te misleiden, " schreef hij.

Funderingen klimmen aan boord

De aankondiging van april 2018 vermeldde ook zeven goede doelen die het initiatief zouden financieren. Het consortium was samengesteld door Larry Kramer, president van de William and Flora Hewlett Foundation, op slechts enkele kilometers van het hoofdkantoor van Facebook in Menlo Park. De stichting heeft onlangs een groot democratie-initiatief uitgebreid, het Madison Initiative genaamd, dat zich richtte op het bestuderen van het Congres om meer aandacht te schenken aan digitale desinformatie.

"Ik herinner me dat onze programmamanager beefde van opwinding", herinnert Kramer zich over de nieuwe samenwerking. "We hadden zojuist het gebrek aan toegang tot gegevens als ons kernprobleem voor het Madison-initiatief geïdentificeerd, en dan, boem, komt hier deze schat die ons laat doen wat we denken dat moet worden gedaan."

Kramer kon de Alfred P. Sloan Foundation, de Laura and John Arnold Foundation, de Charles Koch Foundation, de John S. en James L. Knight Foundation, het Democracy Fund en het Omidyar Network ertoe brengen zich aan te melden. Allen delen een interesse in hoe democratieën werken, zegt hij. Hun ideologische diversiteit - Koch steunt verschillende conservatieve oorzaken, terwijl het Omidyar-netwerk openlijk liberaal is - was ook belangrijk.

"We waren het erover eens dat we externe financiering nodig hadden om dit te laten werken", herinnert Kramer zich. “Omdat als het door Facebook zou worden gefinancierd, mensen de resultaten zouden wantrouwen. Dat is gewoon hoe het vandaag gaat. ”De organisaties kwamen overeen om in totaal $ 11 miljoen te leveren voor een 1-jarig pilootproject, te beheren door de Social Science Research Council (SSRC), een non-profit in New York City die ook zou werken het subsidieproces.

"Deze structuur was logisch en de mensen die het runnen waren top", zegt Kramer. "En het begon goed."

In juli 2018 deed SSRC een oproep tot het indienen van voorstellen en in april kende hij $ 50.000 subsidies toe aan elk van een dozijn teams van wetenschappers. (Een tweede cohort van 13 teams is geselecteerd maar nog niet aangekondigd.) De eerste ronde van projecten omvat studies over hoe activiteit op Facebook de maatschappelijke betrokkenheid kan hebben beïnvloed en recente verkiezingen in Taiwan, Chili, Brazilië en Duitsland, en hoe gebruikers reageren anders op reguliere en misleidende online nieuwsbronnen.

Schiet op en wacht

Maar hoezeer Kramer ook hoopte dat de unieke samenwerking tussen Facebook, Social Science One en de financiers zouden floreren, hij denkt dat het misschien een vergissing was om in het begin zo snel te gaan. "Dit gebeurde allemaal heel snel", zegt hij. Het is nu duidelijk, zegt hij, dat alle betrokkenen de tijd hebben onderschat die nodig zou zijn om een ​​aanvaardbare manier te vinden om de privacy van Facebook-gebruikers te beschermen. "Bijna alle problemen [rond privacy] die zijn gerezen, deden zich voor omdat we echt niet de tijd hadden om alle Ts over te steken en de Is te stippelen zoals we normaal zouden hebben gedaan, " zegt Kramer.

Begunstigden zoals Joshua Tucker, professor politieke wetenschappen en datawetenschappen aan de New York University in New York City, hebben een prijs betaald voor die haast. In januari rapporteerde zijn team over een onderzoek waarin werd vastgesteld dat ouderen zeven keer zoveel verkeerde informatie deelden dan millennials. De resultaten suggereren dat digitale geletterdheid een belangrijke factor kan zijn in hoe goed mensen de waarheidsgetrouwheid van wat ze online lezen kunnen bepalen.

Maar dat project was gebaseerd op traditioneel onderzoek met mensen die hadden ingestemd om hun online gedrag te delen. En Tucker wilde verder gaan, door openbaar beschikbare gegevens die hij van Reddit en Twitter had verkregen te koppelen aan de niet-openbare gebruikersgegevens die door Facebook werden verstrekt. Volgens de Facebook-gegevens zou het team 'een aantal van onze hypothesen kunnen testen' over hoe nieuws, inclusief desinformatie, verspreid is over verschillende platforms voor sociale media.

De gegevens met gedeelde links werden beschouwd als laaghangend fruit in termen van privacybescherming, voegt hij eraan toe, omdat ze alleen geaggregeerde informatie bevatten.

"Het kan je vertellen dat mannen van 25 tot 35 jaar die in de staat New York wonen 1000 keer een bepaalde link deelden, terwijl vrouwen van 65 jaar en ouder in North Dakota de gegevens zes keer deelden", legt hij uit over de beloofde dataset. "Maar het zou je Facebook-ID of hashtag niet bevatten, gevolgd door een heleboel dingen over jou."

Op dit moment kan Tucker - die ook een van de vier adviescommissies leidt die hebben bijgedragen aan de verspreiding van Social Science One - geen toegang krijgen tot die gegevens. Dat komt omdat Facebook nog niet heeft ontdekt hoe privacy kan worden gewaarborgd voordat de gegevens worden vrijgegeven.

De privacy-uitdaging werd vrijwel onmiddellijk duidelijk, zeggen functionarissen van King en Facebook. In het bijzonder realiseerden zij zich dat traditionele technieken om privacy te waarborgen, gebaseerd op anonimisering, niet langer toereikend waren. Computerwetenschappers hebben aangetoond dat ze personen in geanonimiseerde gegevenssets kunnen identificeren door enorme rekenkracht te gebruiken om de gemaskerde gegevens te combineren met andere persoonlijke informatie die al online voor iedereen beschikbaar is.

Gezien dergelijke mogelijkheden vertelden privacy-experts Facebook dat het "de gegevens te dun had gesneden in termen van de demografische groepen en het aantal keren dat [de webadressen werden gedeeld]", legt een Facebook-functionaris uit. Om de privacy te waarborgen, had het bedrijf zoveel statistische "ruis" aan de gegevens moeten toevoegen dat de resultaten te vervormd zouden zijn om nuttig te zijn voor onderzoekers, zegt de ambtenaar.

Het antwoord, besloot Facebook, was om differentiële privacy te gebruiken. Het is een wiskundige benadering voor het toevoegen van ruis waardoor het voor een buitenstaander onmogelijk is om te weten of de persoonlijke informatie van een persoon in een bepaalde gegevensset is opgenomen en dus zijn privacy waarborgt. Op operationeel niveau, legde de Facebook-functionaris uit, betekende dit: "we hadden een nieuwe set computerservers nodig, met nieuwe soorten beveiliging en met een verschil in privacy op de datasets."

Maar het bereiken van dat doel kost tijd. "Differentiële privacy is een ultramoderne technologie", zegt King. “Het is een zeer belangrijke ontwikkeling, maar het is niet alsof er software beschikbaar is die absoluut werkt en die is aangepast aan alle statistische methoden. Dus beseften we dat we een jaar of meer werk hadden dat we niet hadden gepland. "

"Vergeet niet, dit is onderzoek, " voegt King toe. "Als het gemakkelijk was, zou het gewoon zoeken worden genoemd."

Tucker zegt dat de medewerkers wisten dat ze "vrij onbekend water" binnengingen toen de Facebook-deal werd gesloten. "Het oorspronkelijke plan was om onderzoekers te laten werken aan de geaggregeerde gegevens en vervolgens de lastige kwestie van differentiële privacy later aan te pakken", zegt hij. "Maar dat werd onhoudbaar."

De zoektocht naar differentiële privacy is gekomen "met de kosten van het vertragen van de beschikbaarheid van de gegevens", zegt hij. Maar dit doen "in ruil voor een wiskundige verzekering van privacy, " voegt hij eraan toe, is een prijs die hij bereid is te betalen.

Een "revolutie" in de wacht

Eind vorige maand besloten het financieringsconsortium en SSRC dat de klok op was. In een open brief aan SSRC schreven de financiers dat ze “aanbevelen het subsidieproces te onderbreken tenzij en totdat er meer gegevens beschikbaar komen. ... Sommigen van ons allemaal zijn misschien bereid om te overwegen de ondersteuning uit te breiden of opnieuw te starten als er nieuwe gegevens met voldoende import en waarde beschikbaar komen. "

Tegelijkertijd gaf SSRC een verklaring af die met die aanbeveling overeenstemde en beschreef hoe het "het project eind 2019 zou afronden." Onderzoekers die al waren gefinancierd, zouden hun beurzen kunnen behouden, en degenen in de tweede ronde zouden worden gefinancierd als ze konden voltooien het project 'met de momenteel beschikbare gegevens'.

Sommige mediaberichten over die aankondigingen werpen de vertraging op als een ander voorbeeld van Facebook die teruggaat op een belofte. Facebook-functionarissen verwerpen die beoordeling en zeggen dat het bedrijf vanaf het begin duidelijk heeft gemaakt dat privacy de hoogste overweging was.

Tucker, Kramer en King zeggen dat ze geloven dat Facebook er alles aan doet om onderzoekers de weg te effenen voor toegang. "Ik denk niet dat ze stilstaan, " zegt Tucker. “Iedereen wil dat dit onderzoek wordt gedaan. Maar het is gewoon heel ingewikkeld. "

Kramer zegt dat hij de acties van Facebook niet verdedigt. "Het kan me niet schelen of [de vertraging] het bedrijf helpt of schaadt", zegt hij. Maar hij vindt dat Facebook het verdient om het te proberen.

Hoe het allemaal uitpakt, kan van invloed zijn op de vraag of andere digitale reuzen, zoals Google, ook deelnemen aan dergelijke inspanningen voor het delen van gegevens. "Toen we begonnen, " zei Kramer, "hoopten we het te laten gebeuren met Facebook en vervolgens andere sociale mediabedrijven die op vergelijkbare gegevens zitten uit te nodigen om mee te doen en ons te helpen een uitgebreid overzicht te krijgen. Maar geen van hen was geïnteresseerd. '

Een Google-functionaris bevestigt dat het bedrijf weigerde deel te nemen toen het werd benaderd door Social Science One. "We besloten af ​​te wachten en te zien wat er met Facebook gebeurt", zegt Clement Wolf, leider van het wereldwijde openbare beleid in San Francisco, Californië, voor de sociale media-gigant. "En we zijn erg geïnteresseerd in hoe het zich afspeelt."

"Als Facebook slaagt, " zegt Tucker, "kan dit een revolutie teweegbrengen in de soorten online gegevens waartoe onderzoekers toegang kunnen krijgen en de vragen die mensen die geen werknemers van dat platform zijn, kunnen stellen. Facebook-medewerkers kunnen dat nu doen, maar wij niet. ”

Zo'n twee dozijn Facebook-medewerkers hebben het afgelopen jaar het probleem weggenomen en hebben aanzienlijke vooruitgang geboekt. Vorige week heeft Facebook bijvoorbeeld differentieel beschermde gegevens beschikbaar gesteld op ongeveer 32 miljoen website-adressen die Facebook-gebruikers de afgelopen 2 jaar meer dan 100 keer openbaar hebben gedeeld. De gegevens bevatten informatie over of het adres werd gerapporteerd als nepnieuws, spam of haatdragende taal, en hoe vaak het werd gedeeld zonder erop te klikken.

Die release is een goed voorteken voor het project, zegt King, die de opschorting van de financiering ziet als slechts een hindernis in de richting van meer samenwerkingen tussen grote internetbedrijven en academici. Gegevens vullen een veld aan, zegt hij. En sociale wetenschappen hebben veel meer gegevens dan ooit tevoren. Maar de meeste gegevens bevinden zich in bedrijven en gebruiken deze voor hun eigen doeleinden. Dus als wetenschappers hebben we geen andere keuze dan een soort overeenkomst te sluiten met de particuliere industrie

* Correctie, 25 september, 10:25 uur: dit verhaal is bijgewerkt om de naam van de Social Science Research Council te corrigeren.