[NL] Hoofd in de wolken, en meningen op de grond: Universitaire ICT in de cloud
OpenBSD versie: 7.1 (Ja, nee, waarschijnlijk niet...)
Arch: Eender
NVVP: Nooit voor meningen... (TM)
Vertaaling: Stijn Pletinckx
Dus, op maandag 18 oktober verscheen er een artikel in het ‘Financieele Dagblad’ over een een interview met Martina Lindorfer en ik over ons gezamelijk werk met Seda Gürses en andere collega’s van TU Delft. Dit werd al snel opgepikt door NOS, NL Times, Tweakers.net, en uiteindelijk ook door Reddit (en andere politiek relevante kanalen zoals de Tweede Kamer). Zoals vaak gebeurt in de media ontstonden er al snel reacties met discussies en vragen over ons artikel (arXiv preprint). Daar er soms interessante vragen en meningen voortvloeien uit desbetreffende discussies - en een kort krantenartikel de neiging heeft vaak te kort te zijn voor technische diepgang - besloot ik om een samengevatte FAQ (of FCC? “Frequently Commented Comments”) op te stellen die ingaat op de meest voorkomende vragen in verband met mijn artikel. Dus, hier gaan we, met een lijst in willekeurige volgorde.
Maar eigenlijk bevinden die servers zich in de EU
Wat misschien wel de meest voorkomende opmerking is van alle honderden, is het argument dat de servers die op Amazon’s cloud draaien zich fysiek in de EU bevinden, of dat de universiteiten zijn vergeten de juiste (EU) beschikbaarheidszone te selecteren. Het punt is, onze metingen en claims gaan over het feit of specifieke infrastructuur - en in dit geval verwijst dit naar Learning Management Systems - wordt gehost op systemen die deel uitmaken van de Amazon-cloud, onafhankelijk van de specifieke locatie van die systemen. En, wat betreft de Nederlandse universiteiten hebben de meeste inmiddels hun LMS draaiende bij Amazon (merk op dat Blackboard.com relatief recentelijk van Azure naar AWS is verhuisd, en het artikel verwijst naar een perspectief van daarvoor). Natuurlijk - om functionele redenen zoals bijvoorbeeld “latency” - bevinden deze systemen zich in Dublin (Amazon EU West) of Frankfurt (Amazon EU Central). Sommige van de IP-adressen voor deze servers zijn zelfs in handen van een niet Amazon-klinkende A100 ROW Inc/GmbH.
Welnu, A100 ROW GmbH is natuurlijk een 100% Amazon-dochteronderneming. (Zie ook de RIPE NCC registry id van ‘us.a100row’ voor deze entiteit; Ter vergelijking: toen mijn hoofdverblijfplaats in Nederland was, was mijn eigen LIR ‘nl.tobias’; Toen ik naar Duitsland verhuisde werd het ‘de.wybt’… ) En dat is in wezen het punt. De “cloud” van Amazon is niet zoals champagne. Het wordt geen ‘sprankelende geautomatiseerde infrastructuur met een API’, alleen maar omdat het niet meer uit de ‘Silicon Valley region of tech’ komt.
Allereerst is de Cloud Act van toepassing. Wat deze wet in feite zegt is dat ‘Amerikaanse autoriteiten Amerikaanse bedrijven kunnen dagvaarden voor gegevens die zijn opgeslagen op hun systemen en hun buitenlandse dochterondernemingen, ongeacht waar de gegevens zich fysiek bevinden.’ Dit is algemeen bekend en is daarom ook een van de belangrijke punten in de Schrems-arresten geweest. Zie ook deze uitspraak van een Duitse staatsrechtbank over de vraag of dochterondernemingen van Amerikaanse cloudbedrijven zelf aanklaagbaar zijn bij openbare aanbestedingen. De rechtbank beweert van niet, omdat de nodige garanties, vooral met het einde van de modelcontractbepalingen in Schrems II, niet kunnen worden verstrekt.
Dus, kort samengevat, zolang servers zich in de infrastructuur van een Amerikaans bedrijf bevinden, maakt het niet uit of de servers zich fysiek in de EU bevinden; De slechte delen van de Amerikaanse wetgeving zijn nog steeds van toepassing.
En daarnaast, wat we voornamelijk aankaarten gaat niet per se over de Amerikaanse overheid, maar meer over het punt dat individuele “cloud” bedrijven te veel macht krijgen en als gevolg invloed kunnen heben op universiteiten (en de maatschappij in het algemeen).
Kun je de data delen?
Vervolgens de verzoeken om onze ruwe data te delen. Wat betreft de langetermijnstudie, die de resultaten in een tijdsperspectief plaatst, maken we gebruik van de “Farsight SIE” historische DNS data, gebasseerd op wereldwijde sensoren. Dit is uiteraard data die best niet openbaar wordt vrijgegeven.
Desalniettemin kan men vrij snel hetgeen we meten zelf verzamelen op basis van publieke DNS data. Om dit te demonstreren heb ik zelf een klein stukje code geschreven die informatie verzamelt over de mail server opstelllingen en LMS van Nederlandse universiteiten, en details weergeeft over de huidige status, alsook een korte interpretatie zoals wat waar gehost wordt. De code is hier te vinden: https://git.aperture-labs.org/Cloudheads/cloudheads_nl_scraper Voel je vrij om het zelf uit te voeren om de gegevens te verzamelen, of om andere instanties toe te voegen, zoals HBO’s, die we niet hebben opgenomen.
Hoe dan ook, als je de gegevens wilt bekijken, kun je ze vinden in de repository, alsook de code - voor als je me niet vertrouwt - om de experimenten zelf uit te voeren.
Bevat LMS echt alle gegevens van studenten?
Welnu, het punt dat we maken in FD is dat - voor de meerderheid van de Nederlandse universiteiten - hun “Learning Management Systems” in de cloud staan. Die systemen bevatten meestal gegevens over voor welke cursussen een student zich heeft ingeschreven, afhankelijk van de opzet (eind)cijfers, en een heleboel interactie tussen studenten en docenten. Dit is natuurlijk niet alle data die universiteiten over studenten hebben.
Uiteraard, data over wat studenten doen over de locale WiFi verbinding - indien gemonitord - staan meestal lokaal opgeslagen (of worden doorgezonden naar een externe SOC voor “threat analysis”). Tevens, het opslaan van officiele cijferlijsten gebeurt vaak niet via een LMS, maar eerder via specifieke software. Desalniettemin overwegen sommige universiteiten om alsnog over te stappen naar cloud applicaties ter vervanging van desbetreffende systemen. Financiele handelingen gebeuren ook via andere systemen, tevens ook als e-mail. Doch, hier zien we echter ook dat Nederlandse universiteiten regelmatig gebruik maken van het e-mailaanbod van grote cloudproviders, waarbij Microsoft daar de leidende leverancier is.
Het LMS in de cloud is dus niet alle gegevens van studenten.
Maar wel een belangrijk stuk.
Hoe moet je anders een dienst runnen?
Een vaak aangekaard punt in de reacties is dat het bijzonder moeilijk is om een infrastructuur te draaien zonder te berusten op een cloud opplossing. Dat klopt, en ik schreef hier ook over op een meer algemeen niveau; Een systeem goed draaiende houden is moeilijk. Maar dan ook echt moeilijk. En dan hebben we het nog niet eens over zaken als de rottende aard van Google’s font hosting. Ik sta er nog steeds van versteld hoe bijzonder lastig het is om deze uit zelf-gehoste tools te verwijderen. En dit terwijl de caching voordelen die hebben geleid tot de populariteit van Google fonts om veiligheidsredenen inmiddels verdwenen zijn.
Bovendien - en terugkomend op het vorige punt - is een van onze belangrijkste argumenten dat het continue gebruik van cloudinfrastructuur leidt tot een steeds kleiner wordende mogelijkheid om dingen zelf te draaien. Dit komt omdat we willen geld besparen op die dure ingenieurs… wat leidt to afhankelijkheid, omdat je niet langer het juiste personeel in huis hebt om uit de cloud te verhuizen. Vandaar dat, het punt makende dat organisaties nu al geen infrastuctuur kunnen draaien zonder de hulp van clouds–‘zie ook mijn werk over de complexiteit van e-mail’–dit in wezen alleen maar het argument van geleidelijke afhankelijkheid nog meer benadrukt.
Net daarom, ook al is het een moeilijke taak, dat we moeten nadenken over hoe we ons vermogen om zelf (onderzoeks- en onderwijs)infrastructuur te hosten, kunnen behouden. In Nederland is hier blijkbaar een lopend verzoek voor. Ik ontken niet dat dit een moeilijke taak is, maar het wordt niet makkelijker naarmate we langer wachten; Integendeel zelfs.
Natuurlijk kunnen universiteiten afhankelijk zijn; Maar dat zijn ze ook op zaken zoals energie…
Voortzetting van de kwestie over afhankelijkheid. In ons werk beweren we dat universiteiten, die afhankelijk zijn van sommige entiteiten, het voor technologiebedrijven heel gemakkelijk maken om - in wezen - universiteiten te chanteren.
Destijds op TU Delft, luisterend naar een presentatie over deze studie, bracht een collega het volgend argument ter zake: ‘Nou, dan zijn universiteiten ook afhankelijk van hun gasleveranciers. Moeten we nu onze eigen energie opwekken?’ (Het is je misschien opgevallen dat dit argument werd gemaakt vóór 24 februari, en echt niet beter geworden is met der tijd… ) De meest adequate weerlegging van dit punt kwam van een andere collega, een hoogleraar in energiesystemen, die in wezen zei: “Nou, dat is natuurlijk een kwestie in het energiedomein. Daarom dat die markt sterk gereguleerd is.” Ik kan daar nauwelijks iets aan toevoegen; Slaat de spijker op de kop.
Bedrijven zijn rationele actoren, die, gegeven de huidige omstandigheden, altijd zullen doen wat het meest in hun voordeel uitkomt. Als de regels iets toestaan, en het kan hen winst opleveren, zullen ze het doen. Dat is hoe rationele actoren werken.
Tevens, de strategie van Google om voet aan grond te krijgen in nieuwe markten is allom bekend. Stap binnen met een goedkope (of gratis) aanbieding, begin met extra kosten zodra je niet meer vervangebaar bent. Dit is goed bestudeerd (PT; p. 27ff.), en bevindt zich momenteel ook een beetje in de zoek-het-uit-fase van ‘meld je aan voor de cloud, en zoek het uit’ voor meerdere, verschillende, universiteiten.
Ervan uitgaan dat techbedrijven deze (juridische) hefboom om hun winst te verhogen zouden overslaan vanwege hun goede hart, is, om eerlijk te zijn, een beetje te naïef.
Maar waarom zouden ze zich zelfs bekommeren over het maken van/ingrijpen in curricula?!
Een van onze grote punten is dat de technologiebedrijven hun eerder genoemde chantagevermogen kunnen gebruiken om ook te beïnvloeden wat er wordt onderwezen en onderzocht, wat ertoe leidt dat clouds de academische integriteit in gedrang kunnen brengen. Dit roept regelmatig de vraag op waarom techbedrijven zich in de eerste plaats zouden willen bemoeien met curricula en onderzoek.
Wat curricula betreft, is het antwoord simpelweg omdat ze al curricula hebben voor het onderwijzen van ‘de cloud’ op universiteiten, evenals K-12 curricula over informatica. Evenzo waren er al gevallen waarin grote bedrijven hun marktposities gebruikten om onderzoek te beïnvloeden. Facebook (nu beter gekend als Meta) deed bijvoorbeeld een nogal interessante zet door aan te tonen dat ‘het annuleren van de private facebook-accounts van mensen die onderzoek doen dat ze niet leuk vinden’ wel degelijk binnen hun capaciteiten ligt. Aangezien velen een behoorlijk groot deel van hun sociale kringen en herinneringen opgeslagen hebben in hun Facebook- en Instagram-account, is dit een serieuze bedreiging. Eveneens hebben we het verhaal van Timnit Gebru, aangenomen door Gogle om kritisch na te denken over de gevaren van AI, echter later ontslagen toen dat werk te kritisch werd. En terwijl dit allemaal gaande is, zien we steeds vaker dat techbedrijven universitaire docenten (indirect) op hun loonlijst zetten.
Tot slot
Dus, ik hoop een aantal van de meest dringende opmerkingen en vragen die ik zag opkomen in hun context te hebben geplaatst. Indien ik een aantal belangrijke delen heb gemist, stuur me dan een bericht, en dan zorg ik voor een vervolg blogartikel. Voel je ook vrij om eventuele andere commentaren met mij te delen. Voor beide kun je me bereiken op het volgende e-mailadres voor deze blog: contact@as59645.net.
Tot die tijd wens ik je een fijne dag toe, en onthoud altijd:
Hopen dat iets niet gebeurt is geen garantie dat het nooit zal gebeuren.