Source: OJ L, 2024/1689, 12.7.2024

Artikel 10 Data och dataförvaltning

Summary What does Article 10 of the AI act regulation say?

This article sets out the data quality and governance requirements that apply to high-risk AI systems, sitting within the broader Chapter III framework that governs all obligations on providers of such systems.

Its core concern is ensuring that the data used to train, validate, and test these systems is fit for purpose.

It covers the full data lifecycle, from collection and preparation through to bias examination and gap identification, and sets a quality threshold requiring data to be relevant, sufficiently representative, and as free of errors as possible.

A notable carve-out allows providers to process special categories of personal data where strictly necessary for bias detection and correction, subject to a strict set of cumulative conditions that layer on top of existing EU data protection law.

Important points:

Ensure that training, validation, and testing datasets meet detailed governance and quality standards, including examination for biases that could affect health, safety, fundamental rights, or lead to prohibited discrimination.
Providers may process special categories of personal data for bias detection and correction only if a set of strict cumulative conditions are all met, including that the same objective cannot be achieved using other data such as synthetic or anonymised data.
For high-risk AI systems that do not use model training techniques, the data quality requirements apply only to the testing datasets.

Springlex's summary of the article, a reading aid, not a substitute for the legal text.

1. AI-system med hög risk som använder teknik som inbegriper träning av AI-modeller med data ska utvecklas på grundval av tränings-, validerings- och testdataset som uppfyller de kvalitetskriterier som avses i punkterna 2–5 när sådana dataset används.
1. Tränings-, validerings- och testdataset ska omfattas av metoder för dataförvaltning och datahantering som är lämpliga för det avsedda ändamålet med AI-systemet med hög risk. Dessa metoder ska särskilt avse
  1. relevanta utformningsval,
  2. datainsamlingsprocesser och uppgifternas ursprung samt, när det gäller personuppgifter, datainsamlingens ursprungliga ändamål,
  3. relevanta åtgärder för datapreparering, såsom annotation, märkning, rensning, uppdatering, förädling och aggregering,
  4. formulering av antaganden, särskilt när det gäller den information som berörda data förväntas beskriva och representera,
  5. en bedömning av tillgängligheten, mängden och lämpligheten avseende de dataset som behövs,
  6. undersökning med avseende på eventuella biaser som sannolikt kommer att påverka människors hälsa och säkerhet, inverka negativt på grundläggande rättigheter eller leda till diskriminering som är förbjuden enligt unionsrätten, särskilt när utdata påverkar indata för framtida drift,
  7. lämpliga åtgärder för att upptäcka, förebygga och begränsa eventuella biaser som identifierats enligt led f,
  8. identifiering av relevanta dataluckor eller brister som hindrar efterlevnad av denna förordning, och hur dessa luckor och brister kan åtgärdas.
1. Tränings-, validerings- och testdataset ska vara relevanta, tillräckligt representativa, och så långt som möjligt fria från fel och fullständiga i förhållande till det avsedda ändamålet. De ska ha lämpliga statistiska egenskaper, inbegripet, i förekommande fall, vad gäller de personer eller grupper av personer med avseende på vilka AI-systemet med hög risk är avsett att användas. Egenskaperna hos dessa dataset kan uppfyllas på nivån för enskilda dataset eller på nivån av en kombination av dessa.
1. Dataseten ska, i den mån som krävs med hänsyn till det avsedda ändamålet, beakta de egenskaper eller element som är utmärkande för just den specifika geografiska, kontextuella, beteendemässiga eller funktionsmässiga situation där AI-systemet med hög risk är avsett att användas.
1. I den utsträckning det är absolut nödvändigt för att säkerställa upptäckt och korrigering av bias i samband med AI-systemen med hög risk i enlighet med punkt 2 f och g i denna artikel får leverantörer av sådana system undantagsvis behandla särskilda kategorier av personuppgifter, med förbehåll för lämpliga skyddsåtgärder för fysiska personers grundläggande rättigheter och friheter. Utöver bestämmelserna i förordningarna (EU) 2016/679 och (EU) 2018/1725 och direktiv (EU) 2016/680 måste samtliga följande villkor vara uppfyllda för att sådan behandling ska kunna äga rum:
  1. Upptäckt och korrigering av bias kan inte uppnås på ett effektivt sätt genom behandling av andra data, inbegripet syntetiska eller anonymiserade data.
  2. De särskilda kategorierna av personuppgifter omfattas av tekniska begränsningar för vidareutnyttjande av personuppgifter samt säkerhetsåtgärder och integritetsbevarande åtgärder på en nivå som motsvarar den senaste utvecklingen, inbegripet pseudonymisering.
  3. De särskilda kategorierna av personuppgifter omfattas av åtgärder för att säkerställa att de personuppgifter som behandlas är säkra, skyddade, omfattas av lämpliga skyddsåtgärder, inbegripet strikta kontroller och dokumentation av åtkomsten, för att undvika missbruk och säkerställa att endast personer som är behöriga har tillgång till dessa personuppgifter med lämpliga konfidentialitetsskyldigheter.
  4. De särskilda kategorierna av personuppgifter får inte översändas, överföras eller på annat sätt göras tillgängliga för andra parter.
  5. De särskilda kategorierna av personuppgifter raderas när biasen har korrigerats eller personuppgifternas lagringstid har löpt ut, beroende på vilket som inträffar först.
  6. Registren över behandling enligt förordningarna (EU) 2016/679 och (EU) 2018/1725 och direktiv (EU) 2016/680 innehåller skälen till varför behandlingen av särskilda kategorier av personuppgifter var absolut nödvändig för att upptäcka och korrigera biaser och varför detta mål inte kunde uppnås genom behandling av andra data.
1. För utvecklingen av AI-system med hög risk som inte använder teknik som inbegriper träning av AI-modeller är punkterna 2–5 endast tillämpliga på testdataset.

Relevant recitals

Skäl 66 Coverage of mandatory requirements

Kraven bör tillämpas på AI-system med hög risk när det gäller riskhantering, kvaliteten på och relevansen av använda dataset, teknisk dokumentation och loggning, transparens och information till tillhandahållare, mänsklig kontroll samt robusthet, riktighet och cybersäkerhet. Dessa krav är nödvändiga för att på ett effektivt sätt begränsa riskerna för hälsa, säkerhet och grundläggande rättigheter. Eftersom inga andra åtgärder som är mindre handelsbegränsande finns rimligen tillgängliga så utgör dessa krav inte omotiverade begränsningar av handeln.

Skäl 67 Data governance and management

Data av hög kvalitet och tillgång till data av hög kvalitet spelar en avgörande roll när det gäller att tillhandahålla struktur och att säkerställa många AI-systems prestanda, i synnerhet vid användning av teknik som förutsätter träning av modeller för att säkerställa att AI-system med hög risk fungerar säkert och på avsett sätt och inte blir en källa till diskriminering som är förbjuden enligt unionsrätten. Högkvalitativa dataset för träning, validering och testning förutsätter genomförande av lämpliga metoder för dataförvaltning och datahantering. Dataset för träning, validering och testning, inbegripet märkningarna, bör vara relevanta, tillräckligt representativa och i största möjliga utsträckning fria från fel och fullständiga med tanke på systemets avsedda ändamål. För att underlätta efterlevnaden av unionens dataskyddslagstiftning, såsom förordning (EU) 2016/679, bör dataförvaltnings- och datahanteringsmetoderna när det gäller personuppgifter inbegripa transparens om det ursprungliga syftet med uppgiftsinsamlingen. Dataseten bör också ha lämpliga statistiska egenskaper, även när det gäller de personer eller grupper av personer i fråga om vilka AI-systemet med hög risk är avsett att användas, med särskild uppmärksamhet på att begränsa eventuella biaser i dataseten som sannolikt påverkar människors hälsa och säkerhet, inverkar negativt på grundläggande rättigheter eller leder till diskriminering som är förbjuden enligt unionsrätten, särskilt när utdata påverkar indata för framtida operationer (återföring). Biaser kan exempelvis vara inneboende i underliggande dataset, särskilt när historiska data används eller genereras när systemen tillämpas i verkliga sammanhang. De resultat som AI-system ger kan påverkas av sådana inneboende biaser som tenderar att gradvis öka och därigenom vidmakthålla och förstärka befintliga diskriminering, särskilt för personer som tillhör vissa sårbara grupper, inbegripet rasgrupper eller etniska grupper. Kravet på att dataseten i största möjliga utsträckning ska vara fullständiga och fria från fel bör inte påverka användningen av integritetsbevarande teknik i samband med utveckling och testning av AI-system. I synnerhet bör dataset, i den mån som krävs för deras avsedda ändamål, beakta funktioner, särdrag eller element som är specifika för den särskilda geografiska, kontextuella, beteendemässiga eller funktionsmässiga situation där AI-systemet är avsett att användas. De krav som rör dataförvaltning kan uppfyllas genom att tredje parter anlitas som erbjuder certifierade tjänster för uppfyllelse av kraven, inbegripet kontroll av dataförvaltning, datasetens integritet och metoder för träning, validering och testning av data, i den mån överensstämmelse med uppgiftskraven i denna förordning säkerställs.

Skäl 68 European common data spaces

För utvecklingen och bedömningen av AI-system med hög risk bör vissa aktörer, såsom leverantörer, anmälda organ och andra berörda enheter – exempelvis europeiska digitala innovationsknutpunkter, test- och experimentfaciliteter och forskare – kunna få åtkomst till och använda dataset av hög kvalitet inom sina respektive verksamhetsområden som är relaterade till denna förordning. Gemensamma europeiska dataområden som inrättas av kommissionen och främjande av datadelning mellan företag och med offentlig förvaltning i allmänhetens intresse kommer att vara avgörande för tillhandahållandet av förtroendefull, ansvarsskyldig och icke-diskriminerande åtkomst till högkvalitativa data för träning, validering och testning av AI-system. På exempelvis hälsoområdet kommer det europeiska hälsodataområdet att främja icke-diskriminerande åtkomst till hälsodata och träning av AI-algoritmer på dessa dataset, på ett sätt som bevarar den personliga integriteten och är säkert, snabbt, transparent och tillförlitligt och med lämpliga institutionella styrelseformer. Berörda behöriga myndigheter, även sektorsbaserade sådana, som tillhandahåller eller stöder åtkomst till data får också stödja tillhandahållandet av högkvalitativa data för träning, validering och testning av AI-system.

Skäl 69 Data minimisation and data protection by design and by default

Rätten till integritet och skydd av personuppgifter måste garanteras under AI-systemets hela livscykel. I detta avseende är principerna om uppgiftsminimering och inbyggt dataskydd och dataskydd som standard, i enlighet med unionens dataskyddslagstiftning, tillämpliga när personuppgifter behandlas. De åtgärder som leverantörer vidtar för att säkerställa efterlevnaden av dessa principer kan omfatta inte bara anonymisering och kryptering, utan även användning av teknik som gör det möjligt att föra in algoritmer i data och möjliggöra träning av AI-system utan överföring mellan parter eller kopiering av rådata eller strukturerade data i sig, utan att det påverkar tillämpningen av de krav på dataförvaltning som föreskrivs i denna förordning.

Skäl 70 Processing of special categories of personal data

För att skydda andras rätt att slippa diskriminering som kan följa av bias i AI-system bör leverantörerna undantagsvis, i den utsträckning det är absolut nödvändigt för att säkerställa upptäckt och korrigering av bias i samband med AI-systemen med hög risk, med förbehåll för lämpliga skyddsåtgärder för fysiska personers grundläggande rättigheter och friheter och enligt tillämpningen av alla tillämpliga villkor som fastställs i denna förordning och i förordningarna (EU) 2016/679, (EU) 2018/1725 och (EU) nr 2016/680, kunna behandla även särskilda kategorier av personuppgifter, av hänsyn till ett viktigt allmänt intresse i den mening som avses i artikel 9.2 g i förordning (EU) 2016/679 och artikel 10.2 g i förordning (EU) 2018/1725.

Table of contents

Springlex and this text is meant purely as a documentation tool and has no legal effect. No liability is assumed for its content. The authentic version of this act is the one published in the Official Journal of the European Union.