Zawłaszczenie strefy wspólnej
Zdecydowana większość akademickich badań w dziedzinie AI odbywa się bez jakiejkolwiek oceny etycznej. Ale skoro techniki uczenia maszynowego wykorzystywane są przy podejmowaniu decyzji w dziedzinach tak wrażliwych, jak edukacja lub opieka zdrowotna, dlaczego nie mają podlegać starannemu badaniu etycznemu? Aby to zrozumieć, musimy się przyjrzeć dyscyplinom uważanym za prekursorów AI. Zanim pojawiły się uczenie maszynowe i analiza danych, matematyka stosowana, statystyka i informatyka nie uchodziły za dziedziny badań nad ludźmi. W pierwszych dziesięcioleciach badań nad AI wykorzystanie ludzkich danych nie było kojarzone ze szczególnym ryzykiem. Choć zbiory danych w uczeniu maszynowym często mają za przedmiot ludzi oraz ich życie, badania, w których zbiory te wykorzystywano, zaliczano do matematyki stosowanej o nieistotnych następstwach dla ludzi. Infrastruktura etyczna, taka jak uczelniane komisje rewizyjne, przez lata akceptowała to stanowisko. Początkowo było to zrozumiałe; komisje etyczne skupiały się na metodach eksperymentalnych w badaniach biomedycznych i psychologicznych, w których interwencje niosą oczywiste ryzyko dla jednostek. Informatyka postrzegana była jako dziedzina znacznie bardziej abstrakcyjna. Kiedy w latach 80. i 90. AI wyszła poza kontekst ściśle laboratoryjny – na przykład kiedy próbowała przewidzieć, czy przestępcy popełnią kolejny czyn zakazany, lub rozstrzygnąć, komu należy się świadczenie socjalne – zakres potencjalnych szkód się poszerzył. Co więcej, takie szkody mogły dotykać całe społeczności. Nadal jednak utrzymywane jest założenie, że powszechnie dostępne zbiory danych stwarzają niewielkie ryzyko i dlatego można je wyłączać z oceny etycznej. Pogląd ten jest dziedzictwem dawniejszej epoki, gdy przenoszenie danych było trudniejsze, a dłuższe przechowywanie bardzo drogie. Założenia te nie odpowiadają już temu, co obecnie się dzieje w uczeniu maszynowym. Zbiory danych można łatwo ze sobą łączyć, w nieskończoność zmieniać ich przeznaczenie, stale aktualizować oraz wyjmować z kontekstu, w którym zostały zebrane. Profil ryzyka AI szybko się zmienia, w miarę jak narzędzia stają się coraz bardziej inwazyjne, a naukowcy coraz częściej uzyskują dostęp do danych, nie wchodząc w interakcję z tymi, których one dotyczą. Na przykład pewien zespół naukowców opublikował artykuł na temat opracowanego przez niego „automatycznego systemu klasyfikacji przestępstw”. Przedmiotem zainteresowania było zwłaszcza to, czy przestępstwo miało tło gangsterskie, co zdaniem zespołu algorytm mógł przewidzieć na podstawie jedynie czterech informacji: rodzaju użytej broni, liczby podejrzanych, dzielnicy, w której popełniono przestępstwo, i dokładnego miejsca. Wykorzystano zbiór danych o przestępstwach zgromadzony w Departamencie Policji w Los Angeles, obejmujący tysiące przestępstw gangsterskich. Dane dotyczące gangów często są zniekształcone i pełne błędów, niemniej badacze wykorzystują tę i podobne bazy danych jako ostateczne źródło danych do trenowania systemów predykcyjnych AI. Na przykład baza danych CalGang, szeroko stosowana przez policję kalifornijską, zawiera liczne niedokładności. Stanowy audytor wykrył, że aż dwadzieścia trzy procent z setek przeanalizowanych zapisów w ogóle nie powinno było zostać włączonych do bazy. Występowało w niej także czterdzieścioro dwoje niemowląt, z których dwadzieścioro ośmioro miało „przyznać się do bycia członkiem gangu”. Większość dorosłych osób włączonych do bazy nie była o nic oskarżona, ale kiedy ktoś się w niej już znajdzie, nie ma możliwości skasowania jego nazwiska. Powody wciągnięcia mogą być tak banalne, jak rozmowa z sąsiadem, gdy jest się ubranym w czerwoną koszulę; z tak błahych powodów dodawano do wykazu nieproporcjonalnie wiele osób czarnoskórych i Latynosów. Kiedy podczas sympozjum naukowego badacze przedstawili projekt dotyczący przewidywania przestępczości gangsterskiej, niektórzy uczestnicy poczuli się zakłopotani. Jak pisze Science, obecni pytali: „Skąd wiadomo, że dane treningowe od samego początku nie były stronnicze?” i „Co się stanie, gdy ktoś błędnie zostanie oznaczony jako członek gangu?”. Prezentujący wyniki profesor informatyki Hau Chan, obecnie pracujący na Uniwersytecie Harvarda, odpowiedział, że nie wie, jak będzie wykorzystywane nowe narzędzie. „Są to pytania etyczne, na które nie znam odpowiedzi, ponieważ jestem jedynie naukowcem” – przyznał. (…)
Systemy logiki cyrkularnej
Dziesięć lat temu twierdzenie, że w sztucznej inteligencji występuje problem uprzedzeń, uchodziło za śmiałe. Obecnie jednak przykładów dyskryminujących systemów AI nie brakuje – od uprzedzeń płciowych w algorytmach Apple’a dotyczących oceny wiarygodności kredytowej, przez rasizm oprogramowania COMPAS, służącego do szacowania prawdopodobieństwa popełnienia przestępstw, po uprzedzenia ze względu na wiek w reklamach celowanych Facebooka. Narzędzia rozpoznawania obrazów błędnie kategoryzują czarnoskóre twarze, chatboty posługują się rasistowskim lub mizoginistycznym językiem, oprogramowanie rozpoznawania głosu nie identyfikuje głosów kobiecych, a platformy mediów społecznościowych więcej ogłoszeń o wysokopłatnych stanowiskach kierują do mężczyzn niż do kobiet. Jak pokazały Ruha Benjamin i Safiya Noble, można podać setki przykładów z całego cyfrowego ekosystemu. Jeszcze więcej nie zostało wciąż wykrytych lub publicznie uznanych. Typowy epizod narracji o uprzedzeniach AI zaczyna się od tego, że pewien dziennikarz śledczy lub sygnalista ujawnia dyskryminujące wyniki generowane przez jakiś system AI. Informacja jest szeroko kolportowana i firma obiecuje, że rozwiąże problem. Następnie system zastępowany jest czymś nowym albo zostaje podjęta interwencja techniczna w celu uzyskania bardziej zrównoważonych wyników. Te wyniki i techniczne poprawki pozostają zastrzeżone i tajne, a opinia publiczna dowiaduje się, że choroba stronniczości została „uleczona”. Rzadziej dochodzi do publicznej dyskusji o tym, dlaczego uprzedzenia i dyskryminacja są tak częstym zjawiskiem oraz czy przypadkiem nie występują bardziej fundamentalne problemy niż to, że użyto nieodpowiedniego zbioru danych lub źle zaprojektowano algorytm. Jeden z jaskrawych przykładów uprzedzeń pochodzi z wewnętrznego konta Amazona. W 2014 roku firma przeprowadziła testy nad automatyzacją procesu rekomendowania i rekrutacji pracowników. Skoro automatyzacja rekomendacji produktów i organizacji magazynu przynosi większe zyski, mogłaby również sprawić – rozumowano – że rekrutacja pracowników stanie się bardziej wydajna. Jak wyjaśnił jeden z inżynierów: „Oni po prostu marzyli o maszynie, która przyjmie sto życiorysów i wyrzuci najlepszą piątkę, którą zatrudnimy”21. System uczenia maszynowego oceniał ludzi w skali od jeden do pięć, tak samo jak system oceny produktów. Tworząc model, inżynierowie Amazona jako zbiór danych wykorzystali życiorysy pracowników z poprzednich dziesięciu lat, a następnie wytrenowali model statystyczny na podstawie pięćdziesięciu tysięcy terminów występujących w tych życiorysach. Szybko okazało się, że system zaczął przykładać niewielką wagę do powszechnie stosowanych terminów inżynierskich, takich jak nazwy języków programowania, gdyż wymieniał je każdy z kandydatów. Modele ceniły natomiast subtelne wskazówki powtarzające się w aplikacjach osób zatrudnionych. Pewne czasowniki cieszyły się szczególnym uznaniem, na przykład słowa „wykonałem” i „zdobyłem”22. Rekruterzy zaczęli korzystać z systemu jako wsparcia swej normalnej praktyki. Wkrótce napotkali poważny problem: system nie rekomendował kobiet. Pomijał życiorysy absolwentek żeńskich szkół wyższych, a nawet wszelkie aplikacje, w których pojawiło się słowo „kobieta”. Nie pomogła korekta systemu, tak aby odniesienia do płci nie miały znaczenia. Nadal pojawiały się zastępniki hegemonicznej męskości zawarte w zróżnicowaniu płciowym języka. Model wykazywał uprzedzenie nie tylko względem kobiet jako kategorii, lecz także wobec powszechnie stosowanych zróżnicowanych płciowo form wypowiedzi. Mimowolnie Amazon stworzył narzędzie diagnostyczne. Mężczyźni stanowili zdecydowaną większość inżynierów zatrudnionych przez Amazona w ciągu poprzednich dziesięciu lat, dlatego modele trenowane na podstawie tych aplikacji nauczyły się rekomendować mężczyzn. Praktyki rekrutacyjne z przeszłości i teraźniejszości ukształtowały narzędzie rekrutujące w przyszłości. System Amazona nieoczekiwanie ujawnił istniejące uprzedzenia – tkwiące w sposobie kodowania męskości w języku, życiorysach i samej firmie. Narzędzie wzmacniało istniejącą dynamikę i podkreślało brak różnorodności w przemyśle AI dawniej i obecnie. Amazon ostatecznie wycofał się z tego eksperymentu rekrutacyjnego. Problem uprzedzeń nie dotyczy jednak tylko pojedynczego systemu lub podejścia. Przemysł AI pojmuje tę kwestię jako błąd do naprawienia, a nie jako cechę samej klasyfikacji. Skutkiem jest skupianie się na dostosowywaniu systemów technicznych w celu uzyskania proporcjonalności między rożnymi grupami, co – jak zobaczymy – prowadzi do dalszych problemów. Zrozumienie związku między uprzedzeniami a klasyfikacją wymaga wyjścia poza analizę powstawania wiedzy – polegającą na przykład na rozstrzyganiu, czy zbiór danych jest obiektywny – i przyjrzenia się samej mechanice konstrukcji wiedzy, co socjolożka Karin Knorr Cetina nazywa „maszynerią epistemiczną”. W tym celu należy obserwować, jak w ciągu dziejów nierówności kształtowały dostęp do zasobów i szans, który kształtuje z kolei dane. Dane następnie są ekstrahowane, aby służyły systemom technicznym do klasyfikacji i rozpoznawania regularności, co przynosi wyniki uważane za bezstronne. Tak powstaje statystyczny uroboros – wąż pożerający swój ogon: samonapędzający się mechanizm dyskryminacji, który pogłębia społeczne nierówności pod przykrywką technicznej neutralności.
21.Dastin „Amazon Scraps Secret AI Recruting Tool”
22. Dastin