Is this the end of the internet as we know it? - Poisoning the sources of knowledge (film, 21m)

Cześć! Opowiem wam dzisiaj o tym, jak zatruć cały internet, a przyczynkiem do tego będzie niedawno zawarte porozumienie pomiędzy Googlem i Redditem. Jaką rolę w tym procesie odgrywają wielkie modele językowe? Czy edytując artykuł na Wikipedii, choćby nawet na krótką chwilę, stajemy się zwykłymi wandalami, czy już na zawsze wpływamy na przyszłość? I czy to koniec internetu, jaki znamy? Zapraszam! Google ogłosiło niedawno rozszerzenie trwającej już od wielu, wielu lat współpracy z Redditem. I co w tym ciekawego? A no całkiem sporo, jak się okazuje. Jedną z głównych ról w całym tym małżeństwie z rozsądku odegra, a jak, sztuczna inteligencja. Treści z Reddita trafią do nowego grona użytkowników, czyli klientów usług Google prosto na ekrany urządzeń z Androidem. To oczywiście nie jest altruizm i chęć promowania serwisu. Google otrzyma dostęp poprzez API do tego, co dzieje się na Reddicie. Sztuczna inteligencja ma przeczesywać i analizować treści publikowane na portalu, aby m.in. poprawiać wyniki wyszukiwania, i to na bieżąco. Co musi być dla nich naprawdę łakomym kąskiem. W końcu jedną z największych bolączek wykorzystywanych dziś modeli językowych jest aktualność prezentowanych przez nich danych. A tu nie dość, że wszystko na bieżąco tworzone przez ludzi, naprawdę nieźle ustrukturyzowane, od razu ocenione przez społeczność, to jeszcze podane na srebrnej tacy. Nic tylko brać taki zbiór danych i trenować na nim do upadłego. Brzmi jak marzenie każdego modelarza. Oczywiście wszystko to przedstawiane jest po prostu jako działanie dla dobra ogółu i ułatwienie dostępu do informacji zebranych na Reddicie osobom, które na co dzień z niego nie korzystają, albo nawet nie wiedzą o jego istnieniu. Teoretycznie brzmi to więc jak pozytyw i sytuacja, w której wszyscy wygrywają. W komunikatach prasowych obu firm pada też sporo słów o otwartości, wartościach czy dbaniu o użytkowników. Zupełnie jak u polityków. No i wielu z Was pewnie pomyśli teraz o zastrzeżeniach do kwestii prywatności i braku wyraźnej zgody użytkowników serwisu na wykorzystanie publikowanych przez nich treści do trenowania modeli. Niektórzy przypomną sobie nawet niedawne wejście Reddita na giełdę i całe związane z tym zamieszanie, uznając, że to po prostu dalszy ciąg trwającego procesu upadku jednego z serwisów, który był kiedyś filarem sieci. Ale to tylko wierzchołek góry lodowej. Spadek jakości wyników prezentowanych w wyszukiwarce Google zauważył chyba każdy, kto z niej korzysta. Zresztą nie jest to jedynie właściwy dla nich problem, ale całej branży. Jest coraz gorzej i nic nie świadczy o tym, żeby trend ten uległ zmianie. Po wpisaniu jakiejś popularnej frazy coraz częściej zalewani jesteśmy wynikami wygenerowanymi maszynowo, których zadaniem po prostu jest przyciągnięcie naszej uwagi, żebyśmy kliknęli w jakąś reklamę albo dali się nabrać na jakieś oszustwo. Treści tak naprawdę nie ma tam prawie wcale albo jest ona naprawdę niskiej jakości. Nie dziwi więc fakt, że co sprawniejsi researcherzy zaczęli coraz mniej ufać wyszukiwarkom, a uciekają na przykład na takiego reddita, gdzie treści generują i oceniają żywi ludzie, prawda? No, tak nie do końca. Reddit ma niestety dokładnie ten sam problem, tylko jego skala jest jeszcze inna. Jeszcze, bo to pewnie szybko ulegnie zmianie, jeżeli jego popularność będzie nadal rosnąć. Pojawiły się już usługi, których zadaniem jest bez wzbudzenia podejrzeń moderatorów wypromować produkt na głównej stronie internetu, wykorzystując do tego boty piszące komentarze. W takiej usłudze definiuje się słowa kluczowe czy określone subreddity w panelu administratora, płaci parę dolarów i gotowe. Ktoś zadaje pytanie, aby dowiedzieć się, czego inni twórcy treści używają do automatycznego generowania napisów. Pyk, bot wchodzi cały na biało, odpowiada całkiem sprawnie, bo zgodnie z kontekstem na zadane pytanie, oczywiście dodając jeszcze linka do promowanej aplikacji. Wygląda to całkiem naturalnie, jak kolejny zadowolony klient, więc mieszanka innych botów i ludzi wykopuje taki komentarz, który tak naprawdę jest zwykłą reklamą. Szukając potem rozwiązania swojego problemu, naprawdę łatwo się pomylić. Bot taki zresztą reklamowany jest jako rozwiązanie nie tylko na reddita, ale też twittera. No i co w tym złego? Ano to, że reddit do tej pory dość dobrze opierał się takim praktykom. Im jednak będzie coraz atrakcyjniejszym celem, tym będzie to trudniejsze. Skoro treści na nim publikowane mają być wykorzystywane do poprawy wyniku wyszukiwania i trenowania modeli językowych, to staje się on naprawdę łakomym kąskiem. Skoro Google ma zamiar czerpać z reddita, to można infekować treści na nim publikowane, żeby pozycjonować się wyżej w wynikach wyszukiwania. Ale czy to w ogóle jest realne zagrożenie? Stosując najlepszą znaną od wieków ludzkości metodę badawczą, czyli tak na chłopski rozum, wydaje się, że zainfekowanie zbioru danych wykorzystywanego do nauczania takiego czata GPT czy innego Gemini jest absolutnie niepraktyczne. Albo wręcz niemożliwe. Zbiory takie są przecież ogromne, więc próby wpłynięcia na istotną statystycznie ilość elementów tego zbioru są naprawdę karkołomnym przedsięwzięciem. Hipotezę tę postanowili przebadać badacze w pracy zatytułowanej Poisoning Web Scale Training Dataset is Practical, co w sumie zdradza ich odkrycia. Wybaczcie spoiler. A więc do rzeczy. Wielkie modele językowe nauczane są zebranymi z internetu zbiorami danych idącymi w miliardy rekordów. Zweryfikowanie w poprawny sposób tak ogromnej ilości informacji, i to jeszcze w etyczny sposób, aby pohamować cenzorskie zapędy, jest bardzo, ale to bardzo kosztowne. Przecież, aby koszty ograniczać, często wykorzystuje się zbiory, które nie są tak dokładnie nadzorowane. Wydaje się, że nikomu to nie przeszkadza, bo czym większy dataset używany jest do nauczania, tym przeważnie osiąga się lepsze efekty. Tu dochodzimy do drugiego problemu. Danych wysokiej jakości możliwych do zebrania z sieci wcale nie ma tak wiele, jak mogłoby się wydawać. Łącząc te problemy ze sobą, trudno się dziwić, że ta jakość właśnie często odchodzi na dalszy plan, a idzie się po prostu na ilość, ryzykując różnymi etycznymi zagrożeniami. Normalne, błędne dane, nazywane szumem, nie wydawały się nigdy problemem. Modele radzą sobie z takim szumem całkiem nieźle, ba, jest on nawet w pewnych przypadkach mile widziany, bo wprowadzane później parametry też przecież nie muszą być idealnie takie, jakich w idealnym świecie model mógłby się spodziewać. Czy to więc rozwiązuje cały problem? No nie. Bo szum taki może być różnoraki. Mogą to być przypadkowe, niedokładne czy źle skojarzone dane, ale mogą to też być dane celowo próbujące wprowadzić model w błąd. I okazuje się, że proces nauczania modelu jest dość odporny jedynie na ten pierwszy rodzaj szumu związany z losowością, a nie ten, w którym ktoś celowo coś podmienia. To doskonałe warunki do przeprowadzania ataku z kategorii zatruwania studni. Szczególnie, że wraz z pragnieniem wszystkich do posiadania jak największej ilości danych i rynkowym wyścigiem w tym zakresie, zbierane są one często z miejsc, nad którymi nie ma pełnej kontroli. Przebadano więc praktyczność przeprowadzenia takiego ataku na dataset o bardzo dużej skali, aby sprawdzić, ile potrzeba, aby go zatruć, czyli wprowadzić do niego coś, czego być w nim nie powinno, a co może mieć drastyczne skutki. Tu potrzebujemy ważnego rozróżnienia. Zbiory danych możemy z grubsza podzielić na dwie kategorie. Te największe, przynajmniej w kwestii ilości próbek, wcale nie zawierają w sobie wszystkich danych. Byłoby to z praktycznego punktu widzenia niemożliwe. Rozmiar takiego zbioru szedłby w jakieś chore ilości terabajtów. Dlatego stosuje się indeksy. Taki indeks składa się z listy odnośników np. do poszczególnych zdjęć wykorzystywanych do trenowania modelu oraz związanych z tym zdjęciem parametrów czy kategorii, które wcześniej sklasyfikowano. Nie przechowuje się kilku megabajtowych obrazków, a jedynie linki do nich. Proste i wydajne. Takie indeksy są publikowane, aby nie przechowywać całego zbioru danych, który nie tylko byłby ogromny, ale potencjalnie mógłby też zawierać np. dane osobowe. A nikt nie chce ryzykować ponad miarę, bo czym innym będzie wykorzystanie takich danych, a czym innym ich publikacja. W ten sposób firmy tworzące datasety niejako zabezpieczają się przed odpowiedzialnością. Kiedy ktoś chce uruchomić jakiś model lokalnie, u siebie i nauczyć go na podstawie takiego zdefiniowanego wcześniej datasetu, korzysta właśnie z indeksu, aby uzyskać dostęp do tych samych danych, które już wcześniej zostały zebrane i przeanalizowane. Cęk w tym, że nie ma żadnej gwarancji, że są to dokładnie te same dane. Mogły one przecież ulec zmianie pomiędzy momentem ich pierwotnego sklasyfikowania, a chwilą, kiedy sami chcemy uzyskać do nich dostęp. Nie ma żadnego cyfrowego podpisu, pozdrawiam Nevak, który gwarantowałby, że to, co widział twórca datasetu, jest tym samym, co widzi osoba nauczająca na jego podstawie jakiś model w późniejszym terminie. Tylko jak to zrobić? Zadanie w sumie nie jest wcale aż tak trudne, jak mogłoby się wydawać. Można po prostu kupić jakąś domenę, która wygasła. Wraz z upływem czasu od pierwszej publikacji datasetu ilość takich domen sukcesywnie się zwiększa, to całkiem normalna sprawa. I jest tak również w przypadku tych zawartych w indeksach. Można więc poszukać takich, które nie tylko już wygasły, ale też powtarzają się wielokrotnie w zbiorze danych. Maksymalizujemy w ten sposób swoją inwestycję, bo kupujemy raz, a mamy wpływ na proporcjonalnie większą część zebranych danych. Badacze sprawdzili więc ile domen z pewnego popularnego datasetu można odkupić i ruszyli na zakupy kilku z nich, aby przeprowadzić testy. Ekstrapolując ze swoich własnych zakupów przyjęli teoretyczne założenie wykorzystania dość skromnego budżetu tysiąca dolarów i sprawdzili jaki odsetek rekordów są w stanie przekierować do kontrolowanej przez siebie infrastruktury. Uzyskali widełki od dwusetnych do prawie ośmiudziesiątych procenta danych zawartych w indeksie. Nawet zakładając, że rzeczywista wartość jest gdzieś w środku tego zakresu, daje to naprawdę niezły wynik. Współczynnik ten zresztą rośnie wraz z wiekiem datasetu, bo szansa, że jakaś domena w nim zawarta wygasła jest znacznie większa po paru latach niż po paru tygodniach od publikacji. Czy to znaczy, że problem ten nie dotyczy nowych datasetów wcale? No niestety nie. Są one co prawda mniej narażone, ale nadal znajdą się w nich jakieś zombiaki. Dlaczego? Stworzenie zbioru danych też przecież trwa. Od zebrania listy odnośników do publikacji mija jakiś czas, w którym biorąc pod uwagę ilość danych, statystycznie jakaś domena pewnie wygaśnie i nie zostanie odnowiona. Dobra, ale co z tymi już kupionymi domenami? Badacze skonfigurowali na nich serwery WWW i ruszyli do obserwacji. Stosując odpowiednie filtry i odrzucając różne automatyczne zbieracze danych, udało im się ustalić, że nawet najstarsze datasety są w dalszym ciągu wykorzystywane. Może nie często, bo średnio jakieś trzy razy w miesiącu, ale to nadal coś. W przypadku nowszych oczywiście jest tych pobrań odpowiednio więcej. O ile więcej? W trakcie półrocznej obserwacji próbowano pobrać ich dane około 800 razy. Nawet jeżeli nie każde pobranie oznacza trenowanie nowego modelu, bo relacja ta na pewno nie wynosi jeden do jednego, to kilka, kilkanaście czy nawet kilkadziesiąt modeli korzystających do nauczania ze zmodyfikowanych danych robi wrażenie. Badacze mieli jednak sumienie i zamiast zwracać zdjęcie walaszka, po prostu serwowali błąd 404, aby nie zakłócać działania procesu trenowania. Zresztą dobre intencje potwierdza ich deklaracja, że domeny, które kupili, chętnie zwrócą ich prawowitym właścicielom, jeżeli wygasły w efekcie przypadku czy też błędu. Co pewnie nikogo nie dziwi, nikt nie skorzystał z ich propozycji. Czy więc rozwiązaniem problemu jest przechowywanie danych wykorzystywanych do nauczania lokalnie, aby uniknąć takich rozbieżności? Może po prostu wystarczy pogodzić się z potężnymi rozmiarami plików, koniecznych do jednorazowego pobrania i tyle? Dobrym przykładem w tej kwestii może być choćby Wikipedia, uznawana szeroko za źródło naprawdę świetnej jakości danych. I to nie miejsce na kłótnie, czy tak jest naprawdę, czy też nie, po prostu przyjmijmy na potrzeby tego odcinka takie założenie. Nie dziwne więc, że często wykorzystuje się ją jako źródło danych dla nauczania modeli językowych. No ale każdy przecież może ją edytować, prawda? Więc tym łatwiej coś podstawić i wcale nie trzeba kupować wygasłych domen. I tak, i nie. Bo tak, łatwo ją edytować. Ale też bardzo szybko zmiana taka zostanie cofnięta przez moderatorów. Jest jednak pewna cecha, która może pomóc zaatakować taki zbiór danych. I o dziwo jest to coś, co miało w zamyśle chronić Wikipedię przed masowym, automatycznym pobieraniem z niej wszystkich informacji przez różne scrapery. O czym mowa? Okresowo raz na jakiś czas przeczesuje się ją całą i tworzy kolejną wersję całego datasetu. Taki zrzut. Nie indeks, a kompletny zbiór danych. Ba, wiki robi coś takiego nawet we własnym zakresie dwa razy w miesiącu, aby setki różnych automatów nie przeczesywały jej wiele razy dziennie, a po prostu sami udostępniają te dane i każdy może sobie pobrać je na swoją lokalną maszynę, aby dalej je wykorzystać. To nawet nie musi być ich dobra wola, ale jest to po prostu tańsze. Jeżeli atakujący wie, kiedy tworzenie takiego zrzutu ma miejsce, co nie jest trudne, bo to proces automatyczny i dobrze udokumentowany, można tuż przed samym startem tego procesu zmodyfikować zawarte na wiki dane. Taki wandalizm jest bardzo szybko wycofywany, ale dobrze trafiając w okienko czasowe, można sprawić, że zanim ktoś wycofa zmiany, zostaną one zarchiwizowane, a tym samym atakujący uzyska wpływ na powstały w ten sposób dataset. Ba, zmiana ta pozostanie w tej jego wersji już na zawsze. Ile więc artykułów w takim zrzucie może udać się zmodyfikować? Na szczęście badacze nie sprawdzili tego na żywym organizmie. Wandalizowanie wikipedii nie jest czymś, co powinno się robić, nawet w szczytnych naukowych celach. Usiedli jednak do wielu obliczeń i analiz stosując liczne założenia, którymi nie będę Was zanudzał, więc podeprę się tylko końcową wartością. Szacują, że byliby w stanie wstrzelić się ze zmodyfikowaniem w takim zrzucie około 6% danych, co jest wartością ogromną i nawet jeżeli przeszacowali się o rząd wielkości, to nadal robi to spore wrażenie. Zresztą jest to wartość dotycząca anglojęzycznej wiki. Inne, mniejsze języki powinny raczej być łatwiejsze do zainfekowania, nawet biorąc pod uwagę różne automatyczne mechanizmy obronne internetowej encyklopedii. Choć warto pamiętać, że to tylko teoretyczne założenia, więc podejdźcie do nich z odpowiednią rezerwą i wątpliwością. Tylko jakie w ogóle mogą być tego skutki? Badacze postanowili zasymulować, co stałoby się, gdyby celowo podmienić np. jakieś obrazy w datasecie. W tym celu manualnie zmienili pewną bardzo niewielką ich część, czyli około tysiąca, co stanowi jakiś śmieszny ułamek procenta całego zbioru danych. Efekt? Udało im się z 60% skutecznością spowodować błędne zaklasyfikowanie przez model obrazów w kategorii, którą postanowili zatruć. Model, który oczywiście nauczono takim zatrutym zbiorem danych. W przypadku innego przetestowanego modelu ta sama wartość tysiąca obrazów pozwoliła na uzyskanie nawet 90% sukcesu. Oznacza to, że nawet niewielkie zmiany wprowadzone celowo w danych, które wykorzystuje się do nauczania, mogą prowadzić do bardzo poważnych skutków. Nie tylko pomyłek, ale również celowego klasyfikowania czegoś w sposób błędny. W ten sposób jakiś sprytny atakujący może sprawić, że model zdjęcia owczarków niemieckich będzie uznawany za śmieszne kotki. A tego byśmy nie chcieli. Jeżeli teraz zadajecie sobie pytanie, ile to kosztuje, myśląc, że jakieś miliony monet, więc nie ma na to najmniejszej szansy, to spieszę wyprowadzić Was z błędu. Badaczom udało się zatruć jedną setną procenta danych z datasetu, wydając jakieś 60 dolarów. Procentowo ta wartość może nie robić wrażenia, ale taka ilość w zmyślny sposób wprowadzonych zmian może naprawdę nieźle namieszać. Cóż, o rząd wielkości mniejsza ilość, jedna tysięczna procenta, jest w stanie wpłynąć na modele nauczane na datasetach, które nie są w pełni nadzorowane. Badacze sprawdzili ponadto, czy istnieją jakieś przesłanki, że ataki takie zostały przeprowadzone. Ich zdaniem na szczęście nic nie potwierdza tej tezy, no ale to znaczy tylko, że nie znaleźli śladów, a nie, że tego nie zrobiono. Jeżeli będziemy nauczać modele zbiorem danych, na który każdy może mieć wpływ bez ponoszenia żadnych dodatkowych kosztów, to atak tej kategorii staje się dziecinnie łatwy do przeprowadzenia. Można go nawet zautomatyzować. W efekcie modele będą generować komentarze, na których uczyć będą się kolejne modele, które będą poprawiać wyniki, które widzimy w wyszukiwarkach. Coś, co miało pomóc rozwiązać palący problem, prawdopodobnie będzie miało dokładnie odwrotny skutek do zamierzonego. Katastrofa wydarzy się nie tylko szybko, ale również spektakularnie. Co robić i jak żyć? Czy możesz spodziewać się ataków tej kategorii w szczególności, jeżeli nauczasz swoje modele językowe? Jeszcze jak! Biorąc pod uwagę stosunek ich kosztów do ewentualnych konsekwencji, naiwnością byłoby uważać, że nikt nie próbuje tego robić. Czy przed takim atakiem można się jakoś obronić? Tak. Jednak leży to po stronie autorów modeli i datasetów. Badacze zaproponowali wprowadzenie kryptograficznego sprawdzania, czy dane zebrane w indeksie, do których uzyskuje się z jego wykorzystaniem dostęp, są tymi samymi danymi, które pierwotnie sklasyfikowano. Mechanizm taki wprowadzili już niektórzy twórcy zbiorów danych, jednak nie jest on szeroko wykorzystywany. W sumie to można powiedzieć, że tworzone są dopiero podwaliny pod taki system. Oby się to wkrótce zmieniło, bo prace badaczy udowadniają, że jest to konieczność. Dlatego jeżeli masz do wyboru zbiór danych podpisany kryptograficznie i taki niepodpisany, to skorzystaj z tego pierwszego. Druga rada dotyczy datasetów będących pełnymi zrzutami, a nie tylko indeksami. Jeżeli okresowo jakiś dataset jest aktualizowany, dobrze byłoby ten czas w jakiś sposób uprzypadkowić, aby nie działo się to w przewidywalnych odstępach czasu. W ten sposób atakujący nie będzie mógł łatwo przewidzieć, kiedy coś zmodyfikować, aby mieć jak największy wpływ. To zagrożenie istnieje, jest realne i nie da się go wyeliminować w pełni. Czym większą ilością danych się posługujemy i czym bardziej automatyzujemy procesy i ich analizy, tym mniejszą mamy kontrolę nad tym, co znajduje się w środku. Oraz co dostajemy, kiedy użyjemy takich narzędzi. Pamiętaj o tym, opieranie całego procesu na zaufaniu do wszystkich jego stron prowadzić może w prostej drodze do katastrofy, albo przynajmniej jakiejś małej aferki. I to już wszystko na dziś. Tymczasem dziękuję za Waszą uwagę i do zobaczenia. Napisy stworzone przez społeczność Amara.org

Menu

Is this the end of the internet as we know it? - Poisoning the sources of knowledge (film, 21m)

Toggle timeline summary

Transcription