How LLM benchmarks work and what they really test? (film, 18m)

Rynek dużych modeli językowych, czyli LLM-ów i sztucznej inteligencji nie stoi w miejscu. Co kilka tygodni, a czasem nawet dni albo godzin dowiadujemy się o nowych modelach, które są przedstawiane jako lepsze niż inne istniejące już modele. Lepsze! Ale co to właściwie znaczy lepsze? W porównaniu modeli mogą nam pomóc benchmarki, ale czy na pewno można im wierzyć? Czy modele nie są specjalnie podkręcane, aby w benchmarkach wyglądały lepiej niż w rzeczywistości? Pamiętam, że w swoim pierwszym projekcie wydałem duże pieniądze na model, który wcale nie był najlepszy dostawianych przed nim zadań. Dlatego w tym odcinku pokażę Ci jak odczytywać benchmarki, abyś zaoszczędził czas i pieniądze. Możliwe nawet, że już spotkałeś się z wykresami porównującymi modele, gdzie różne słupki podpisane były hasłami typu MMLU, Super Glue, GPQA, MAF500, SVI itd. Pewnie tak jak większość osób omijałeś te nazwy, ale za 15, może 20 minut będziesz rozumiał testy AI lepiej niż 90% osób w branży. Także zaczynamy! Zacznijmy może od tego, że istnieje ogromna liczba różnych benchmarków. Wiele z nich tworzonych jest przez instytucje naukowe i akademickie, które potrzebują obiektywnych narzędzi do oceny efektów prac badawczych. Są też różne inicjatywy społecznościowe, open source lub organizacje non-profit, które również oceniają modele. Ale uwaga! Istnieją także benchmarki, za którymi stoją firmy wydające modele językowe. Dokładnie tak. Benchmarki mają bardzo duży potencjał marketingowy i reklamowy. Dlatego firmy takie jak Google, Meta, OpenAI czy Antropic tworzą własne benchmarki lub metryki, aby zaprezentować swoje modele, no nazwijmy to w takim lepszym świetle. To trochę tak jak popularne reklamy dwóch sklepów, tego czerwonożółtego i niebieskożółtego, które prześcigają się w przekonaniu nas, kto ma taniej. Każdy sklep wybiera metodologię pomiaru tak, aby to jego było na wierzchu, przekonując nas, że u nich jest najtaniej. Ale czy możemy coś na to zaradzić? Pokażę Ci kilka popularnych benchmarków, abyś lepiej rozumiał jak działają i co rzeczywiście sprawdzają. Pierwszy z nich to GLUE, choć może bardziej GLUE, bo jest to skrót od General Language Understanding Evaluation, czyli taka ocena ogólnego rozumienia języka. Inicjatorami tego benchmarku byli badacze z Nowego Jorku, Waszyngtonu i firmy DeepMind. Ten benchmark powstał w 2018 roku i składał się z 9 grup zadań. Co jednak ciekawe, te zadania okazały się za proste i już rok później opracowany został nowy benchmark nazwany SuperGLUE. SuperGLUE składa się z 8 grup zadań, które można podzielić na 3 główne kategorie. Pierwsza grupa to zadania z wnioskowania. Zobacz przykład. Przekazujemy do modelu dwa zdania. Zdanie A – wszyscy studenci zdali egzamin oraz zdanie B – nikt nie oblał egzaminu. Model musi jasno określić, czy zdanie B wynika logicznie ze zdania A. W tym zadaniu model ma do odgadnięcia 3000 takich par zdań, a mierzona jest dokładność, czyli ile procent zdań zostało poprawnie opisanych. Innym przykładem zadania z wnioskowania jest identyfikacja implikowanych zobowiązań. Może brzmi skomplikowanie, ale zobacz przykład. Mamy potencjalną obietnicę, czyli zdanie. Jan zadeklarował, że przekaże darowiznę na cele charytatywne. Oraz hipoteza. Jan ma zamiar wspierać organizację non-profit. Model musi określić, czy hipoteza wynika z obietnicy, czy jest z nią w sprzeczności, czy nie ma żadnego związku. Najlepszy model uzyskuje w teście rozpoznawania implikowanych zobowiązań około 91% poprawnych odpowiedzi, natomiast ludzka skuteczność wynosi około 84%, czyli nieco mniej. Rozumienie zobowiązań jest kluczowe w aplikacjach takich jak analiza umów, obsługa klienta, czy moderacja treści, więc jeśli modele sobie z tym radzą, to chyba fajnie. Kolejna grupa zadań w benchmarku Super Glue sprawdza rozumienie kontekstu. Te zadania mogą się dla ludzi wydawać proste, ale dla modeli językowych już niekoniecznie. Zobacz przykład. Mamy zdanie A. Bank ogłosił nowe stopy procentowe. Oraz zdanie B. Miał stopy małe i brudne. Pytanie brzmi, czy słowo stopy ma takie same znaczenie w obu zdaniach? Oczywiście my wiemy, że nie, ale model już niekoniecznie. Inne zadania z tej grupy są związane z referencjami zaimków. Mamy zdanie. Samochód nie zmieścił się pod mostem, ponieważ był zbyt wysoki. Oraz pytanie. Co było zbyt wysokie? Oczywiście poprawna odpowiedź to samochód. Jeśli model tak odpowie, to ma punkta. Trzecią grupą zadań w teście Super Glue są pytania wielokrotnego wyboru. To takie pytania, które pewnie każdy pamięta ze szkoły. ABCD albo prawda fałsz. Ale myślę, że w zadawaniu takich pytań przoduje inny powszechny benchmark – MMLU. MMLU, czyli Massive Multitask Language Understanding, został wprowadzony w 2020 roku przez zespół badaczy z Uniwersytetu Kalifornijskiego w Berkeley. MMLU sprawdza wiedzę ogólną z 57 różnych dziedzin. Od fizyki kwantowej po filozofię moralną. Model dostaje bagatela. 15 tysięcy pytań na poziomie studiów licencjackich albo nawet wyższych. Przykłady pytań? Proszę bardzo. Jaka jest jednostka strumienia magnetycznego w układzie SI? Czy to Twoja ostateczna odpowiedź? Kto był pierwszym prezydentem Stanów Zjednoczonych? Jesteś pewny? Poprawne odpowiedzi poznasz na końcu. W roku 2024 najwyższy wynik w tym teście osiągnął GPT-4 na poziomie około 86%. Ale nie jest to wcale benchmark z najtrudniejszymi pytaniami. Oczywiście w takim ludzkim rozumieniu trudności pytań. Trudniejszy jest benchmark GPQA. GPQA jest podobny do MMLU, ale zawiera pytania otwarte. Model musi sam wygenerować odpowiedź, a nie tylko wybrać ją z listy, a jak wiadomo w ABCD zawsze można strzelać. Zadania w GPQA wymagają często logicznego rozumowania, analizy kontekstowej i wieloetapowego wnioskowania. Jedno z pytań GPQA brzmi. Jeśli każda osoba na świecie podarowałaby jedną złotówkę na cel charytatywny, to ile pieniędzy by zebrano? Wiecie? Jeśli nie to zapytajcie czy to GPT albo swój ulubiony model. To, że jest to trudny test potwierdzają wyniki. W 2024 roku najlepszym modelem w tym teście był GPT-4 i osiągnął tylko 35% dokładności. Cieniki ludzi, ekspertów z danych dziedzin osiągają poziom 90%, więc w tym temacie jeszcze trochę brakuje sztucznej inteligencji do tej prawdziwej. Mimo, że benchmarki badające wiedzę są ciekawe, to nie wiem jak wam, ale mi się wydają takie bardzo akademickie, a modele AI powinny też rozwiązywać prawdziwe problemy biznesowe. Mówi Zimasz, bo do porównania jak radzą sobie modele z biznesowymi problemami też powstały benchmarki. Taubench to zestaw dwóch benchmarków, retail i airline, stworzonych przez Tel Aviv University. Benchmarki te testują użyteczność modeli w handlu detalicznym i liniach lotniczych. Czyli w zasadzie co? A to zobacz przykładowe pytania. Zaproponuj optymalną cenę dla nowego produktu, uwzględniając cenę konkurencji i elastyczność cenową popytu. Zaproponuj optymalną trasę dla nowego połączenia między miastami A i B, uwzględniając koszty paliwa, czas lotu i potencjalny popyt. Podziel bazę klientów na segmenty na podstawie historii zakupów i demografii. Zaproponuj rozwiązanie dla pasażera, którego lot został odwołany, biorąc pod uwagę dostępne alternatywy i status lojalności klienta. W takich testach modele muszą radzić sobie z nieprzewidywalnymi zdarzeniami, balansowaniem między efektywnością operacyjną a satysfakcją klienta, czy uwzględniać złożone regulacje prawne. Nie wiem jak Wy, ale ja poznając te przykładowe pytania mam taką myśl. Jak to jest w ogóle sprawdzane? To znaczy skąd wiadomo, że model poprawnie odpowiedział? Otóż Taubench bazuje na przykład na danych historycznych, które są przekazywane do modelu jako symulacja realnego środowiska. Poza tym stosowane są też oceny eksperckie. Na przykład specjaliści obsługi klienta oceniają odpowiedzi modelu. Czy można temu ufać? Nie wiem, bo nawet najlepsze symulacje nie oddają pełnej złożoności ludzkich reakcji i emocji. A jeśli już jesteśmy przy emocjach, to sztuczna inteligencja i modele językowe wzbudzają bardzo dużo emocji w obszarze programowania, więc i takie benchmarki powstały. Na przykład SVE Bench Verified. Ten benchmark sprawdza umiejętność modelu do wykonywania rzeczywistych zadań programistycznych. Benchmark składa się z pięciu kategorii zadań. Debugowanie, refaktoryzacja, implementacja funkcji, optymalizacja wydajności oraz integracja API. Zadania są podzielone na różne grupy trudności, a także na języki programowania i technologię. Co ciekawe, każde rozwiązanie jest weryfikowane przez doświadczonych programistów. Stąd słówko VERIFIED w nazwie benchmarku. Może Was to już nie zaskoczy, ale ten benchmark stworzył zespół OpenAI. Modele od OpenAI wiodły prym w kodowaniu, ale obecnie to Cloud Sonnet 3.7 od Antropic chwali się najwyższym wynikiem. Jest to też taka ciekawa sytuacja, bo Antropic podając wynik posługuje się dwoma liczbami. 62,3% oraz 70,3%. Jak można przeczytać w wyjaśnieniu, wynik 70,3%, czyli ten wyższy, to wynik bez uwzględnienia zadań, których nie da się uruchomić na ich infrastrukturze. Osobiście korzystam do oprogramowania z modeli Cloud znacznie częściej niż w chat GPT. Planuję zrobić niedługo film o połączeniu Cloud Sonnet 3.7 z edytorem kursora AI. Jeśli nie chcesz go przegapić, to zapisz się do mojego newslettera. Link znajdziesz w opisie. Czytam właśnie, że Bielik, nasz polski model językowy dołączył do benchmarku ScandEval. Wiecie co? Zadzwonię do Krzyśka Wróbla z zespołu Bielika i NLPol. Może powie nam coś więcej o tym benchmarku. Cześć Krzysztof. Widziałem, że Bielik dołączył do benchmarku ScandEval. Możesz nam powiedzieć co nieco o tym benchmarku? Cześć. Otóż ScandEval parę dni temu zmienił nazwę na EuroEval. Powstał on jako hobbystyczny projekt zaczynając od języka duńskiego, a następnie został rozszerzony o języki niemiecki, angielski, francuski, holenderski, szwedzki, norweski, islamski i farerski. Obecnie jest prowadzony przez dwóch duńskich naukowców, a projekt jest finansowany przez Unię Europejską w ramach projektu Trust LLM. Zadania w tym benchmarku obejmują analizę sentymentu, czyli czy tekst ma wydźwięk pozytywny, negatywny czy neutralny. Są też zadania związane z rozpoznawaniem jednostek nazwniczych, np. nazw miejsc, osób, organizacji. Zadania związane z odpowiadaniem na pytania oraz zadania dotyczące poprawności językowej, np. klasyfikacja czy tekst jest poprawny gramatycznie. Które miejsce w ogóle Bielik zajął w tym benchmarku? Bielik został zgłoszony w kategorii modeli wielojęzycznych i zajął dziewiąte miejsce na 67 modeli. Pierwsze pozycje w rankingu zajmują m.in. płatne, zamknięte modele np. od OpenAI czy Antropic. Natomiast Bielik uzyskał wyższy wynik niż modele np. Lama od Mety, Hike od Antropica, Granit od IBM, Falcon czy Euro LLM. Moim zdaniem dziewiąte miejsce to bardzo dobry wynik, w szczególności, że Bielik był trenowany tylko na tekstach w języku polskim i angielskim. Okazuje się, że osiąga dobre wyniki w innych językach. Taka ciekawostka, kontynuując retrening lub dotrenowując model językowy, łatwo jest popsuć taki model. Tzn. po takim treningu czy fine-trainingu jego wyniki okazują się niższe niż tego oryginalnego modelu. Nam udało się zwiększyć wyniki nawet w innych językach poprzez transfer wiedzy. Jestem bardzo ciekaw wyników Bielika w wersji trzeciej, gdy faktycznie do treningu wyłączymy dane z innych języków. Warto też pamiętać, że leaderboardy to wskazówka. Które modele warto rozważyć w pierwszej kolejności w naszym zastosowaniu, w naszym konkretnym problemie. Sprawdzamy kilka, wybieramy ten najlepiej działający i najbardziej efektywny. Trzeba też uważać w przypadku zadań benchmarkowych publicznie dostępnych, bo niektóre modele mogą być trenowane na tych zadaniach, przez co uzyskują nieuczciwą przewagę i ich wyniki stają się nieporównywalne z tymi modelami, które nie były trenowane dokładnie na tych samych zadaniach, które są używane w benchmarku. Tak, trzeba na to uważać. A czy planujecie zgłaszać jeszcze Bielika do innych benchmarków? Zgłaszamy Bielika do wielu benchmarków. Każda informacja może się przydać przy pracy nad kolejną wersją. Niektóre rankingi mają cały proces zautomatyzowany. Wypełnia się formularz z nazwą modelu i po jakimś czasie można zobaczyć wyniki w tym rankingu. Inne leaderboardy po zgłoszeniu modelu musimy po prostu odczekać, aż autorzy włączą tę ewaluację ręcznie i umieszczą wyniki na stronie. Może to trwać właśnie jakiś czas. Spotkaliśmy się też z odmową ewaluacji modelu. To było na European Leaderboard. Autorzy przyjęli kryterium, że modele muszą być trenowane od zera, żeby je zewaluowali i umieścili w rankingu. Jeszcze mamy dosyć pokaźną grupę polskich benchmarków. Tam raczej nie musimy zgłaszać Bielika. Zazwyczaj jest uwzględniany. Ostatnio też dołączyliśmy do ważnego benchmarku związanego z function calling, co będziemy adresować w wersji trzeciej Bielika. Berkley Function Calling Leaderboard testuje właśnie możliwość modelu do używania funkcji, narzędzi, żeby model mógł natywnie generować zapytania do zewnętrznych API. Przykładem zastosowania takiej umiejętności modelu jest integracja z systemami informatycznymi, na przykład uruchomienie Bielika z Home Assistant, czyli takim oprogramowaniem do internetnych domów. Pracujemy też nad nowymi naszymi benchmarkami. Pierwszy z nich ma dotyczyć podchwytliwych pytań. Chcemy też wydać nową wersję Open PLL Leaderboard. Będzie miała ręcznie zweryfikowane pytania i odpowiedzi oraz będzie taki zgrabniejszy, szybszy do policzenia. Też planowana jest nowa wersja MPBench, czyli takiego benchmarku, który testuje wieloturowe, takie swobodne wypowiedzi modelu. Ok, dzięki Krzysztof za te wszystkie informacje. Bielik jak zwykle ambitnie leci do przodu, także do usłyszenia przy kolejnej okazji. Mam nadzieję, że od teraz będziesz lepiej rozumiał, jak wyglądają popularne benchmarki. Krzysztof wspomniał jeszcze o benchmarku Function Calling. Jest to bardzo ważna funkcja modelu w kontekście agentów AI. Opowiadałem o niej w jednym z poprzednich filmów, więc zachęcam do obejrzenia oraz oczywiście do subskrypcji mojego kanału. Do zobaczenia!

Menu

How LLM benchmarks work and what they really test? (film, 18m)

Toggle timeline summary

Transcription