Dlaczego twoje AI daje nudne odpowiedzi? Wszystko przez temperaturę (film, 23 min)

Czy wiedziałeś, że możesz całkowicie usmażyć mózg dla sztucznej inteligencji? Co więcej, jeżeli kiedykolwiek byłeś sfrustrowany tym, że używając np. chata GPD albo innego modelu językowego generuje on za każdym razem inną odpowiedź na wydawałoby się ten sam prompt, jest zupełnie niestabilny lub przeciwnie, potrzebowałeś, żeby w jakiejś sytuacji model był bardzo kreatywny, a on cały czas podążał podobnymi tokami rozumowania i nie byłeś w stanie go wyciągnąć z tej bańki? Pozwól, że zdradzę Ci sekret, który pozwoli Ci korzystać z lepszego środowiska niż chat GPT do rozmowy z modelem, gdzie istnieje pewne pokrętło, z którego korzystają deweloperzy i mogą samodzielnie dostroić tok rozumowania modelu. I Ty też będziesz mógł to zrobić. A więc tym pokrętłem jest temperatura. Jest to parametr ukryty w samym czacie GPT, nie macie bezpośrednio do niego dostępu, ale używając modelu poprzez tak zwane API, co dzisiaj Wam pokażę, jak łatwo możecie bez żadnej wiedzy programistycznej z tego korzystać, albo używając też innych modeli, jak na przykład w AI Studio, korzystając z modelu od Google'a, ten parametr jest dostępny. Jest on, mimo że niedostępny właśnie dla, powiedzmy, szarego użytkownika, jest bardzo kluczowy tak naprawdę do korzystania z modelów językowych, żeby odpowiednio dosterować ich sposób myślenia. Ponieważ ten parametr odpowiada bezpośrednio za kontrolę nad tym, jak daleko może pójść model w dobieraniu sobie, jakie kolejne słowo chce do Was powiedzieć. Żeby trochę bardziej zrozumieć istotę, jak temperatura właściwie działa i na co wpływa, musimy sobie krótko wyjaśnić, jak właściwie model generuje odpowiedzi, bo bez tego trochę ciężko się odnieść, jaką temperaturę ma w tym rolę. Więc tak, teraz to będzie bardzo duże uproszczenie. Chciałbym zrobić odcinek, gdzie dokładnie sobie wyjaśnimy, jak modele językowe generują odpowiedzi, tak żeby w nietechniczny sposób wyjaśnić to dosyć konkretnie, ale dzisiaj sobie po prostu przejdziemy nad tym w taki szybki, prosty sposób. Więc tak, kiedy pytacie o coś model i generuje on odpowiedź, de facto to, czym zajmuje się ten model, jak już pewnie nieraz słyszeliście, to jest odgadnięcie najbardziej prawdopodobnego następnego słowa. Tylko, że jeżeli słyszeliście takie tłumaczenia na przykład właśnie na jakiejś konferencji czy prelekcji, no to właściwie jest to błędne tłumaczenie. Dlaczego? No bo model wcale nie przewiduje najbardziej prawdopodobnego słowa, bo nie musi tego robić, to mu wychodzi za statystyki. Zamiast tego model dostaje listę słów i pewnym rzutem kościoł wybiera, które z tych słów umieścić jako następne. Czyli tam u modela słyszeliście, to jest odgadnięcie najbardziej prawdopodobnego następnego słowa. Tylko, że jeżeli słyszeliście takie tłumaczenia, jakie słowo uważa, że powinien tu na jakiejś konferencji czy prelekcji, no to właściwie jest to błędne tłumaczenie. Dlaczego? No bo model wcale nie przewiduje najbardziej prawdopodobnego słowa, wartości statystycznie dane słowo częściej lubi tego robić, to mu wychodzi za statystyki. Zamiast tego model dostaje listę słów i pewnym rzutem kościoł wybiera, które z tych słów umieścić jako następne. Modelowi to nie zawsze odpowie Wam tak samo, bo gdyby model, tak jak się często tłumaczy, właśnie miał odgadnąć to najbardziej prawdopodobne słowo, to zawsze by brał te z górnej listy. U modelu, kiedy model widzi dotychczasową listę wypowiedzi, no to statystycznie jest w stanie stwierdzić, z jakim właśnie prawdopodobieństwem, jakie słowo uważa, że powinien tu umieścić. I każdy, a w rzeczywistości model, będzie częściej wybierać słowo na górze, ale zdarza mu się też wybierać te słowa, które są niżej na liście. I idzie to potem lawinowo, bo jeżeli model wybiera wartości, statystycznie dane słowo częściej lub rzadziej będzie użyte, żeby je umieścić w tym samym, ponieważ model postanowił trochę skodelowi, to nie zawsze odpowie Wam tak samo. Bo gdyby model, tak jak się często tłumaczy, właśnie miał odgadnąć to najbardziej prawdopodobne słowo, to zawsze by brał te z górnej listy. A w rzeczywistości model, będzie częściej wybierać słowo na górze, ale zdarza mu się też wybierać te słowa, które są niżej na liście. I idzie to potem, jaką rolę ma w tym wszystkim temperatura. Temperatura jest pewnym współczynnikiem, który w zależności, bo jeżeli model wybierze trochę mniej popularne słowo, no to potem, kiedy ma umieścić kolejne słowo w tekście, no to już ten dotychczasowy ciąg tekstu jest inny, ponieważ model postanowił trochę skręcić, co powoduje, że ma w ogóle teraz inny zestaw już słów do wybrania i zaczynamy pędzić w innym kierunku. I jaką rolę ma w tym wszystkim temperatura. Temperatura jest pewnym współczynnikiem, który w zależności od jej wartości, powoduje, że te prawa słów są inne. Mianowicie, w momencie, kiedy temperatura modelu jest niska, to te prawa słów są inne. Mianowicie, w momencie, kiedy temperatura modelu jest niska, to te prawdopodobieństwa słów będą bardziej uwypuklone. Czyli słowa prawdopodobne dostaną takiego boosta i będą wypuklone. Czyli słowa prawdopodobne dostaną jeszcze mniejszą szansę wystąpienia. Z kolei przy wysokiej temperaturze te prawdopodobieństwa zaczynają być wypłaszczane. Czyli słowa, które były bardzo prawdopodobne, były na górze i dostaną jeszcze mniejszą szansę wystąpienia. Z kolei przy wysokiej temperaturze te prawdopodobieństwa zaczynają być wypłaszczane. Szanse wystąpić jako kolejne słowa. I biorąc pod uwagę tą lawinę, o której mówiliśmy, model przy niskiej temperaturze będzie bardzo powtarzalnie zazwyczaj brać te same słowa z góry listy, co również powoduje, że mamy zazwyczaj jedną ścieżkę lub tylko parę sztywnych ścieżek kolejnych słów, które będą mogły wystąpić. W przypadku wysokiej temperatury mamy bardzo dużo prawdopodobnych, które były na górze, zaczynają być coraz bliżej słów, które były mało prawdopodobne. Zgałęzienie, ponieważ każde to kolejne słowo powoduje, że potem ta lista słów jest inna, więc znowu model może pójść i wybrać szansę wystąpić jako kolejne słowo. I biorąc pod uwagę listy, jest to taka podróż w nieznane. Możemy więc sobie wyobrazić, że przy niskiej temperaturze jedziemy sobie pociągiem po ustalonej trasie, brać te same słowa z góry listy, co również powoduje, że mamy zazwyczaj jedną ścieżkę lub tylko parę, kiedy wybieramy wysoką temperaturę, no to jest to właśnie taka podróż w nieznane. A więc mamy przykładowe zapytanie. Zapytaliśmy po prostu modelu Cześć. Model zaczyna w przypadku wysokiej temperatury. Mamy bardzo dużo różnych możliwości, jakie model wybierze następne słowo. No i mamy ranking zgałęzienia, ponieważ każde to kolejne słowo powoduje, że potem ta lista słów jest inna, więc znowu model może pójść i wybrać praktycznie dowolne słowo z listy i tak naprawdę jest to taka podróż w nieznane. Możemy więc sobie wyobrazić, jak się umiewasz. I to jako mniej prawdopodobne, ale też występuje na liście, ale możemy też zobaczyć jeszcze niżej słowo zapatrujesz. I widzimy, że kiedy wybieramy wysoką temperaturę, no to jest to właśnie taka podróż w nieznane. A więc tak, mamy przykładowe zaperatury, te trzy wartości, i model zaczyna nam odpowiadać. Miewasz jako średnio prawdopodobne słowo teraz stało się. No i mamy wysoką temperaturę, no to widzimy, że efekt mamy dokładnie przeciwny. Czyli jak się dzisiaj czujesz, jak się dzisiaj miewasz siebie, ponieważ jak się dzisiaj czujesz zostało wypłaszczone i ta różnica jest znacznie mniejsza między słowami i zapatrujesz również zwiększyło swoje szanse z mało prawdopodobnego do takiego całkiem mającego szansę wystąpić. I widzimy, że teraz przy wysokiej temperaturze jest to może nie zupełnie losy. Miewasz i to jako mniej prawdopodobne, ale też występuje na liście. Ale możemy też zobaczyć jeszcze nowe z tych trzech słów, ale powiedzmy, że jest to prawie totolotek, bo każde z tych słów ma realną szansę wystąpienia. Teraz ważna rzecz do zauważenia tutaj jest taka, że słowo czujesz jest bardzo prawdopodobne, umieścisz po prostu znak stopu. Ale jak się dzisiaj zapatrujesz, też słyszymy, że to jest dopiero początek jakiejś dłuższej wypowiedzi. Więc wysoka temperatura może nie tylko wpłynąć na wybranie tego konkretnego tutaj słowa kończącego na kierunku, bo jak się zapatrujesz, ale na co? Więc poczujesz i miewasz. Mielibyśmy z dużym prawdopodobieństwem znak końca wypowiedzi, a przy zapatrujesz zamiast tego mamy temperatury. Te trzy wartości, które widzimy, mogą się zmienić. Jeżeli w danym wypadku wymyślę tak naprawdę jakąś sytuację, gdzie się do czegoś odnosi. To jest ręczna energia kinetyczna naszych cząsteczek. Czyli jeżeli coś jest nagrzane, ma dużą temperaturę, czyli dużo ciepła, to tak naprawdę ma dużo energii w środku, jakby w środku danego obiektu. Czyli cząsteczki, które są w tym obiekcie drgają i się tak bardzo mocno miewasz jako średnią prawdopodobną temperaturę, to znaczy, że te cząsteczki są wolniejsze, mają mniej energii, więc częściej potrafią pozostać w jakiejś powiedzmy kwazistazie czy są w mniejszym ruchu. Dlatego właśnie niska temperatura ma temperaturę. Z kolei mamy mieć taki kocioł, gdzie nie wiadomo dokładnie, co się wydarzy, bo tak samo właśnie jest w fizyce, że ta nieprzewidywalność układu z tą temperaturą będzie rosła. Bo mamy więcej cząstek, które szybko się ruszają. Ustawimy wysoką temperaturę, no to widzimy, że... Wyobraźmy, że to jest właśnie taka cząsteczka w układzie, to przy niskiej temperaturze, kiedy on jest powolny, no to powiedzmy, że on ma siłę tylko tak odbić od jakichś słów, które są faktycznie blisko niego. Podczas gdy go nabył, jakby bardzo wydawałoby się niezwiązane z tematem słowa. I jako reakcja łańcuchowa, znowu przy niskiej temperaturze, tamten delikatnie uderzył obok, no to ten przewidywalnie to siebie, ponieważ jak się dzisiaj czujesz, zostało wypłaszczone i ta różnica jest w znacznie innym kierunku i ta reakcja łańcuchowa jest dużo bardziej nieprzewidywalna. Stąd ta pewna analogia co do temperatury właśnie. Dobrze, więc teraz tak, omówiliśmy sobie krótko czym jest ta temperatura, to teraz omówmy sobie czym nie jest. Ponieważ jeżeli nowość odpowiedzi modelu albo na kreatywność modelu. I oba te twierdzenia nie oddają istoty czym ta temperatura jest i jak jej używać. Zacznijmy od losowości. Nawet jeżeli ustawimy temperaturę modelu na zero, to z samej natury działania modeli jest szanse z mało prawdopodobnego do takiego całkiem mającego szansę wystąpić. W stanie generowym są różne odpowiedzi, bo modele mają pewne elementy losowe i są dość niedeterministyczne. Poza tym temperatura zero nie powoduje właśnie, że jest tylko jedno poprawne słowo, tylko że te współczynniki są już bardzo od siebie wypunktowane w górę i w dół, ale mogą istnieć przypadki, gdzie jakieś słowa są bardzo blisko siebie i nawet nowe z tych trzech słów, ale powiedzmy, że jest to prawie, wiecie, to że te słowa akurat w danym przypadku były bardzo podobne, to nie znaczy, że potem po nich kolejne słowo, które by wystąpiło, to byłaby taka sama hierarchia. Więc i tak to się może rozdzielić. Z drugiej strony przy wysokiej temperaturze, znowu to nie jest tak, że model jest losowy, bo on losuje logicznie, kiedy powiemy, jak się dzieje na jakiejś bazie i przy temperaturze w pewnym sensie zwalniamy blokadę możliwych ścieżek, jakimi model pójdzie. Więc zasób wypowiedzi się zwiększa, ale jak się na to trochę dłużej zastanowić, to ilość wszystkich wypowiedzi modelu matematycznie jest w jakiś sposób skończona. Jest bardzo, bardzo duża, ale istnieją wypowiedzi, których model nie wygeneruje, bo np. nie ma takiej wiedzy albo wagi są tak stworzone, że po prostu nie ma szansy dana wypowiedź wystąpić. Więc siłą rzeczy ta kreatywność ma pewne limity. Model, jeżeli np. nie zna mnie, nie ma nigdzie w bazie Dominik Ficiukiewicz nawet, jako takiego zestawienia imiona z Fiskorem, umieścić po prostu znak stopu. Ale jak się dzisiaj zapatrujesz, też słyszymy, że to jest dopiero początek jakiejś dłuższej wypowiedzi. Więc wysoka temperatura może nie tylko wpłynąć na wybranie tego konkretnego słowa kończącego, może właściwie spowodować, że ta rozmowa pójdzie znacznie dalej i w znacznie innym kierunku, bo jak się zapatrujesz, ale na co? Więc poczujesz i nie masz. Mielibyśmy z dużym prawdopodobieństwem znak końca wypowiedzi, a przy zapatrujesz Ficiukiewicz, ponieważ dane treningowe i sposób trenowania modelu nie pozwoliły stworzyć sytuacji, w której sieć neuronowa spowoduje, że odpowiedź Dominik Ficiukiewicz po stwierdzeniu prezydentem Polski jest, może w ogóle wystąpić na liście. Jeżeli to nie ma szansy wystąpić na liście odpowiedzi modelu, to żadna kreatorka wymyśla tak naprawdę jakąś sytuację, gdzie się do czegoś odnosi. Dlaczego właściwie ten parametr nazwano temperaturą? Jak działa temperatura w naszym świecie? Temperatura to jest tak naprawdę wewnętrzna energia kinetyczna naszych cząsteczek, czyli jeżeli coś jest nagrzane, ma dużą temperaturę, poprosić by takie zdanie powiedział, ale mówimy tu o takim po prostu właśnie przypadku, gdzie siadacie z bomby, tylko zadajecie pytanie, kto jest prezydentem Polski. W takim bardzo konkretnym przypadku ilość odpowiedzi, które możecie otrzymać, jest w jakimś sensie jednak ograniczona. Model nie wymyśli czegoś zupełnie od czapy, czego nie przygotowały go dane treningowe. To jest uwaga Bartku danego obiektu, czyli cząsteczki, które są w tym obiekcie drgają i się tak bardzo mocno szybko ruszają, bo mają dużą ilość energii. Z kolei jeżeli ciało ma niską temperaturę, bardzo bliskiej zera albo nawet zero, żeby upewnić się, że odpowiedź jest stabilna i poprawna. Temperatura zero powoduje, że będziecie otrzymywać bardzo powtarzające się wyniki zazwyczaj, ale czy to oznacza, że ten wynik będzie poprawny, skoro jest powtarzalny? Nie. Wynik może być systematycznie błędny. Dlaczego? Ze względu na to, że ludzie mylą dokładność z precyzją. I tu sobie na chwilę wrócimy właśnie do tego, czego się człowiek uczy chociażby na fizyce, elektryce, matematyce, różnych takich przedmiotach inżynierskich. Jak zobaczymy sobie na wykres dokładności i precyzji, to widzimy, że dokładność jest związana z różnicą między wynikiem prawdziwym, a według krzywej gałsa, powiedzmy tym punktem, wokół którego wyniki nam się zbierają, czyli im dalej wypadkowa naszych wyników od prawdziwej wartości, tym dokładność była gorsza. Precyzja to jest z kolei rozpiętość tego naszego gałsa. I w przypadku temperatury bardzo wysokiej mamy wysoką rozpiętość, a w przypadku temperatury niskiej mamy małą rozpiętość, czyli odpowiedzi przy bardzo niskiej temperaturze możemy powiedzieć, że są bardzo precyzyjne. Ale co z tego, że są bardzo precyzyjne, jeżeli wypadkowa tych odpowiedzi dalej jest bardzo daleko od dokładności. I tak jak możecie zobaczyć sobie na tym obrazku, bardzo często będzie tak, że przy użyciu niskiej temperatury możecie się zaciąć na tym, że właśnie model będzie bardzo precyzyjny, dlatego właśnie niska temperatura ma reprezentować takie temperatury w żadnym stopniu nie zapewni was o tym, że odpowiedź faktycznie będzie poprawna i dokładna, będzie po prostu stabilna, nie będzie się za bardzo zmieniać. Co też powoduje, że często przy niskiej temperaturze, jeżeli ten właśnie prawdopodobny tok rozumowania modelu jest błędny w jakiejś sytuacji, to odcinacie się od możliwości uzyskania poprawnego rozwiązania. Przy podkręceniu wyższej temperatury dalej istnieje duża szansa, że model statystycznie będzie wam produkować głupoty, ale niektóre z tych odpowiedzi mogą być prawdziwe. I teraz, z wywiad przy automatyzacji niewiele to daje, ale jeżeli już człowiek ma sobie przejrzeć na przykład 50 wersji odpowiedzi modelu, no to już ta wyższa temperatura powoduje, że jest szansa, że któraś wersja wpadnie faktycznie na kreatywny, dobry pomysł na rozwiązanie, podczas gdy przy niższej temperaturze sobie te alternatywy ucinamy. Więc czasami rozproszenie tej niższej precyzji może powodować, że to kółko wszystkich wyników może objąć dokładność w swoim kółku. Nie zawsze obejmie, może zrobić unik, ale jest szansa, że akurat ta dokładność się zmieści w zbiorze i któraś kropka wyląduje na tej dokładności. Więc teraz tak, przypadek praktyczny, jak zarówno niskiej temperaturze, z kolei mamy mieć taki kocioł, gdzie nie mamy błędną odpowiedź na pytanie. Spytałem modelu, jak widzicie, jakie są wszystkie kraje na literę V. I w przypadku niskiej temperatury, niskiej, czyli 0, model wymienił mi takie kraje jak na przykład Włochy, Wietnam, które są na W w naszym języku. Więc generalnie odpowiedź jest zupełnie błędna. Ale ktoś mógłby się przyczepić, że nie określiłem w jakim języku pytam. Dla kontekstu pytany jest tutaj model GPT 4.1. Kiedy spytałem model z normalną temperaturą, no to dostałem odpowiedź trochę bardziej zróżnicowaną, który właśnie sam z siebie wziął pod uwagę, że może nie wiadomo, czy chodzi o język polski, czy może o inny język. Dostałem w pewnym sensie dwa zestawy odpowiedzi, więc model co prawda zaczął być trochę rozwlekły w tej odpowiedzi, ale w sumie w pewnym sensie odpowiedział mi poprawnie. Tylko na zasadzie wybierz sobie, o co Ci chodziło. Ale jako, że nie doprecyzowałem języka pytaniu, uważam to za całkiem okej. I ustawiłem jeszcze temperaturę 2.0 i spytałem modela. I przy temperaturze 2.0 możemy właśnie widzieć, że model po prostu mózg mu się całkowicie sfajczył. Temperatura 2.0 jest tak wysoka, że może ma bardzo prawdopodobne szansę brać słowa, które w ogóle nie pasują do kontekstu. I model przez to może skręcić w taką ścieżkę, od której już nie ma odwrotu, gdzie zaczyna budować wypowiedzi, których żadnej analogii nie ma nawet w danych treningowych, nie ma tam żadnej struktury logicznej i sensu. Model jednocześnie nie jest w stanie się zatrzymać i zaczyna już produkować taką papkę, taki bełkot. Więc tutaj kolejne ostrzeżenie jest takie, że właśnie ustawianie temperatury może doprowadzić do w ogóle zniszczonych, niestabilnych wyników. I częściej się to będzie dziać przy temperaturze skrajnie wysokiej niż skrajnie niskiej, ale to też nie jest do końca reguł. Dobrze, to może się urodzić pytanie, ale na podstawie tego przykładu, czy w ogóle z tej temperatury to warto korzystać. No, czat GPT raczej się tak nie smaży, co do zasady, więc może dobrze, że tam temperatury jest wyłączone. I w wielu sytuacjach tak. Jeżeli zadajecie takie pytanie po prostu jednostkowe, coś do czatu, to tam temperatura 1.0 jest zupełnie okej. Ale jeżeli tworzycie jakiś trochę bardziej zaawansowany produkt, gdzie na przykład tworzycie jakieś klasyfikacje i właśnie potrzebujecie zadbać o to, że macie w jakiś sposób stabilne wyniki dla tych samych zapytań albo dla tej samej treści, kiedy na przykład chcecie, żeby model jakoś opracował, wysunął jakieś wnioski, albo chcecie, żeby faktycznie ten system trzymał się konkretnych ram, albo w drugą stronę, kiedy tworzycie jakiś system, który potrzebujecie, żeby działał bardzo out of the box i nieprzewidywalnie, no to wtedy już ta temperatura jest całkiem użyteczna. Więc, co do zasady, zazwyczaj znacznie jest więcej przypadków, gdzie chcecie tę temperaturę zmniejszyć, bo sama temperatura 1.0 jest już sama z siebie dosyć kreatywna i bardzo właśnie nieprzewidywalna w odpowiedziach. Bo mamy więcej cząstek, które albo wygenerować bardzo nieprzewidywalny tok rozumowania, to podniesienie tej temperatury trochę ponad 1.0 może być całkiem użyteczne. Więc tak, jak się tą temperaturą w ogóle możecie pobawić i poeksperymentować? Polecam dwie najprostsze opcje. Pierwsza, Google AI Studio. To jest strona, na której macie dostęp do modeli od Google, taki jak na przykład Gemini, gdzie możecie korzystać z nich po tak zwanym API, ale w takiej samej formule czatowej, tak jakbyście korzystali właśnie normalnie sobie z czata GPT czy czata od Google. Więc jest to zupełnie normalne, przyjemne środowisko. Jedyna różnica jest taka, że macie tutaj przy okazji różne suwaki, między innymi właśnie temperaturę, które pozwalają wam w trochę bardziej deweloperski sposób skontrolować sobie parametry. Drugi sposób to jest wejść sobie na stronę OpenAI i zalogować się nie na czata GPT, tylko na platformę API. To też robicie sobie normalnie na przykład poprzez konto Google, to może być takie samo konto jak na czata GPT, tylko różnica jest taka, że czat GPT ma jakiś darmowy tier i możecie sobie kupić ewentualnie plan Plus Pro Teams, podczas gdy korzystając sobie z tego tak zwanego API, musicie doładować sobie konkretne pieniądze, bo płacicie za zużycie tokenów, o których sobie jeszcze porozmawiamy, dlaczego właściwie w tokenach rozliczana jest sztuczna inteligencja. I tutaj tak samo, macie wtedy też możliwość umieszczenia sobie właśnie zapytania, odpowiedzi, no i macie parametry, tak jak między innymi temperatura. I polecam wam po prostu, żebyście, jeżeli mieliście na przykład problem, że znaleźliście kiedyś jakiegoś prompta, ktoś zadeklarował, że będzie generować takie i takie odpowiedzi, a widzicie, że to nie działa, to możecie tutaj właśnie pokombinować z temperaturą i zobaczyć, jaka temperatura będzie dla was odpowiednia. A jak do tego podejść potem bardziej metodycznie? Tutaj jest na przykład fajny artykuł Pawła Szczęsnego, który też wam podrzucę w komentarzach, gdzie właśnie udowadnia on, że nawet bardzo niewielkie zmiany w temperaturze potrafią zupełnie... Obrazimy, że model to jest właśnie taka zorganizowane flow pracy, chcecie używać w troszkę bardziej, może nie krytycznych, ale w bardziej istotnych sytuacjach waszego modelu, chcecie faktycznie skontrolować, czy te wyniki będą powtarzalne i będą osiągać satysfakcjonujące dla was rezultaty. Dobrze jest przeprowadzić tak zwaną ewaluację, czyli wziąć sobie tego naszego prompta, w jednej wersji lub w paru wersjach zbudujecie sobie trochę inaczej wypowiedź w tym prompcie i możecie puścić go seryjnie, na przykład po 10 czy po 100 razy, raczej większa liczba jest lepsza niż mniejsza, i na przykład właśnie 50 czy 100 razy dla każdego z pewnych zakresów temperatur, czyli na przykład właśnie dla temperatury 1.0, 0.0, blisko niego. Podczas gdy go nabuzujemy tu temperaturą, będzie on bardzo energetyczny, to jest dużo częściej, skoro poleci i możecie sobie na to pozwolić, no to lepiej jest też poszukać sobie nawet tych wartości pośrednich, bo czasami dla bardzo konkretnego promptu może istnieć akurat bardzo konkretna temperatura, przy której te prawdopodobieństwa dają bardzo specyficzne i ciekawe rezultaty. Więc zdecydowanie polecam, żebyście tworząc sobie właśnie prompty, świadomie korzystali z tej temperatury i sprawdzali dla różnych temperatur, która bardzo wydawałoby się niezwiązana z tematem słowa. I jako reakcja łańcuchowa, znowu przy niskiej temperaturze tamtych waszych potrzeb użytecznych, dzięki temu możecie podejść do tego nie tak na wariata sobie rzucając prompty, licząc, że raz zadziała, raz nie zadziała, tylko możecie osiągnąć faktyczne wyniki. Więc o temperaturze dzisiaj to tyle. Jeżeli chcielibyście się dowiedzieć więcej, to śledźcie ten kanał, piszcie komentarze i o kolejnych waszych pytaniach nagramy również odcinki. Cześć! Przewidywalnie też pewnie uderzy tak po łańcuchu. Przy wysokiej temperaturze wystrzeliła nam ta cząsteczka, uderzyła, jakoś tamta spontanicznie leci w zupełnie innym kierunku i ta reakcja łańcuchowa jest dużo bardziej nieprzewidywalna. Stąd ta pewna analogia co do temperatury właśnie. Dobrze, więc teraz tak, omówiliśmy sobie krótko czym jest ta temperatura, to teraz omówmy sobie czym nie jest. Ponieważ jeżeli już kiedyś o niej słyszeliście, to mogliście usłyszeć też bardzo często określenie, że temperatura wpływa na losowość odpowiedzi modelu albo na kreatywność modelu. Te stwierdzenia nie oddają istoty czym ta temperatura jest i jak jej używać. Zacznijmy od losowości. Nawet jeżeli ustawimy temperaturę modelu na zero, to z samej natury działania modeli, jak zresztą zobaczymy sobie w badaniach, model i tak jest w stanie generować różne odpowiedzi, bo modele mają pewne elementy losowe i są dość niedeterministyczne. Poza tym temperatura zero nie powoduje właśnie, że jest tylko jedno poprawne słowo, bo te elementy są już bardzo od siebie wypunktowane w górę i w dół, ale mogą istnieć przypadki, gdzie jakieś słowa są bardzo blisko siebie i nawet przy temperaturze zero ciężko stwierdzić, które faktycznie powinno częściej wystąpić, bo szanse byłyby 50-50. Co za tym idzie? To, że te słowa akurat w danym przypadku były bardzo podobne, to nie znaczy, że potem po nich kolejne słowo, które by wystąpiło, to byłaby taka sama hierarchia. Z drugiej strony przy wysokiej temperaturze, to nie jest tak, że model jest losowy, bo on losuje słowa zawsze. Model jest wytrenowany na jakiejś bazie i przy temperaturze zwalniamy blokadę możliwych ścieżek, jakimi model pójdzie. Więc zasób wypowiedzi się zwiększa, ale jak się na to trochę dłużej zastanowić, to ilość wszystkich wypowiedzi modelu matematycznie jest w jakiś sposób skończona. Ale istnieją wypowiedzi, których model nie wygeneruje, bo np. nie ma takiej wiedzy, albo wagi są tak stworzone, że po prostu nie ma szansy dana wypowiedź wystąpić. Więc siłą rzeczy ta kreatywność ma pewne limity. Model, jeżeli np. nie zna mnie, nie ma nigdzie w bazie Dominik Ficiukiewicz, nawet jako takiego zostawienia imię, nazwisko, to pytając, kto jest prezydentem Polski, nieważne jakiej temperatury byście nie ustawili, czy wystąpi odpowiedź prezydentem Polski jest Dominik Ficiukiewicz, ponieważ dane treningowe i sposób trenowania modelu nie pozwoliły stworzyć sytuacji, w której sieć neuronowa spowoduje, że odpowiedź Dominik Ficiukiewicz po stwierdzeniu prezydentem Polski jest może w ogóle wystąpić na liście. Jeżeli to nie ma szansy wystąpić na liście odpowiedzi modelu, to żadna kreatywność nie spowoduje, że ta odpowiedź sama się pojawi. Oczywiście nie znaczy to, że model nie jest w stanie takiego zdania powiedzieć, bo mogę go poprosić, by takie zdanie powiedział, ale mówimy tu o takim po prostu właśnie przypadku, gdzie siadacie i z bomby tylko zadajecie pytanie, kto jest prezydentem Polski. W takim bardzo konkretnym przypadku ilość odpowiedzi, które możecie otrzymać jest w jakimś sensie jednak ograniczona. Model nie wymyśli czegoś zupełnie od czapy, do czego nie przygotowały go dane treningowe. To jest uwaga bardziej teraz do osób, które nawet już z temperatury korzystają, ale właśnie mylują z pewną losowością i używają często temperatury bardzo bliskiej zera albo nawet zero, żeby upewnić się, że odpowiedź jest stabilna i poprawna. Temperatura zero powoduje, że będziecie otrzymywać bardzo powtarzające się wyniki zazwyczaj, ale czy to znaczy, że ten wynik będzie poprawny, skoro jest powtarzalny? Nie. Wynik może być systematycznie błędny. Dlaczego? Ze względu na to, że ludzie mylą dokładność z precyzją. I tu sobie na chwilę wrócimy właśnie do tego, czego się człowiek uczy chociażby na fizyce, elektryce, matematyce, różnych takich przedmiotach inżynierskich. Jak zobaczymy sobie na wykres dokładności i precyzji, to widzimy, że dokładność jest związana z różnicą między wynikiem prawdziwym, a według krzywej gałsa, powiedzmy, tym punktem, wokół którego wyniki nam się zbierają, czyli im dalej wypadkowa naszych wyników od prawdziwej wartości, tym dokładność była gorsza. Precyzja to jest z kolei rozpiętość tego naszego gałsa. I w przypadku temperatury bardzo wysokiej mamy wysoką rozpiętość, a w przypadku temperatury niskiej mamy małą rozpiętość, czyli odpowiedzi przy bardzo niskiej temperaturze możemy powiedzieć, że są bardzo precyzyjne. Ale co z tego, że są bardzo precyzyjne, jeżeli wypadkowa tych odpowiedzi dalej jest bardzo daleko od dokładności. I tak jak możecie zobaczyć sobie na tym obrazku, bardzo często będzie tak, że przy użyciu niskiej temperatury możecie się zaciąć na tym, że właśnie model będzie bardzo precyzyjnie Wam odpowiadać, ale jego odpowiedź będzie bardzo daleko od prawdy. Więc niska temperatura w żadnym stopniu nie zapewni Was o tym, że odpowiedź faktycznie będzie poprawna i dokładna, będzie po prostu stabilna, nie będzie się za bardzo zmieniać. Co też powoduje, że często przy niskiej temperaturze jeżeli ten właśnie prawdopodobny tok rozumowania modelu jest błędny w jakiejś sytuacji, to odcinacie się od możliwości uzyskania poprawnego rozwiązania. Przy podkręceniu wyższej temperatury dalej istnieje duża szansa, że model statystycznie będzie Wam produkować głupoty, ale niektóre z tych odpowiedzi mogą być prawdziwe. Zwywiad przy automatyzacji niewiele to daje, ale jeżeli już człowiek ma sobie przejrzeć np. 50 wersji odpowiedzi modelu, no to już ta wyższa temperatura powoduje, że jest szansa, że któraś wersja wpadnie faktycznie na kreatywny dobry pomysł na rozwiązanie, podczas gdy przy niższej temperaturze sobie te alternatywy ucinamy. Więc czasami rozproszenie tej niższej precyzji może powodować, że to kółko wszystkich wyników może objąć dokładność w swoim kółku. Nie zawsze obejmie, może zrobić unik, ale jest szansa, że akurat ta dokładność się zmieści w zbiorze i któraś kropka wyląduje na tej dokładności. Więc teraz tak, przypadek praktyczny jak zarówno niska jak i wysoka temperatura modelu, jak widzicie, jakie są wszystkie kraje na literę V.

Menu

Dlaczego twoje AI daje nudne odpowiedzi? Wszystko przez temperaturę (film, 23 min)

Toggle timeline summary

Transcription