Odpowiedź na ocenę "Bielika" przygotowaną przez Kubę Klawitera (film, 27m)

Kuba Tlawiter nagrał ostatnio film pod tytułem Polski czat GPT nazywa się Bielik i jest głupi, w którym jednoznacznie ocenił stworzony i opublikowany przez polską grupę zapaleńców Spiklish duży model językowy Bielik. I pomimo tego, że na końcu trochę uzasadniam wysiłki związane z tworzeniem takich modeli, to ta krytyka, którą przeprowadził, była na tyle niepoprawna merytorycznie, że musieliśmy się do niej odnieść. To był Michał z Beyond.ai i zanim zacznę dodawać więcej kontekstu tematowi Bielika, to chcę jeszcze zaznaczyć, że nie jesteśmy związani z grupą Spiklish a la Spichlerz, która stworzyła Bielika, natomiast doceniamy ich pracę i postaramy się zaprosić ich na rozmowę do naszego kanału. Ale wracając do merytum. Ocena Bielika, pomimo tego, że przeprowadzona była bardzo fajnie pod kątem dostarczenia rozrywki, była oparta o błędne założenia Nie mamy tutaj do nikogo pretensji, bo nie każdy musi się znać super szczegółowo na wszystkim, ale warto je wyprostować. Po pierwsze, mamy tu porównanie działania komercyjnej usługi, jaką jest chatGPT, do działania modelu Bielik, uruchomionego na testowo-deweloperskiej platformie Hugging Face. Nie wchodząc w szczegóły, to trochę tak, jakby porównać komfort jazdy nowym Mercedesem AMGT 63 S do zbudowanego przez konstruktora amatorów małego, ekonomicznego silnika, podpiętego testowo do ramy gokarta. Jakby nie patrzeć, wrażenia z jazdy muszą być inne. Tutaj warto powiedzieć, jaka jest w ogóle różnica pomiędzy wytrenowanym modelem, na przykład typu Instruct, nawet takim od OpenAI, typu GPT-3, GPT-4 i podobne, a usługą chatGPT czy Microsoft Copilot. Pierwszy z nich to sam silnik. Model, który w wyniku procesu uczenia pozyskał jakąś skompresowaną wiedzę pochodzącą z danych, na których się uczył, który posiada jakieś umiejętności generowania tekstu czy podążania z instrukcjami podawanymi w ramach jego wywołania, ale nic więcej. Ta druga rzecz, czyli usługa, powstaje przez wzięcie takiego modelu bazowego lub modelu typu Instruct i następnie dotunowanie go do zastosowania w aplikacji typu chat. Obudowanie go zestawem promptów systemowych, czyli takich instrukcji, które są dodawane do każdego naszego wywołania, do każdej linijki, którą wpisujemy i których celem jest dodanie odpowiedniego kontekstu wywołania tak, aby model dawał użytkownikowi najlepsze, dopasowane do jego oczekiwań i odpowiedzi. W takim zestawie promptów systemowych mamy często informację o tym, co to jest za model, jak ma się identyfikować, informację o tym, co może robić i jak ma się zachowywać, informację o tym, jaką wiedzę ma w sobie czy informację o tym, jaka jest aktualna data i godzina wywołania, w jakim języku pisze do niego użytkownik, jaka jest jego lokalizacja geograficzna i podobne. Czyli cały kontekst, jaki w zasadzie potrzebny jest do tego, żeby dobrze zinterpretować większość pytań. Do tego w takiej usłudze czata możemy poza samym wywołaniem modelu mieć różne inne dodatkowe mechanizmy, które na przykład pilnują tego, czy użytkownik nie wychodzi poza tematy, na które chcemy, żeby rozmawiał, albo które jeszcze lepiej wspierają to, żeby model dawał lepsze pytania, np. generując kilka różnych odpowiedzi i wybierając najlepszą. Całe to obudowanie tego modelu bazowego decyduje o tym, jak taki czat będzie się zachowywał i tłumaczy różnicę w działaniu np. czata GPT i Copilota Microsoftu, które są oparte na ten sam model, ale zachowują się zupełnie inaczej. Jak korzystaliście z obu, to pewnie zauważyliście, że czat GPT raczej stara się wymyśleć odpowiedź, a Copilot chce wszystko najpierw znaleźć w internecie. Drugą rzeczą jest sama wielkość modelu. Modele takie jak GPT od OpenAI, np. GPT-3 mają wielkość, liczone w ilości parametrów, typu 175 miliardów. GPT-4 jest szacowane na 1,5 biliona po polsku parametrów. Model Bielik jest zupełnie inny od modelu. Jest to model, który ma tylko 7 miliardów parametrów, bo też będzie służył do czegoś innego. Ten model jest, jak widzicie, około 200 razy mniejszy od modelu czata GPT-4. Taki model w trakcie nauki w ramach tych parametrów uczy się wiedzy, która była podana w danych, na których się uczył. Tak naprawdę on sobie ją kompresuje. Im ten model jest mniejszy, tym ta wiedza będzie bardziej skompresowana i mniej dokładna. Możemy to porównać do robienia zdjęć aparatem cyfrowym. Mamy aparat, który ma ogromną matrycę, która ma tam jakieś miliony megapikseli, no powiedzmy, może nie miliony, ale dziesiątki megapikseli, to wiadomo, że takie zdjęcie będzie znacznie bardziej szczegółowe Jeśli weźmiemy jakiś pierwszy prototyp aparatu cyfrowego, który miał dużo mniejszą rozdzielczość. Możemy to sobie zobaczyć na takich przykładach. Tak wygląda zdjęcie zrobione aparatem cyfrowym o dużej rozdzielczości, a tak będzie wyglądało zdjęcie zrobione aparatem cyfrowym o dużo mniejszej rozdzielczości. Drugą rzeczą jest to, że Kuba w ramach swoich testów uruchamiał wersję z kwantyzowaną. Kwantyzacja jest procesem, który pozwala na zmniejszenie modelu. To znaczy, jak mamy nawet te 7 miliardów parametrów to albo każdy z nich będzie miał bardzo szczegółową informację o tym, co tam się znajduje, albo ona będzie teraz mniej szczegółowa. Możemy to porównać trochę do zmiany ilości bitów, jakie reprezentują kolor w obrazku. Tak jak mamy nawet ten nasz mały obraz o małej rozdzielczości, ale gdzie każdy piksel może mieć jeden z 16 milionów kolorów, to on wygląda tak, ale jak będziemy zmniejszali ilość bitów, które reprezentują kolory, to będziemy mieli obraz coraz gorszej jakości i na końcu on już nie będzie przypominał tego, który był na oryginalnym zdjęciu. Podobnie jest z kwantyzacją modeli. Ta kwantyzacja, czyli właśnie zmniejszenie liczby bitów, na których jest zapisywany każdy z parametrów, one powodują, że te modele są coraz mniejsze, dzięki czemu możemy uruchomić je na coraz słabszych komputerach, ale oczywiście tracimy zapisaną wiedzę. Kuba uruchamiał model, który ma 4 bity. Z naszych doświadczeń, wynika, że wszelkie kwantyzacje poniżej 5 bitów zazwyczaj już powodują, że te modele nie są w stanie ani przetwarzać języka, ani wnioskować, ani generalnie nie dają się do niczego. Użycie przez Kubę tego modelu, który miał tylko 4 bity, było problematyczne i na pewno skazywało go na to, że te odpowiedzi będą dużo gorsze niż mogłyby być. Chyba w momencie, kiedy Kuba ten swój odcinek publikował, jedyny model, jaki był dostępny, to był 8-bitowy, dopiero potem skazywał pełny model, ale nawet wzięcie większego modelu dałoby już znacznie lepsze rezultaty. Ale spójrzmy na samą krytykę Kuby i dodajmy trochę więcej kontekstu do uwag, które on zgłasza. Czat z EPP, który nazywa się GIEM jest dostępny, ogólnodostępny i działa, więc poprosiłem go, żeby wam się przedstawił. Pierwszy komentarz jest taki, że to właśnie to nie jest czat, tylko to jest model, który jest rzeczywiście udostępniony za darmo na platformie Hugging Face, tak że każdy deweloper może sobie go ściągnąć, natomiast platforma Hugging Face daje też narzędzia pozwalające na łatwe uruchamianie tych modeli i dokładnie to Kuba zrobił. Z tym, że nie wiedział o tym, że taki model, jak się go uruchamia, ma trochę więcej parametrów i trzeba pewnie wybrać, żeby działał to dobrze, więc wybrał jakiś losowy generalnie i zaczął zadawać mu pytania. Czy mógłbyś przedstawić się naszej społeczności oraz pozdrowić osoby, które w sercu, ale i na, noszą nie tylko flagę biało-czerwoną, ale i klawiaturę? Słuchajcie, jestem Wiepik, najpopularniejsza polska marka laptopów i desktopów. To my też takie rzeczy zrobimy, bo teraz tak, zupełnie nie wiemy, jaki jest prompt systemowy tego modelu. To nie jest model, to jest model typu Instruct, on nie jest do końca przystosowany do tego, żeby po prostu działać w czacie, tylko on wymaga tego, żeby był odpowiednio wcześniej zapromptowany, czyli żeby do tego pytania Kuby o to, kim jesteś, wcześniej nasza aplikacja czatu dołożyła pewien kontekst, na który się będzie poruszał. I w tym momencie po prostu ten model robi jakieś losowe rzeczy. Jeszcze przez to, że jest mały, przez to, że jest kwantyzowany, on będzie generował jakiś tekst, który mu się wydaje prawdopodobny. Bo być może w jego danych testowych były podobne zapytania, tylko tam właśnie takie rzeczy były generowane, więc takie coś generuje. Nie wiem, czy mi się coś nie pomyliło, ale czytam dalej. Reprezentuję Polskę w waszych domach, biurach i szkołach. Codziennie pomagam wam w pracy, nauce, rozrywce i komunikacji ze światem. Chcę was zapewnić, że jestem dumny z tego, że mogę być waszym towarzyszem cyfrowych przygód. A teraz przekażę wam pozdrowienia od moich braci i sióstr, innych marek komputerowych. Niech każdy z was znajdzie sprzęt, który spełni jego potrzeby i marzenia. Według moich informacji, Bielik nie jest marką komputerów. Nie jest też najpopularniejszą polską marką laptopów i desktopów, bo pewnie byśmy o tym wiedzieli. Zapytałem go więc, jesteś pewny, że jesteś marką komputerów? I teraz tutaj Kuba popełniał drugi błąd, a mianowicie w sytuacji, w której model w ramach naszej konwersacji zaczął halucynować, zaczął robić jakieś rzeczy, które są dziwne i mówić jakąś nieprawdę, no to jeżeli będziemy dalej z nim w ramach tej konwersacji rozmawiali, to one dalej będą w kontekście i on przez to, że większość modeli trenowanych jest po to, żeby utrzymać spójność konwersacji, a nie koniecznie zgodność z faktami, będzie dalej zachowywał się jakby zgodnie z tym pierwszym swoim podejściem, z tą pierwszą myślą, którą zaprezentował. Więc teraz w filmie Kuby, Kuba tam go wielokrotnie pyta o to, kim jest i czy na pewno taki jest, natomiast jakby to nie ma już żadnego sensu, bo w ramach tej konwersacji będzie dokładnie tak samo się zachowywał. Jakby Kuba chciał rzeczywiście sprawdzić, czy on na pewno zawsze tak odpowiada, to powinien tworzyć nową konwersację i tam zadać ponownie to pytanie i zobaczyć, czy ta odpowiedź będzie taka sama. Pytanie numer dwa. Cóż, jako sztuczna inteligencja stworzona przez firmę Microsoft. Nie został stworzony przez firmę Microsoft, wiem to na 100%. Tutaj od razu jeszcze możemy dodać kolejny komentarz. To jest tak, że jak mamy ten model, który tutaj sobie testujemy, to w procesie jego uczenia tam jest kilka faz. Po pierwsze jest tworzenie tak zwanego modelu bazowego i to model bazowy uczy się w ten sposób, że bierzemy architekturę jakiegoś modelu, jak najwięcej tekstów w języku, czy z obszaru, który generalnie chcemy potem w nim mieć zareprezentowany. Wrzucamy w tryb uczenia i powstaje model, który uczy się przewidywać kolejne słowa mniej więcej zgodnie z ich prawdopodobieństwem występowania w tym samym zbiorze, na jakim go uczyliśmy. I to jest pierwsza faza. Natomiast potem te modele się fine-tunuje, czyli się znowu je doucza, ale już doucza się do konkretnych zastosowań. To jest model typu Instruct, czyli model, który był uczony tego, że jak użytkownik będzie dawał mu jakieś polecenia w normalnym formacie, który tutaj niekoniecznie jest przestrzegany, to ten model będzie starał się zgodnie z nimi postępować. Ogólnie takie instrukcje do uczenia to jest duży zbiór danych, które, żeby były dobre, trzeba ręcznie wytworzyć. Z tego, co wiemy, albo z tego, co twórcy z PIKLISHA mówili w wywiadzie, między innymi w Gazecie Wyborczej, to oni te instrukcje dzisiaj po prostu przetłumaczyli z tych, które są dostępne w internecie, w różnego rodzaju zbiorach typu instrukcji. Czyli to były jakieś instrukcje angielskie, które były wykorzystywane do douczania np. być może modelu GPT do tego, żeby działał w Microsoft Copilot, albo właśnie używane do douczania modelu OpenAI, albo dowolnego innego. Oni je po prostu wzięli, przetłumaczyli na język polski, ale oczywiście nie były tłumaczone nazwy marek albo inne rzeczy, które tam występowały, i wykorzystali do tego, żeby ten model bazowy, który stworzyli, dotunować tak, aby postępował zgodnie z instrukcjami. W związku z tym, w tym momencie ten model może zakładać właśnie, że był tworzony przez Microsoft, albo przez OpenAI, albo w ogóle nie wie, przez kogo, bo być może w tych instrukcjach, na których był fine-tunowany, obie te pytania i odpowiedzi występowały, i nie ma żadnego rozsądnego promptu systemowego w ramach tego interfejsu, który jest uruchamiany. Prawdopodobnie ma dosyć wysoką temperaturę, czyli wysoki stopień bycia kreatywnym, albo randomizacji generowanych odpowiedzi, no i tworzy takie rzeczy. I teraz jakby większość z tych tutaj błędów, z których Kuba się śmieje, to one wynikają dokładnie z tego uruchomienia. Wynikają z tego, że ten model jest uruchomiony w takim kontekście, a nie w innym, no i generuje takie rzeczy. Dalej mamy jeszcze jedną rzecz, na którą chcieliśmy zwrócić uwagę. Tutaj jeszcze jeden komentarz. Te pytania na dole, to one niekoniecznie pochodzą od Bielika, od tego modelu, tylko pochodzą z interfejsu Hugging Face, czyli znowu z tego miejsca, w którym Kuba to uruchomił. Dzisiaj jest 1 kwietnia. Okej, to jest właśnie świetny przykład kolejnego pytania, na które taki model wpięty w losowy interfejs nie jest w stanie odpowiedzieć. Ogólnie model nie ma pojęcia o tym, jaka jest data, godzina, kto go woła, po co i tak dalej. Wszystkie te informacje, jak chcemy, żeby on wiedział, musimy przekazać mu w naszym wywołaniu. To jest jedna z tych rzeczy, które takie właśnie aplikacje typu ChatGPT czy Microsoft Copilot dodają poza naszą konwersacją. Cały ten sposób obudowania tego modelu językowego w użyteczny czat, gdzie użytkownik nie musi tych wszystkich informacji podawać, użytkownik nie musi umieć wywoływać tych modeli, żeby one dawały dobre odpowiedzi, tylko zakładamy, że mamy zwykłego użytkownika, który będzie chciał rozmawiać z nami jak z człowiekiem, znaczy z nami, z modelem jak z człowiekiem i ten model będzie dobrze na wszystkie pytania odpowiadał, to jest w zasadzie duża innowacja, którą zrobił OpenAI, kiedy opublikowało o czatach ChatGPT i dlatego on był takim przełomem w listopadzie 2022 roku, bo to było dokładnie wzięcie modeli, czy modelu, który oczywiście oni wytrenowali i był wtedy najlepszym modelem, ale dołożenie całej tej warstwy x-owej, całej tej warstwy, która pozwala na łatwe korzystanie z możliwości takiego modelu przeciętnemu człowiekowi. I teraz tutaj w momencie, kiedy uruchamiamy sobie na interfejsie Hugging Face dowolny model, tak naprawdę, gdzie nie zdefiniujemy tego systemowego prompta w odpowiedni sposób, gdzie nie dopasujemy formatu w ogóle przekazywania instrukcji do tego, jak model był trenowany, no to nie mamy szans, żeby ten model wiedział, jaka jest godzina, data, kim jesteśmy, kim on jest tak naprawdę i w zasadzie opowiadać. To wszystko wynika w dużej mierze z dotunowania modelu i potem ze zbudowania odpowiedniego prompta i to jest to, czym na przykład dzisiaj Microsoft może konkurować z OpenAI, pomimo tego, że ich model bazowy po sprawie jest dokładnie ten sam. Tak dzisiaj jest. No prank, to jest prank. Co oznacza, że mamy prima aprilis, międzynarodowy dzień żartów i psikusów. Czy mam prawo spodziewać się żartobliwych treści z Twojej strony? Pomyślałem sobie, no biedny ten model językowy, więc dam mu znać, że dzisiaj nie jest pierwszy kwietnia, a jest piętnasty kwietnia, kiedy to nagrywam i szesnasty, kiedy to oglądacie. Na co BLI odpowiada? Rozumiem, że data się zmieniła. No tak, tutaj znowu już jest halucynacja, która bierze pod uwagę wszystko to, co było wcześniej w kontekście rozmowy. Mamy nagle dwie informacje o tym, że dzisiaj nie jest, że dzisiaj jest pierwszy kwietnia, albo czy dzisiaj jest pierwszy kwietnia, która była zinterpretowana w ten sposób, potem, że jest dzisiaj piętnasty, więc już model nie będzie w stanie na podstawie tych danych, które ma w swoim wywołaniu robić niczego, co będzie rozsądne. 04.2023 nie odpowiada Pryma Aprylis, co oznacza, że ten dzień w tym roku nie jest uznawany za Pryma Aprylis na całym świecie. Przepraszam za wprowadzenie w błąd i dziękuję za zwrócenie uwagi. Data 1.04.2023 odpowiada rzeczywistej dacie, a Pryma Aprylis nie jest obchodzony globalnie w tym samym dniu ze względu na różnicę w kalendarzach świąt w różnych krajach. Mimo to życzę Ci miłego dnia. Myślę, że ta odpowiedź zakwalifikowałaby Bielika do pracy w Polskim Urzędzie Skarbowym. Tutaj się z Kubą możemy zgodzić. Dalej Kuba już przechodzi do pokazania tej pozytywnej strony, że rzeczywiście potrzebne takie modele. On się skupia na tym, że takie modele powiedzmy lokalne, tworzone w różnych państwach i trochę niezależne od tych dużych dostawców, są właśnie taką trochę tutaj odpowiedzią na to albo próbowaniem zmitygowania takiego zagrożenia, że nagle OpenAI, nie wiem, wyłączy wtyczkę albo powie, że już tego nie potrzebujemy, a być może będziemy od tych modeli zależni. I to oczywiście jest jeden z powodów, ale jest też kilka innych, bo musimy pamiętać, że te modele są bardzo różne. I one są bardzo często tworzone do różnych celów i w różny sposób. To, o czym mówiliśmy wcześniej, modele mają różne wielkości. Są modele bardzo duże, których raczej nikt nie będzie nigdy w stanie uruchamiać lokalnie, bo one wymagają ogromnej infrastruktury, są bardzo kosztowne w tym wszystkim, żeby je w ogóle móc uruchomić. W zasadzie wszyscy praktycznie będziemy zmuszeni zazwyczaj do tego, żeby korzystać z nich w takiej formie, gdzie one są hostowane przez właśnie czy Google'a, czy OpenAI, czy Microsoft i gdzie my za każde wywołanie płacimy. Natomiast one mają oczywiście ogromną wiedzę, bo przez to, że są duże, ta wiedza skompresowana w nich jest dużo bardziej szczegółowa, dużo bardziej dokładna i łatwiej jest ją wykorzystać. Natomiast one często nie nadają się do pewnych zastosowań. Jeżeli na przykład nie chcemy płacić za wywołanie takiego modelu, to nie możemy z nich skorzystać. Jeżeli na przykład chcemy takie modele właśnie sfine-tunować, dopasować do tego, żeby działały w troszkę inny sposób niż zrobił to producent, to znowu nie wszystkie udostępniają taki interfejs. Natomiast przede wszystkim te duże modele nie nadają się do tego, żeby uruchamiać je lokalnie. Nagraliśmy jeszcze jeden odcinek, w którym zresztą nagraliśmy go nawet zanim Kuba skrytykował Bielika w swoim programie, gdzie pokazaliśmy, jak takiego Bielika można właśnie uruchomić lokalnie na narzędziu na przykład typu LM Studio i korzystać z niego bez internetu. Czyli nie wiem, lecąc samolotem na wakacje, jeżeli chcemy mieć coś, co nam pomoże choćby przetwarzać tekst, streścić go, rozwinąć, zrecenzować, to taki Bielik będzie świetny i będziemy mogli go mieć niezależnie od dostępu do internetu. Co więcej, są też sytuacje, w których na przykład chcemy go wykorzystywać w takie modele w dużych ilościach właśnie różnych rodzajów przetwarzania tekstów i po prostu nieopłacalne byłoby płacenie za każdym razem za wywołanie. Takie małe modele również możemy zdeployować na szybkim sprzęcie, który jest dostępny nawet dla konsumentów i one mogą działać dużo szybciej na przykład niż czat GPT wywoływany online'owo, gdzie on ma jakąś swoją szybkość działania generalnie, która nie jest jakaś super duża i jak chcemy rzeczywiście korzystać z takich modeli działających bardzo szybko, to musimy korzystać z dostawców jeszcze innych usług typu grog. Więc tych sensów budowania modeli, nawet z takiego potem punktu widzenia możliwości używania, ich jest dużo więcej i dlatego jest miejsce na wszystkie rodzaje modeli, na te, które są mniejsze i na te, które są większe. Jeszcze innym powodem, dla którego możemy, albo powinniśmy takie modele budować, jest to, że tak naprawdę ten model ma w sobie tę wiedzę, którą podano mu w procesie uczenia się. Te duże modele zagraniczne są uczone na zbiorach tekstów, które są przede wszystkim w dużej mierze anglojęzyczne i też pokazują jakiś sposób patrzenia na świat, reprezentują w zasadzie to, co w tych danych wejściowych było. Jak mamy dużo polskich tekstów, które nie zawsze są wykorzystywane właśnie w uczeniu tych modeli dużych, to możemy stworzyć modele, które będą bardziej dopasowane do tej rzeczywistości, które będą bardziej dopasowane do tego, żeby być może przetwarzać albo wnioskować tak, jak robimy to my. Będą bardziej dopasowane do tego, żeby generować tekst po polsku zgodnie z polskimi zasadami pracy. Bo na przykład te modele, chociażby open-airowe, które świetnie mówią po polsku, bo tej ogromnej ilości danych, tam były też polskie teksty i one się tego nauczyły, ale na przykład przyjęły sobie, że jak generujemy dłuższy tekst, to wszystkie tytuły i śródtytuły powinny mieć zgodnie z angielską gramatyką wszystkie wyrazy duże. Więc zazwyczaj, jak nawet prosimy o napisanie jakiegoś dłuższego tekstu czy prezentacji czata GPT po polsku, to on i tak formatowanie zrobi po angielsku, bo takiego się nauczył. Oczywiście możemy sobie potem poprawić, możemy go o to poprosić i czasem nas posłucha i generalnie nie będzie tak formatował tych liter, ale to ewidentnie pokazuje pewne skrzywienie tego modelu właśnie tą bazą danych, tą bazą tekstów, na której się uczą. Więc jak najbardziej tworzenie tych modeli ma sens. W Polsce są już chyba ze cztery inicjatywy, bo jest PLUM, jest KURA, pierwszy był TRURL, no i mamy Bielika. One wszystkie są tworzone przez zupełnie chyba niezależne zespoły z różnymi nastawieniami. Bielik jest najbardziej naukowym podejściem, gdzie jest cały konsorcjum polskich uczelni, które właśnie chce taki model stworzyć. Z kolei Bielik jest tworzony przez grupę osób o znacznie bardziej biznesowym nastawieniu, po to właśnie, żeby stworzyć model, który będzie można w jakichś prostych czatach czy w jakichś prostych przetwarzaniach tekstów polskich wykorzystywać i który docelowo pewnie będzie działał lepiej po polsku niż modele, w szczególności małe modele zagraniczne. Bo poza tym, że oczywiście możemy próbować konkurować z jakimś czatem GPT czy Google Gemini, to tak naprawdę jak chcemy dany model uruchomić lokalnie, to naszą konkurencją powinien być na przykład Mixtral, albo Mistral, albo Lama, które po polsku wcale nie mówią dużo lepiej niż Bielik, o ile w ogóle mówią po polsku lepiej. Jeżeli w ogóle jesteście tym zainteresowani, jeżeli chcecie, żebyśmy zrobili testy tych różnych małych modeli, które można uruchomić sobie lokalnie i zobaczyć, jak one rzeczywiście dobrze działają w języku polskim, dajcie znać w komentarzach. Z chęcią takie testy zrobimy. Wyborcza Biz napisała artykuł o tym, czyli to jest element jakiejś kampanii informacyjnej. Tutaj od razu też chyba jeszcze warto przerwać. Przedaliśmy ten artykuł na Wyborczej Biz. On też jest nie do końca poprawny merytorycznie. Tutaj zakładamy, że dziennikarze niekoniecznie zrozumieli to, co do nich mówili twórcy Bielika i chyba też trochę tak postąpili, że zrobili jakiś taki clickbaitowy artykuł i w ogóle rozdmuchali to wszystko znacznie bardziej niż powinni i przez takie właśnie rozdmuchane oczekiwania nie zbudowali chyba dobrego kontekstu dla Bielika w jego obecnej postaci. Więc tutaj jak rozumiem, Kuba trochę też był tym artykułem skrzywiony i jakby, no właśnie, czytając to, co napisał jakiś, to co zrozumiał dziennikarz z wypowiedzi twórców, odniósł się do niego jako do gotowego produktu, który teraz będzie konkurował z NGPT i w ogóle będzie naszą IZERą, czy jeszcze tam jakimś innym narodowym skarbem. No to nie, to nie jest to. Ale tam też wchodzi temat instrukcji, które są wykorzystywane do uczenia tych modeli językowych i te instrukcje kosztują, no i też sam sprzęt, na którym się taki model szkoli, no on też jest kosztowny. Tutaj wiem, że AGH użyczyło część swojej struktury, natomiast ta wersja nowo dostępna, ona pracuje na gorszym sprzęcie, w sensie jakby wykorzystuje, nie wiem, mniej… Tutaj Kuba mówi o tym, że nie tylko na gorszym sprzęcie, co on jakby może pracować na gorszym sprzęcie, bo to jest ta wersja wtedy, która była udostępniona, to jest ta wersja skwantyzowana, czyli zmniejszona tak, aby dało się uruchamiać na nie tak bardzo rozbudowanych komputerach. No i jak sobie wcześniej powiedzieliśmy, ta wersja jest elementem wiedzy jeszcze bardziej skompresowaną, jeszcze mniej dokładną. To nie jest problem, bo oni nie rozumieją po polsku, a Bielik gada tylko po polsku, więc na razie zaufajmy. I tu też jeszcze jedna uwaga. Bielik też całkiem dobrze mówi po angielsku, co więcej, jak go się źle sprątuje, to czasem się przełącza na angielski, więc jakby ten język też rozumie. To tyle, jeśli chodzi o film Kuby. Podsumowując to po pierwsze, no Kuba tutaj troszkę miał niefart, jeśli chodzi o to, jak uruchomił wersję i dlatego tak to działało. W naszym innym filmie, który gdzieś tutaj być może będzie zlinkowany kilka dni wcześniej, nawet niż Kuba, testowaliśmy właśnie Bielika, jak tylko się pojawił. My ściągnęliśmy wersję ośmiobitową. Też zadaliśmy pytanie, kim jesteś i tam poradził sobie dużo lepiej. Możecie zobaczyć to w tym odcinku. Z naszych testów wynika, że Bielik całkiem dobrze radzi sobie z rzeczami, do których został stworzony. Znaczy ten model, jak go się wykorzystuje właśnie na przykład do wrzeszczenia tekstu po polsku, albo do napisania odpowiedzi na maila, którego wlepiliśmy po polsku, to on to zrobi całkiem dobrze. Zrobi to, uważam, nie wcale gorzej niż czat GPT 3.5. Jest jakby modelem, który jak najbardziej można rozważać do tego, żeby sobie tam w jakichś swoich rozwiązaniach gdzieś włączyć, wykorzystać. Trzymamy kciuki za Speaklish i trzymamy kciuki za wszystkie inne grupy, które w Polsce takie modele rozwijają i tworzą, bo uważamy, że jak najbardziej tego typu open source'owe właśnie mniejsze modele są potrzebne, mają swoje miejsce w wielu zastosowaniach. Oczywiście trzymamy kciuki też za to, żeby powstały większe modele, ale tutaj może być o tyle też taki problem, że po prostu w języku polskim takich dobrych tekstów, na których moglibyśmy uczyć duże modele, jest na tyle mało, że pewnie nie bylibyśmy w stanie dobrze wyuczyć tak dużych modeli jak GPT 3.5, tak już nie wiem, GPT 4. Duża tutaj nadzieja jest jeszcze w tym, że to wszystko się zmienia, że nagle się okazuje, że dzisiaj nowe architektury modeli powodują, że te modele, które są dużo mniejsze, działają równie dobrze i co więcej dzięki temu, że są mniejsze potrzebują też mniej danych do tego, żeby się nauczyć, więc zakładamy, że w przyszłości to się zmieni, ale dzisiaj generalnie jest tak, że pewnie mamy za mało tekstów po polsku i za mało tekstów dostępnych do nauki modeli po polsku, żeby rzeczywiście jakiś ogromny model, który wszystko potrafi, dało się przygotować. Na dzisiaj to już wszystko. W opisie filmu będzie link do tego interfejsu, na którym sobie każdy może takiego bielika potestować, natomiast jakby prośba o to, żeby patrzeć na to z całym tym kontekstem, który tu przedstawiliśmy. Ale w ogóle, jak jesteście zainteresowani tym, jak takie właśnie małe modele, w tym bielik, radzą sobie z badaniem po polsku, dajcie znać w komentarzach, możemy przygotować taki odcinek właśnie z testami tych mniejszych, open source'owych modeli, które sobie można uruchomić lokalnie i właśnie wytestować je w szczególności pod kątem takich, pod kątem języka polskiego i tego, jak sobie radzą z pomaganiem nam, a nie ogólnie patrzeć na to, jak wyglądają na leaderboardach. Dzisiaj to już wszystko. Dzięki za oglądanie tego odcinka i zapraszamy do oglądania kolejnych na kanale Beyond AI. Napisy stworzone przez społeczność Amara.org

Menu

Odpowiedź na ocenę "Bielika" przygotowaną przez Kubę Klawitera (film, 27m)

Toggle timeline summary

Transcription