Bielik - Polish LLM. What Makes It Unique? (film, 19m)
In the latest episode, Mike Tomala discusses the differences between the Polish language model Bielik and the globally recognized ChatGPT. This topic ignites many emotions, as Bielik, created by the Polish community, is intended to be a response to the need for a domestic AI tool that adapts to local language contexts. The episode draws a comparison to the Polish national football team, highlighting that, regardless of weaknesses, local initiatives can evoke national pride. Mike emphasizes that Bielik is not just a standalone project, but part of something larger that might influence technological development in Poland.
When discussing the differences between Bielik and ChatGPT, Mike points out the disparity in the number of parameters—11 billion in Bielik compared to 175 billion in ChatGPT. He explains how these differences affect the ability to comprehend cultural contexts. Furthermore, he discusses what makes Bielik unique, especially regarding the Polish datasets it was trained on, along with challenges related to data acquisition and processing, stressing the importance of data quality for the final performance of the model.
Mike also addresses the openness of Bielik, contrasting it with ChatGPT's commercial approach. He notes that Bielik's availability on open-source platforms and the absence of data transmission to external servers may attract companies and institutions that prioritize confidentiality. He also suggests that Bielik could be particularly useful in areas where data protection is a priority, such as healthcare or finance.
Additionally, Bielik has the potential to become an effective tool for processing Polish text. The episode discusses various applications of Bielik—from automating business processes to supporting programmers and AI researchers. Mike emphasizes that the project does not end with the successes achieved; further updates are already planned, which could contribute to even greater advancements in technological circles.
Finally, Mike presents the video statistics. Since its release, the episode has garnered 6,356 views and 201 likes, reflecting a growing interest in the subject of Polish language models. Mike encourages his viewers to actively follow the development of Bielik and engage with the AI community. Despite competition from ChatGPT, Bielik clearly demonstrates that local initiatives can lead to significant growth in the Polish tech ecosystem. Every step toward innovation, even from smaller players, has the potential for greater success on a broader scale.
Toggle timeline summary
-
Comparison of Polish language model Bielik to ChatGPT.
-
Importance of national pride in modeling.
-
Discussion on whether Bielik should be a source of national pride.
-
Exploration of the need for a Polish language model.
-
Introduction to Bielik as a Polish large language model.
-
Training data for Bielik primarily consists of Polish datasets.
-
Bielik was trained on supercomputers at a Polish university.
-
Media comparisons of Bielik to ChatGPT.
-
Discussion of major differences between Bielik and ChatGPT.
-
Comparison of parameters: Bielik has 11 billion; ChatGPT has 175 billion.
-
Quality of a model depends on training data quality rather than just size.
-
Bielik trained on specially selected Polish texts.
-
Special guest Sebastian Kondracki speaks on training data challenges.
-
Bielik is an open-source project, while ChatGPT is commercial.
-
OpenAI retains a closed ecosystem for ChatGPT.
-
Funding differences between Mistral AI and OpenAI.
-
Fundraising strategies for Bielik explained by Sebastian.
-
How to interact with Bielik online.
-
Setting up Bielik locally using the JAN application.
-
Distinction of Bielik as a specialized text model.
-
Use cases for Bielik in sensitive data environments.
-
Bielik as an affordable option for startups and small firms.
-
Optimism regarding Bielik's future in Europe's AI landscape.
-
Bielik demonstrates the power of grassroots initiatives in tech.
Transcription
Niektórzy porównują go do chaty GPT, ale to jak porównanie polskiej reprezentacji w piłce nożnej do reprezentacji np. w Hiszpanii. Nieważne jednak czy wygrywamy czy nie, reprezentacja to nasza duma narodowa. Czy nasz polski model językowy Bielik i jego drużyna również powinni być dumą narodową, czy to raczej mało znaczący eksperyment? Czy potrzebujemy polskiego modelu językowego? Do czego warto używać Bielika? Te i inne pytania poszukamy odpowiedzi w tym odcinku. Dla osób, które jeszcze o Bieliku nie słyszały winny jestem parę słów wyjaśnienia. Otóż Bielik to polski duży model językowy, czyli LLM. Dlaczego polski? Myślę, że są trzy główne powody, dlaczego możemy uznać go za nasz polski. Po pierwsze, został wytrenowany w znacznej części na polskich zbiorach danych, czyli każdy z nas mógł dołożyć do niego swoją tekstową cegiełkę. Po drugie, został wytrenowany na superkomputerach w Cyfronecie, czyli akademickim centrum komputerowym przy Akademii Górniczo-Hutniczej w Krakowie, przy słynnym AGH-u, czyli tu u nas w Polsce. I last but not least, po trzecie, został stworzony przez polską społeczność o nazwie Spichlerz, która niczym w czynie społecznym pracowała w pocie czoła nad przygotowaniem Bielika z chęci zrobienia czegoś ważnego, istotnego i społecznie potrzebnego. I wiecie co? Z mojej strony wielkie szapobaf, czapki z głów. W wielu mediach Bielik porównywany był do chat GPT, a wiele nagłówków nawet twierdziło, że powstał polski chat GPT. Jest to jednak zupełnie nietrafione porównanie. Zaraz powiem Wam pięć głównych różnic między Bielikiem a chat GPT. Jedną z takich bardzo ogólnych metryk, jaką stosuje się do porównywania modeli językowych, jest liczba ich parametrów. Model Bielik wykorzystuje 11 miliardów parametrów, natomiast chat GPT w wersji trzeciej wykorzystuje 175 miliardów parametrów. To ponad 15 razy więcej. Nie mówiąc już o kolejnych modelach chat GPT czy o modelu DeepSeek. A więc różnica jest ogromna, ale co w związku z tym? Otóż liczbę parametrów modelu językowego można porównać do wielkości mózgu. Większy mózg może przechowywać więcej informacji, ale z drugiej strony nawet duży mózg zaśmiecony niepotrzebnymi informacjami nie będzie dobrze rozumował. Liczba parametrów nie stawia jednak Bielika od razu na straconej pozycji. Czasem mniejszy, bardziej wyspecjalizowany model z mniejszą liczbą parametrów, ale wytrenowany na danych wyższej jakości może dawać lepsze odpowiedzi niż model większy. A więc kluczem do jakości modelu są dane treningowe. Chat GPT został wytrenowany w ponad 90% na treściach anglojęzycznych. A więc mimo iż chat GPT wie więcej, bo ma więcej parametrów, to niekoniecznie może znać polskie konteksty kulturowe czy niuanse językowe, bo po prostu nie miał się skąd ich nauczyć. Bielik został wytrenowany na specjalnie opracowanym zbiorze polskich tekstów. Ale o tym opowie więcej nasz gość specjalny, Sebastian Kondracki, inicjator społeczności Speaklash i modelu językowego Bielik. Cześć Sebastian, dzięki, że znalazłeś dla nas czas. Czy możesz powiedzieć, jak powstawał zbiór danych treningowych dla Bielika i jakie były wyzwania związane z budowaniem takiego zbioru? Zbiór z Bielika ma już ponad 2 TB danych, to jest ok. 800 mln subermentów. Natomiast tu trzeba rozgraniczyć, że ten zbiór nie był cały użyty do trenowania Bielika. Ale zaraz o tym. Natomiast jeśli chodzi o wyzwania, to przede wszystkim to duża wolumetria danych. To jest najważniejsze wyzwanie. Wszystkie te dane muszą być sklasyfikowane, jakościowo opisane. I to był ten najważniejszy problem. Drugim, może nie problemem, ale właśnie wyzwaniem było sprawdzenie licencji. Ponieważ część zbiorów jest na otwartych licencjach, jak np. Wikipedia, czy polska legislacja, czy orzecznictwo sądów poprzednich. Ale część zbiorów pochodzi z tzw. sklepingu. To jest taki duży repozytorium Common Cross, z którego każdy zbiór trzeba było spojrzeć, sprawdzić dokładnie regulamin, czy można go użyć do treningu. I to chyba było największe wyzwanie. Ok, dzięki Sebastian za te wszystkie informacje. Nie żegnamy się, bo jeszcze się usłyszymy. W ten sposób dochodzimy do kolejnej różnicy między Bielikiem a ChatGPT. ChatGPT to projekt w pełni komercyjny, zamknięty. Szczegółowe informacje związane z jego trenowaniem, datasetem są ściśle chronione i nieznane poza firmą OpenAI. Jeśli chcemy skorzystać z ChatGPT w swoich aplikacjach czy produktach, możemy zintegrować się z nim poprzez płatne API. Jednak trzeba pamiętać, że wszystkie dane, które podajemy w okienku czatu lub przesyłamy przez API, trafiają na serwery OpenAI. Nieuważnie korzystając z tego narzędzia możemy przekazać do OpenAI jakieś wrażliwe dane, np. firmowe. Takie historie się zresztą już zdarzały, choćby w Samsungu, który finalnie zablokował ChatGPT dla swoich pracowników, czy najnowsza historia z modelem DeepSeek, z którego dane wypłynęły do internetu. Bielik z kolei to projekt w pełni open source. Możemy go znaleźć na najpopularniejszym portalu z modelami AI, czyli na Hugging Face. Linki oczywiście znajdziecie w opisie. Bielik należy do rodziny tzw. kompaktowych modeli, a co za tym idzie możemy go uruchomić na serwerze, który nie kosztuje milionów monet, a nawet na nieco lepszym komputerze. Możemy w ten sposób korzystać z modelu, nie udostępniając żadnych danych na zewnątrz. A o tym jak to zrobić opowiem już niedługo w dalszej części filmu, więc koniecznie oglądaj do końca. Warto jeszcze wspomnieć, że Bielik nie powstawał od zera. Powstał na bazie modelu Mistral7B. Jest to oczywiście też model open source, ale stworzony przez francuską firmę start-up Mistral AI. Zarówno GPT jak i Mistral i Bielik to modele oparte na architekturze transformera. O różnych algorytmach modeli generatywnych opowiadałem w jednym z poprzednich filmów. Wyjaśniłem w nim także ogólną ideę modeli transformerowych, więc zachęcam do obejrzenia. Kartę z linkiem do tego filmu znajdziecie na ekranie końcowym. Gdy jesteśmy już przy Mistralu to możemy jeszcze porozmawiać o wsparciu. Oczywiście tym finansowym, ale nie tylko. Mistral AI ma silne wsparcie od francuskiego rządu. Jest przedstawiana jako przykład europejskiej konkurencji dla OpenAI i innych amerykańskich firm. Mistral AI w kilku rundach finansowania otrzymał od inwestorów już około miliarda euro. Natomiast kwoty jakie otrzymał OpenAI w rundach finansowania robią jeszcze większe wrażenie. Całość otrzymanego finansowania to kwota prawie 7 miliardów dolarów. Po tym jak poznaliśmy kwoty finansowania OpenAI i Mistrala, to zobaczmy jak to wygląda w przypadku Bielika. Ale o to zapytam u źródła. Sebastian, jak wygląda wsparcie Bielika? Spichlerz, który właśnie tworzy Bielika, jest taką projektem, teraz już fundacją, ale jest po prostu projektem, otwartym projektem. Przede wszystkim w tej pierwszej fazie chcemy być niezależni, obywatelscy, społeczni, więc głównym źródłem właśnie są sponsorzy, mecenaty i patroni, bo uruchomiliśmy teraz zbiórkę na patronite. Jednak bardzo ważny element, że ta uruchomiona np. zbiórka to nie jest żadne żebranie o pieniądze, nie kończą nam się środki. Jest to przemyślana po prostu strategia, żeby jeszcze bardziej zaakcentować, że Spichlerz jest otwartym projektem, gdzie każdy może wesprzeć rozwój Polski sztucznej inteligencji. Bardzo fajnie. Oczywiście link do patronite umieszczam także poniżej w opisie. I oczywiście zachęcam do wspierania Bielika. A teraz zobaczmy jak możemy skorzystać z Bielika. Pierwsza opcja to skorzystanie z Bielika online. Wystarczy wejść na stronę bielik.ai i kliknąć przycisk Porozmawiaj z Bielikiem. Aby porozmawiać z Bielikiem trzeba założyć konto, ale gdy przybrniemy logowanie możemy już korzystać z Bielika. Oprócz klasycznego okienka chatu znanego z innych modeli mamy także zakładkę Newsroom. Jest to nowość udostępniona na razie w wersji beta. Newsroom pokazuje jak Bielik może działać kiedy ma dostęp do dodatkowej aktualnej wiedzy, np. newsów czy dokumentów firmowych, ponieważ Bielika możemy właśnie uruchomić także na serwerze firmowym. A dzięki temu żadne informacje firmowe nie wydostaną się na zewnątrz. Już wiesz jak możesz skorzystać z Bielika online, więc teraz zobacz jak łatwo można go uruchomić lokalnie na własnym komputerze. W moim przypadku jest to komputer stacjonarny z 32GB RAM-u i kartą graficzną z 12GB. Wykorzystamy do tego aplikację JAN, ale chyba możemy też mówić po polsku po prostu Jan. Najpierw wchodzimy na stronę jan.jaj skąd musimy pobrać aplikację odpowiednią dla swojego systemu operacyjnego. Ta aplikacja pozwala uruchamiać różne modele językowe u siebie lokalnie na komputerze i jest w pełni open source. Dodatkowo ta aplikacja ma kilka przyjemnych funkcji. Oprócz uruchamiania modeli lokalnie, możemy także poprzez klucze API połączyć się z modelami cloudowymi i mieć wszystkie modele w jednym miejscu. Gdy zainstalujemy aplikację przejdźmy do strony Bielika na Hugging Face. Dokładny link znajdziesz w opisie filmu. Na tej stronie znajdziesz wiele technicznych informacji na temat Bielika. Natomiast my zjedziemy od razu do sekcji Quantized Models. Na tej liście mamy dostępne kilka formatów w jakich dostępny jest model Bielik. Wybierzemy format GOOF, który jest dostępny w kilku rodzajach kwantyzacji. Myślę, że w tym miejscu powinienem wyjaśnić dwa zdania czym jest kwantyzacja modelu. Otóż każdy model językowy składa się z WAG, czyli takich parametrów, które określają prawdopodobieństwa występowania poszczególnych tokenów, czyli jakby w uproszczeniu słów. Dla wysokiej precyzji modele operują na liczbach zmiennoprzecinkowych, czyli od 0 do 1 z wieloma cyframi po przecinku. Na przykład liczba 0,3145645 ma siedem cyfr po przecinku. Ale przechowywanie dużej ilości takich liczb i wykonywanie na nich operacji matematycznych jest obciążające pamięć procesory, dlatego stosuje się takie jakby zaokrąglenie. I z liczby z siedmioma cyframi po przecinku zostaje liczba na przykład z czterema cyframi po przecinku. Dzięki temu zmniejsza się rozmiar modelu i generowanie odpowiedzi staje się generalnie szybsze. Ale coś za coś, bo również odpowiedzi mogą być mniej precyzyjne. Ja użyję kwantyzacji 8-bitową, czyli Q8, ale jeśli masz słabszy sprzęt, to możesz skorzystać z 6-, 5- lub 4-bitowej kwantyzacji. Na tej stronie klikam przycisk, który znajduje się z prawej strony u góry – Use this model i wybieram aplikację JAN. Przeglądarka zapyta, czy zezwolić na otwieranie plików, klikam tak. W ten sposób otwarta zostanie aplikacja JAN od razu już na zakładce z modelem Bielik. Z prawej strony mamy dostępną listę modeli. My wybierzemy model 8-bitowy, klikając Download. Model waży ponad 11 GB, dlatego pobieranie może chwilę zająć. OK, model się zainstalował. Klikamy teraz przycisk Use i w zasadzie możemy zacząć korzystać z Bielika. Może najpierw zapytajmy, jak się nazywasz. W tym momencie jeszcze model musi wystartować i Bielik zaczyna generować odpowiedź. Poinformował nas, że nazywa się Bielik i jest zaawansowanym modelem językowym stworzonym przez Speedlash oraz Cyfronet AGH. Może sprawdźmy go, czy Bielik umie żartować. Zapytam go, jak się nazywa żona kucharza po siedmiu rozwodach. No, gdzieś dzwoni, ale nie wiadomo w którym kościele, ponieważ napisał, że odpowiedź na to pytanie brzmi siódma, ale dobrze zinterpretował, że jest to popularny dowcip i gra słów. Sprawdźmy go, czy umie się poprawić, jeśli podam mu prawidłową odpowiedź na ten suchar. Tak, Bielik poinformował nas, że zna również i taką wersję tego dowcipu. I w ten sposób za pośrednictwem aplikacji JAN możemy łatwo korzystać z Bielika. Jak widać na moim sprzęcie, szybkość generowania tokenów jest całkiem zadowolająca. Gdy już zakończymy pracę z Bielikiem, możemy wyłączyć model, przechodząc do zakładki ustawienia. Następnie przy Bieliku kliknąć ikonę trzech kropek i zakończyć działanie modelu. Kropek i zakończyć działanie modelu. Jak widać uruchomienie modelu jest całkiem proste, więc zachęcam do eksperymentowania. Porównując Bielika do chat GPT możemy sobie uświadomić, czym Bielik jest, ale przede wszystkim czym Bielik nie jest. Nie jest modelem do odpytywania z wiedzy ogólnej, ponieważ jego baza treningowa jest znacznie mniejsza niż w przypadku chat GPT. Nie jest też modelem do prowadzenia złożonych konwersacji. Bielik nie sprawdzi się też jako uniwersalny asystent, który może zastąpić bardziej rozbudowane modele w codziennych, różnorodnych zadaniach. Ok, więc do czego jest Bielik? Po pierwsze w środowiskach, gdzie poufność danych jest priorytetem, jak np. służba zdrowia czy sektor finansowy, ale także w firmach, które po prostu nie chcą przesyłać danych na obce serwery, a chcą korzystać z możliwości AI. Po drugie, ale także w połączeniu z tym punktem pierwszym, Bielik może być wykorzystywany do zadań związanych z przetwarzaniem tekstu w języku polskim. Doskonale sprawdza się w zadaniach związanych z klasyfikacją i kategoryzacją tekstu. Model może usprawnić procesy biznesowe poprzez automatyzację rutynowych zadań tekstowych, jak np. generowanie streszeń długich dokumentów. Po trzecie, ze względu na swoją lekką architekturę, Bielik świetnie integruje się z istniejącymi systemami. Może być wykorzystywany jako element większego pipeline'u przetwarzania danych. Przykładowo w systemie monitorowania mediów społecznościowych mógłby analizować sentyment wypowiedzi w czasie rzeczywistym, działając np. jako jeden z elementów większego systemu analitycznego. Po czwarte, w przypadku startupów i małych firm, które nie mogą sobie pozwolić na drogie API komercyjnych modeli, Bielik oferuje ekonomiczną alternatywę. Może być wykorzystany do budowania prototypów, proof-of-conceptów i rozwiązań, które później w miarę potrzeb mogą być dalej skalowane. Po piąte, dla programistów i badaczy AI, Bielik stanowi doskonałą platformę do nauki i eksperymentów, więc jeśli chcesz wesprzeć polski ekosystem AI i podzielić się wiedzą lub czegoś się nauczyć, to możesz dołączyć do społeczności Speaklash. Nawet jeśli jesteś osobą nietechniczną, możesz pomóc w tworzeniu kolejnych wersji Bielika, bo Speaklash ma ambitne plany, ale o tym za chwilę. O plany na przyszłość również zapytam Sebastiana Konradzkiego. Jeśli chodzi o plany przyszłości, to naprawdę długo będę mówił. Po pierwsze, pamiętajmy, że wokół Bielika rozrosło się dużo nowych inicjatyw, też oczywiście związanych z dużymi modelami językowymi i sztuczną inteligencją, ale nie jest to tylko teraz społeczność deeptechowa, bym powiedział. Są już osoby, które wdrażają sztuczną inteligencję, są prawnicy, są osoby, które w biznesie działają i w jakiś sposób używają sztucznej inteligencji. Po pierwsze, wydaliśmy w grudniu raport o dużych modelach językowych i użyteczności ich w biznesie. Pracujemy nad tym, żeby ten raport rozszerzyć i stworzyć nowe wydanie, ponieważ cieszy się on ogromną popularnością. Drugą rzeczą to oczywiście pracujemy już nad Bielikiem 3.0, przy czym chcemy troszeczkę inaczej podejść do tego, czyli najpierw wydać małe modele, bardzo małe. To jest 1,5 miliarda parametrów i 3 miliardy parametrów. Takie modele są fajne, ponieważ możemy je uruchomić z mniejszymi możliwościami GPU, a przede wszystkim możemy dostroić je do swoich zadań i wtedy używać dużo mniejszą, choćby użyciem energii i kosztów. Inną rzeczą to rozpoczynamy projekt Obywatel Bielik. Chcemy tam zbierać, opisywać zdjęcia, ale nie tylko zdjęcia, bo myślimy też o próbkach głosowych, które chcemy użyć do modelu multimodalnego. I właśnie te prace nad modelem multimodalnym już się zaczęły. No i ostatni taki element projekt, ponieważ chcemy jeszcze bardziej zapewnić bezpieczeństwo użytkowników przy używaniu dużych modeli językowych, nie tylko Bielika, więc chcemy stworzyć dedykowany model takiego ochroniarza, który będzie po prostu czuwał, kiedy na przykład wdrażamy model w szkołach, w muzeach, gdzie chcemy, żeby to bezpieczeństwo użytkowników było bardzo wysokie, to wtedy taki ochroniarz będzie mógł być używany. Robocza nazwa to jest SUJKA, ale na pewno gdzieś nazwa będzie w okolicach połączone z nazwą Bielik. Wow, dzięki Sebastian za podzielenie się tymi wszystkimi informacjami i do zobaczenia przy kolejnym release Bielika. Jak słyszeliście, Bielik się nie zatrzymuje i leci dalej z kolejnymi ambitnymi planami. Nie jest to może model, który zastąpi czat GPT w codziennym użyciu, ale ma swoje unikalne atuty. Jest polski, otwarty, możemy go uruchomić lokalnie. Możliwość wykorzystania go bez obaw o wyciek danych i bez wysokich kosztów API to atut, który docenią szczególnie małe i średnie firmy. To trochę tak jak z naszą reprezentacją w piłce nożnej. Może nie wygrywamy mistrzostw świata, ale każdy sukces cieszy. Przy odpowiednim wsparciu społeczności, biznesu i polityki Bielik może znaleźć swoje miejsce nie tylko w Polsce, ale i w europejskim ekosystemie AI. Warto więc śledzić rozwój projektu, bo Bielik to nie tylko model językowy. To dowód na to, że w świecie zdominowanym przez gigantów technologicznych oddolna inicjatywa może stworzyć coś naprawdę wartościowego. Dziękuję za obejrzenie filmu do końca i do zobaczenia w kolejnym. Napisy stworzone przez społeczność Amara.org