DeepSeek R1 - darmowy i otwartoźródłowy AI pokonuje OpenAI o1? (film, 5m)
Wczoraj Chiny zaprezentowały nowoczesny, darmowy i otwarty model myślenia opartego na łańcuchu, którego wydajność rywalizuje z modelem OpenAI 01, za którego obecnie płacę 200 dolarów miesięcznie. Wiele osób w świecie technologii podzielonych jest na dwa obozy. W jednym obozie są pesymiści, którzy uważają, że sztuczna inteligencja osiągnęła swój szczyt z GPT-3.5, a w drugim optymiści, którzy są przekonani, że zbliżamy się do powstania superinteligencji, która zaprowadzi ludzkość do technologicznej osobliwości. Nikt tak naprawdę nie wie, w którą stronę to wszystko zmierza, ale warto pamiętać, że pesymiści wydają się mądrzy, podczas gdy optymiści zarabiają pieniądze. Jednak czasami trudno jest być optymistą w kwestii AI, ponieważ trzeba zaufać osobom takim jak Sam Altman oraz zamkniętym firmom takim jak OpenAI. Na szczęście w tym samym dniu, w którym zniesiono zakaz TikToka, Chiny przekazały światu dar w postaci DeepSeek R1. W dzisiejszym filmie nauczysz się używać go jak starszy inżynier od podpowiedzi. 21 stycznia 2025 roku, oglądasz The Code Report. Wczoraj historia zmieniła się na zawsze.
A nie mówię tutaj o powrocie króla, ale o wydaniu DeepSeek, modelu myślenia opartego na łańcuchu, który można używać swobodnie i komercyjnie do zarabiania pieniędzy w swoich aplikacjach. Model ten został wydany, gdy Sam Altman był zajęty na inauguracji Trumpa, co wydaje się być doskonałym momentem do użycia nowego szablonu memów, w którym Zuckerberg wydaje się wykrywać przepełnienie stosu w tym sztucznym kodzie binarnym należącym do Jeffa Bezosa. Będzie musiał się z tego wytłumaczyć swojej żonie, ale Sam Altman również sourał na parady optymistów AI, mówiąc, że hype wokół AI jest poza kontrolą i że nie osiągnęli AGI wewnętrznie. To dość oczywiste, patrząc na to, jak buggowane jest chat GPT. Niedawno badacz bezpieczeństwa odkrył sposób na to, aby chat GPT wykorzystywał swoje dane do DDoSowania stron internetowych. Wystarczy, że podasz mu listę podobnych adresów URL prowadzących do tej samej witryny, a on przeszuka je wszystkie równolegle, co jest czymś, czego żaden inteligentny byt by nie zrobił. Jednak wydanie R1 kilka miesięcy temu było kolejnym krokiem naprzód w wyścigu AI, ale nie minęło długo, zanim rozwiązania open source dogoniły tego lidera, co mamy ze DeepSeek R1. Jak widać z jego wyników, DeepSeek R1 jest na poziomie OpenAI O1, a nawet w niektórych benchmarkach przewyższa go, jak matematyka i inżynieria oprogramowania. Przypominam, że nigdy nie należy ufać benchmarkom. Niedawno firma Epic AI, dostarczająca popularny benchmark matematyczny, ujawniła, że została sfinansowana przez OpenAI, co wydaje się być konfliktem interesów. Osobiście nie interesują mnie dane numeryczne, wolę kierować się intuicją. Przejdźmy teraz do spróbowań DeepSeek R1. Mają interfejs webowy, ale można również korzystać z niego na przykład w Hugging Face lub pobrać lokalnie z użyciem narzędzi jak Ollama. Tak też zrobiłem, pobierając model z 7 miliardami parametrów, który waży około 4,7 gigabyte. Jeśli chcesz skorzystać z pełnej wersji, zajmie to ponad 400 gigabajtów oraz wymaga potężnego sprzętu do uruchomienia go z 671 miliardami parametrów. Ale jeśli szukasz czegoś na poziomie O1 mini, polecam model z 32 miliardami parametrów. Co sprawia, że DeepSeek się wyróżnia, to brak użycia nadzorowanego dostrajania. Zamiast tego stosuje bezpośrednie uczenie przez wzmocnienie. Czym to w ogóle jest? Zwykle przez nadzorowane dostrajanie pokazuje się modelowi wiele przykładów i wyjaśnia, jak je rozwiązać krok po kroku, a następnie ocenia się odpowiedzi innym modelem lub człowiekiem. Ale R1 tego nie robi i uczy się samodzielnie poprzez bezpośrednie uczenie przez wzmocnienie, gdzie model dostaje mnóstwo przykładów bez wskazywania od razu rozwiązania, a następnie sam próbuje różnych rzeczy i uczy się w wyniku znalezienia właściwego rozwiązania, niczym prawdziwy człowiek z możliwościami myśleniowymi. DeepSeek opublikował również krótki dokument, który opisuje algorytm uczenia przez wzmocnienie, co może wydawać się skomplikowane, ale zasadniczo dla każdego problemu AI wiele razy próbuje wygenerować odpowiedzi, które nazywają się wynikami. Odpowiedzi są następnie grupowane i przyznawany jest im wynik nagrody, więc AI uczy się dostosowywać swoje podejście do odpowiedzi z wyższym wynikiem. To dość ciekawe i możemy zobaczyć właściwy łańcuch myślenia modelu, pytając go teraz przy pomocy OLAMA. Podczas zachęcania modelu myślenia opartego na łańcuchu, jak R1 czy O1, należy utrzymać podpowiedź jak najkrótszą i najbardziej bezpośrednią. Chociaż inne modele, jak GPT-4, wymagają więcej szczegółów, w tym przypadku to model robi myślenie. Na przykład, jeśli poproszę go o rozwiązanie problemu matematycznego, zauważysz, że najpierw pokazuje mi wszystkie kroki myślenia, a dopiero później przychodzi do faktów końcowych. To dość fascynujące, ale na pewno zastanawiasz się, kiedy używać modelu myślenia opartego na łańcuchu zamiast zwykłego dużego modelu językowego. Generalnie modele myślenia opartego na łańcuchu są zdecydowanie lepsze w bardziej złożonym rozwiązywaniu problemów takich jak zaawansowane problemy matematyczne, zagadki czy problemy z kodowaniem wymagające szczegółowego planowania. Jeśli jednak chcesz zbudować przyszłość z AI, musisz się uczyć od podstaw. Dzisiaj możesz zrobić to za darmo, dzięki sponsorowi tego filmu, Brilliant. Ich platforma oferuje interaktywne i praktyczne lekcje, które demistyfikują złożoność uczenia się głębokiego. Poświęcając zaledwie kilka minut dziennie, możesz poznać matematykę i informatykę stojącą za technologią, która na pozór wydaje się magiczna. Polecam zacząć od Pythona, a potem zapoznać się z ich pełnym kursem 'Jak działają duże modele językowe', jeśli naprawdę chcesz zajrzeć za kulisy chat GPT. Możesz wypróbować wszystko, co Brilliant oferuje przez 30 dni za darmo, odwiedzając brilliant.org slash fireship lub używając kodu QR na ekranie. To był raport kodowy. Dziękuję za oglądanie i do zobaczenia w następnym odcinku.
Toggle timeline summary
-
Chiny wprowadzają otwarty model rozumowania, rzucając wyzwanie modelowi OpenAI.
-
Dyskusja na temat dwóch obozów w świecie technologii: pesymiści vs. optymiści.
-
Ogłoszenie DeepSeek R1, po zdjęciu zakazu TikToka.
-
DeepSeek wydany jako model licencjonowany przez MIT do użytku komercyjnego.
-
Krytyka hype'u wokół sztucznej inteligencji i wzmianka o problemach istniejących modeli, takich jak ChatGPT.
-
Benchmarki DeepSeek R1 porównane z wydajnością OpenAI.
-
Specyfikacje i wymagania sprzętowe DeepSeek R1.
-
Wyjaśnienie podejścia do uczenia przez wzmocnienie stosowanego przez DeepSeek.
-
Zachęta do zwięzłych podpowiedzi dla skutecznych odpowiedzi od modeli rozumowania.
-
Promocja Brilliant do nauki podstaw sztucznej inteligencji.
Transcription
Yesterday, China released a state-of-the-art, free and open-source, chain-of-thought reasoning model with performance that rivals OpenAI's 01, which I'm stupidly paying $200 a month for right now. You see, there's two types of people in the tech world right now. In one camp, we have the pessimists, who think that AI is overhyped and plateaued with GPT-3.5. In the other camp, we have the optimists, who think we're about to see the emergence of an artificial superintelligence that will propel humanity into Ray Kurzweil's technological singularity. Nobody truly knows where things are going, but one thing to remember is that pessimists sound smart, while optimists make money. But sometimes it's hard to be an AI optimist because you need to trust hype jedis like Sam Altman and closed AI companies like OpenAI. Well, luckily, on the same day that TikTok's ban was removed, China gave the world a gift in return in the form of DeepSeek R1. And in today's video, you'll learn exactly how to use it like a senior prompt engineer. It is January 21st, 2025, and you're watching The Code Report. Yesterday, the course of history changed forever. And no, I'm not talking about the return of the king, but rather the release of DeepSeek, which is an MIT-licensed chain-of-thought model that you can use freely and commercially to make money in your own applications. This model came out while Sam Altman was busy at Trump's inauguration, which is a perfect time to use this new meme template, where Zuckerberg appears to detect a rack overflow in this artificial binary code owned by Jeff Bezos. He's gonna have some explaining to do with his wife, but Sam Altman also reigned on the AI optimist parade recently when he said that the AI hype was out of control and, no, they have not achieved AGI internally. And that's pretty obvious with how buggy chat GPT is. Like, recently, a security researcher figured out how to get chat GPT to DDoS websites for you. All you have to do is provide it with a list of similar URLs that point to the same website, and it will crawl them all in parallel, which is something that no truly intelligent being would do. That being said, the release of R1 a few months ago was another step forward in the AI race, but it didn't take long for open source to catch up, and that's what we have with DeepSeek R1. As you can see from its benchmarks, DeepSeek R1 is on par with OpenAI O1 and even exceeds it in some benchmarks like math and software engineering. But let me remind you once again that you should never trust benchmarks. Just recently, this company Epic AI, which provides a popular math benchmark, only recently disclosed that they've been funded by OpenAI, which feels a bit like a conflict of interest. I don't care about benchmarks anyway and just go off of vibes, so let's go ahead and try out DeepSeek R1 right now. And they have a web-based UI, but you can also use it in places like Hugging Face or download it locally with tools like Ollama. And that's what I did for its 7 billion parameter model, which weighs about 4.7 gigabytes. However, if you want to use it in its full glory, it'll take over 400 gigabytes and some pretty heavy-duty hardware to run it with 671 billion parameters. But if you want something that's on par with O1 mini, you want to go with 32 billion parameters. Now, one thing that makes DeepSeek different is that it doesn't use any supervised fine-tuning. Instead, it uses direct reinforcement learning. But what does that even mean? Well, normally, with supervised fine-tuning, you show the model a bunch of examples and explain how to solve them step-by-step, then evaluate the answers with another model or a human. But R1 doesn't do that and pulls itself up by its own bootstraps using direct or pure reinforcement learning, where you give the model a bunch of examples without showing it the solution first, then it tries a bunch of things on its own and learns or reinforces itself by eventually finding the right solution, just like a real human with reasoning capabilities. DeepSeek also released a brief paper that describes the reinforcement learning algorithm. It looks complicated, but basically, for each problem, the AI tries multiple times to generate answers, which are called outputs. The answers are then grouped together and given a reward score, so the AI learns to adjust its approach for answers with a higher score. That's pretty cool, and we can see the model's actual chain of thought if we go ahead and prompt it here with OLAMA. When prompting a chain of thought model like R1 or O1, you want to keep the prompt as concise and direct as possible, because unlike other models like GPT-4, the idea is that it does the thinking on its own. Like, if I ask it to solve a math problem, you'll notice that it first shows me all the thinking steps, and then after that thinking process is done, it'll show the actual solution. That's pretty cool, but you might be wondering when to use a chain of thought model instead of a regular large language model. Well, basically, the chain of thought models are much better when it comes to complex problem solving, things like advanced math problems, puzzles, or coding problems that require detailed planning. But if you want to build the future with AI, you need to learn it from the ground up. And you can do that today for free thanks to this video's sponsor, Brilliant. Their platform provides interactive hands-on lessons that demystify the complexity of deep learning. With just a few minutes of effort each day, you can understand the math and computer science behind this seemingly magic technology. I'd recommend starting with Python, then check out their full How Large Language Models Work course if you really want to look under the hood of chat GPT. You can try everything Brilliant has to offer for free for 30 days by going to brilliant.org slash fireship, or use the QR code on screen. This has been the Code Report. Thanks for watching, and I will see you in the next one.