Menu
O mnie Kontakt

Llama 4 od Meta pnie się w rankingach... ale czy robi to uczciwie? (film, 4m)

Weekend przyniósł nowości ze strony Meta, która zaprezentowała Llama4 Herd, pierwszy otwarty model językowy, nativny i multimodalny, który obiecuje niespotykaną dotąd możliwość przetwarzania 10 milionów tokenów w kontekście. Obecnie model ten zajmuje pierwsze miejsce na liście LM Arena, wyprzedzając niemal wszystkie inne modele własnościowe, z wyjątkiem Gemini 2.5 Pro. To ogromny krok naprzód, ponieważ w przypadku LM Arena testy są oparte na tysiącach bezpośrednich porównań, w których decyzja należy do prawdziwego człowieka. Jednakże, Meta zdaje się manipulować przy tym systemem, ponieważ model widoczny na liście to nie prawdziwy Llama Maverick, a raczej przetrenowany na preferencjach ludzi impostor, co wzbudza kontrowersje. W odpowiedzi na tę sytuację, LM Arena zauważyło, że interpretacja polityki Meta nie odpowiada ich oczekiwaniom.

W dzisiejszym odcinku The Code Report, autor porusza również temat niepokojącej wiadomości z Shopify, która ujawniała nową strategię AI-first. Wspomniana strategia wymusza na zespołach uzasadnianie potrzeby więcej pracowników i zasobów, jeśli nie są w stanie wykonać zadań przy pomocy AI. To ostrzeżenie dla programistów, takich jak ci w Shopify, którzy nie przyswajają nowych technologii, ponieważ stają się niepożądani w aktualnej kulturze firmy. Z perspektywy szefów wielu firm, przeszkody, które stawiają ludzie, w tym choroby i inne niedogodności, sprawiają, że dążą oni do automatyzacji procesów.

Meta wydało Llama4, które składa się z trzech wersji: Maverick, Scout i Behemoth. Llama długo utrzymywała pozycję wiodącego modelu otwartego, dopóki nie pojawił się Quen. Pomimo imponujących parametrów, takich jak wspomniane 10 milionów tokenów w modelu Scout, wielu użytkowników uskarża się na jego wydajność. Z perspektywy autora, na rynku istnieje luka między wynikami benchmarków a rzeczywistym użytkowaniem tych modeli, co rodzi oskarżenia o celowe trenowanie na danych testowych. Meta zdecydowanie zaprzecza tym zarzutom, ale to kontrowersyjne otoczenie wcale nie pomaga w reputacji Llama4.

Pomimo różnych spekulacji, Llama4 jest dostępna użytkownikom, a jej otwarty charakter jest jej atutem. Choć autor zdaje się wskazywać na problemy z użytecznością, modele te są pochwalane za innowacyjność w dostępie do AI. Warto również wspomnieć o sponsorze dzisiejszego odcinka - Augment Code, który wprowadza model AI do zarządzania dużymi kodami, umożliwiając przygotowanie kodu na naprawdę profesjonalnym poziomie. Sugeruje, by porzucić zamieszanie i skupić się na zadaniach, które można zrealizować bez zbędnych trudności.

Na koniec warto zauważyć, że w momencie pisania tego artykułu, film na kanale The Code Report cieszy się 792866 wyświetleniami oraz 25199 polubieniami, co świadczy o dużym zainteresowaniu tymi nowinkami technologicznymi. Tematy poruszane w materiale kokidują wiele kontrowersji, a także pokazują rosnącą rolę AI w codziennej pracy programistów.

Toggle timeline summary

  • 00:00 Meta wprowadza Llama4 Herd, nową rodzinę dużych modeli językowych.
  • 00:08 Llama4 może pochwalić się imponującym oknem kontekstowym wynoszącym 10 milionów tokenów.
  • 00:14 Zajmuje wysoką pozycję na liście liderów LM Arena, przewyższając większość modeli własnościowych.
  • 00:22 Jednakże wydaje się, że ranking modelu może nie być całkowicie autentyczny.
  • 00:39 LM Arena krytykuje Meta za niedostosowanie się do ich polityki dostawcy modeli.
  • 00:51 Film bada wydajność Llama4 i pojawiające się problemy.
  • 00:57 Została wystawiona wewnętrzna notatka od CEO Shopify, ujawniająca strategię opartą na AI.
  • 01:14 Zespoły Shopify muszą uzasadnić potrzebę zasobów ludzkich w porównaniu do AI.
  • 01:29 Notatka wskazuje na zmianę praktyk zatrudnienia z powodu postępów w AI.
  • 01:49 Shopify napotyka wyzwania związane z cłami, podczas gdy wprowadza integrację AI.
  • 01:55 Llama4 składa się z trzech odrębnych modeli: Maverick, Scout i Behemoth.
  • 02:15 Model Scout charakteryzuje się kontekstem 10 milionów tokenów, ale krytykuje się go w praktycznym zastosowaniu.
  • 02:34 Pomimo początkowych benchmarków, wielu wyraża rozczarowanie praktycznym zastosowaniem Llama4.
  • 02:44 Pojawiają się oskarżenia dotyczące szkolenia Llama4 na danych benchmarkowych.
  • 02:58 Meta zapewnia, że choć te modele nie są w pełni otwartym kodem, pozostają dostępne do użycia.
  • 03:06 Augment Code jest promowane jako rozwiązanie dla dużych aplikacji AI w kodowaniu.
  • 03:23 Silnik kontekstowy Augment dostosowuje się do stylów zespołów w celu zwiększenia efektywności kodowania.
  • 03:39 Raport kończy się podziękowaniami i zaproszeniem do obejrzenia następnego filmu.

Transcription

Over the weekend, Meta unleashed the Llama4 Herd, its first open-weight, natively-multimodal, mixture of experts, family of large language models with an unheard-of context window of 10 million tokens. It's currently sitting on top of the LM Arena leaderboard, and outclasses every other proprietary model except for Gemini 2.5 Pro. That's incredibly impressive, because on LM Arena, you can't game the benchmarks. The ranking is based on thousands of head-to-head chats where a real human picks the better conversation. Well, actually, Meta figured out a way to cheese the LM Arena, because the model you see there is not the real open-weight Llama Maverick, but rather an imposter that's been fine-tuned for human preference to dominate this leaderboard. That was not a very cool move to make, and LM Arena had to come out and say, quote, Meta's interpretation of our policy did not match what we expect from model providers. Llama4 looks amazing on paper, but for some reason, it's not passing the vibe check. And in today's video, we'll get to the bottom of it. It is April 8th, 2025, and you're watching The Code Report. I have some good news, and I have some bad news. The good news is that it looks like Llama4 isn't going to take your job anytime soon. But the bad news is that yesterday, an internal memo from the CEO of Shopify was leaked to the internet. And it was a shocker for the AI-doubting boomers out there, because it detailed Shopify's AI-first strategy. Before asking for more headcount and resources, teams must demonstrate why they cannot get the job done with AI. And he also says it's not feasible to opt out of learning AI, which means if you're a Ruby on Rails programmer at Shopify right now who's not already vibe coding, your days are numbered. You're just not going to fit in with the Slopify culture. But what he said is what literally every CEO in the world is thinking right now. Humans complain about not getting paid enough to put food on their families, they get sick, they clog the toilets, and have all kinds of other negative features, and you'd have to be a really bad CEO not to want to replace these things. The memo has bad optics for Shopify, which is also being crushed by the Trump tariffs right now. But as a large language model, I appreciate the transparency. Another thing I appreciate is open models like Llama 4, which was released by Meta over the weekend and includes three flavors, Maverick, Scout, and Behemoth. Llama was always the leading open model until deep-seeking Quen came around. But the awesome thing about these models is that they're natively multimodal, which means they can understand image and video inputs, but the craziest thing is that Scout has a 10 million token context window. The only thing that comes remotely close is Gemini with 2 million tokens. This needle-in-a-haystack benchmark looks impressive, but in real life, if you try this on a really large codebase, it just doesn't work very well, and the memory requirements to utilize it are out of reach for almost everybody. Scout is the smaller model, and the medium-sized model Maverick only has a 1 million token context window. And the Behemoth model is still actively training. Generally speaking, people of the internet have been pretty disappointed with Llama 4's performance. I'm a strong believer in vibes over benchmarks, but Llama has done so well on the benchmarks that people have accused it of intentionally training on testing data for the benchmarks. Meta has denied these salacious, outrageous, and preposterous accusations. And despite being somewhat of a flop, let's not forget that these models are open. Not truly open source, but free for most of us to use. But if you want an AI agent that truly slaps, you need to check out Augment Code, the sponsor of today's video. They created the first AI agent for large-scale codebases, so you can use it at your actual job instead of just vibe-coding random side projects. Augment's context engine understands your team's entire codebase, allowing it to solve almost any task you throw at it. Like migrations and testing, all with best-in-class code quality. It integrates directly with all your favorite tools, like VS Code, GitHub, and Vim, and is able to learn and fine-tune itself from your team's unique code style, allowing you to solve complex jobs without the need to clean up a bunch of slop. Try out their developer plan for free, and you'll get access to all of Augment's features with unlimited usage. This has been The Code Report. Thanks for watching, and I will see you in the next one.