Wan 2.1 - open source generator video for local launch (film, 15m)
On the SmartTech Synergy channel, users had the opportunity to see a fascinating video about the new capabilities of model 1.2.1 for video generation, created by the Chinese company Alibaba. In today's world, artificial intelligence is entering various fields, and this model makes an astounding impression with its photorealistic animations that can be generated using it. Moreover, it is an open-source model, which means that users can use it for free on their own computers. SmartTech Synergy guides viewers step by step on how they can make the most out of this technology in practice.
The first step in using model 1.2.1 is understanding its structure and available capabilities. This model is released under the Apache 2 license, allowing countless users to use its functions commercially and personally. SmartTech Synergy highlights the various available versions of the model, which differ in the number of parameters and system requirements. Remote servers and models optimized for smaller Video RAM create new opportunities, especially for those who do not have advanced hardware.
The video also touches on accessing the models on online platforms such as OneVideo and Quen AI. The OneVideo platform offers 50 credits for free video generations, encouraging experimentation with new film production techniques. SmartTech Synergy also notes that video generation takes from 3 to 10 minutes, and users should arm themselves with patience, even if they sometimes encounter busy error messages.
The latter part of the video introduces viewers to the installation process of Confi UI, which is required to run model 1.2.1. SmartTech Synergy shows step by step how to install the program, download the right models, and configure everything for video generation. It includes practical advice on parameterization and types of videos, which is extremely helpful for novices in the field of AI-based video content creation.
In conclusion, it is worth mentioning the video statistics, which currently stand at 111,867 views and 3,079 likes. SmartTech Synergy successfully captured viewers' attention by offering valuable information and an accessible introduction to advanced video generation technology. Those who were interested in this material are likely eagerly awaiting more similar tutorials on this channel.
Toggle timeline summary
-
Introduction to AI-generated clips and model 1.2.1.
-
Overview of Alibaba's 1.2.1 model's impact and its capabilities.
-
Features like dynamic motion, photorealism, and text generation.
-
1.2.1's advantages over previous models and its open-source nature.
-
Instructions on how to use the model on personal computers.
-
Licensing information and commercial use of model 1.2.1.
-
Different versions of the model and their specifications.
-
Memory requirements for running the 14 billion parameter model.
-
Discussion on model versions optimized for lower memory use.
-
Options for renting machines online or using free platforms.
-
Information about the OneVideo platform and credit system.
-
Features available on the OneVideo platform and image generation.
-
Challenges faced when using the platforms and the importance of patience.
-
Guide on installing the Confi UI software.
-
Download instructions for Confi UI depending on the operating system.
-
Step-by-step process for downloading necessary models.
-
Downloading different models needed for video generation.
-
Details on downloading workflow examples for different types of video generation.
-
Overview of the interface for model selection and configurations.
-
Explanation of prompt fields and generating options.
-
Initiating the generation process and monitoring progress.
-
Conclusion on the results of the generated video.
-
Encouragement for audience interaction and feedback.
Transcription
Ten klip został wygenerowany przez AI, tak samo jak poprzedni i ten, i każdy następny. Kilka dni temu chińska Alibaba opublikowała 1.2.1, model do generowania filmów, który szturmem podbija nie tylko rankingi generatorów, ale i serca użytkowników. Sceny z dynamicznym ruchem, tańcem nawet wielu postaci naraz, a nawet walką, poprawna fizyka w scenach z wodą, czy krojeniem pomidora, fotorealizm, a nawet tekst. Rzeczy, w których 1.2.1 jest lepsze od tego, co widzieliśmy do tej pory, można wymieniać długo, ale nawet to nie jest jeszcze najlepszą wiadomością. Najlepszą wiadomością jest to, że to model open source i możesz go używać zupełnie za darmo, nie tylko na chińskiej platformie, ale też na swoim własnym komputerze. I w tym filmie pokażę Ci, jak to zrobić krok po kroku. Zaczniemy od najważniejszych informacji o modelu. 1.2.1 został opublikowany na licencji Apache 2, co oznacza, że możesz go używać bez żadnych restrykcji, włącznie z użytkiem komercyjnym. Możesz nawet oferować go jako usługę, jeśli zechcesz. Mamy do dyspozycji kilka modeli, które różnią się możliwościami. Omówię więc krótko, co jest czym. Po pierwsze, na oficjalnej stronie 1.2.1 znajdziemy oryginalne modele w czterech wersjach. Trzy z nich mają po 14 bilionów i jedna 1,3 biliona parametrów. Te parametry w oryginalnej wersji są niestety 32-bitowe, co oznacza, że model 14b będzie potrzebował aż 60 GB pamięci Video RAM. Nie ma więc szans uruchomić go na konsumenckim sprzęcie. Model ostatni, ten 1.3b, będzie zajmował nieco ponad 8 GB VRAM. Jeśli Twoja karta graficzna ma minimum 12 GB, to powinno się udać. Jest on też znacznie szybszy od dużych braci, ale oczywiście daje zauważalnie gorsze efekty. A przyszliśmy tutaj po najlepsze efekty, a nie mizerny kompromis. Na szczęście powstały już wersje tych modeli skwantyzowane do 8-bitowej precyzji. I dzięki temu modele 14b mieszczą się w 16 GB Video RAM, a model mały potrzebuje mniej niż 8 GB. Jeśli nie masz karty graficznej ze wsparciem CUDA lub wystarczającą ilością Video RAM, to wciąż masz kilka możliwości. Po pierwsze, możesz wynająć odpowiednią maszynę online, na takich platformach jak RunPod, HyperStack czy Oblivious. Koszty są rzędu od 2 do 6 zł za godzinę. Nie jest to może rozwiązanie najtańsze w dużej skali, ale też wypróbowanie go kosztuje mniej niż kawa na mieście. Wreszcie, możesz korzystać z modelu na kilku platformach online, zupełnie za darmo, ale już nie bez ograniczeń. Najbardziej funkcjonalna jest platforma OneVideo, gdzie po zarejestrowaniu kontem Google lub GitHub, dostajemy za darmo 50 kredytów na start oraz kolejne 50 każdego dnia, o ile wejdziemy na platformę i klikniemy ten przycisk. Kredyty są ważne przez 30 dni, a jedna generacja zjada ich 10. Mamy więc 5 generacji dziennie. Póki co nie ma tu możliwości do kupienia kredytów, nie mówiąc o cenniku, ale na pewno wkrótce się pojawią. Interfejs jest dość przejrzysty. Mamy tu możliwość wybrania modelu, formatu wideo, rozbudowania promptu przez AI, a także dodania dźwięku do generowanego filmu. Platforma przy okazji pozwala też generować obrazy, które kosztują 2 kredyty. Drugim miejscem, gdzie możemy używać modelu One jest czat Quen AI. Quen to nieco mniej znany czat bot, również stworzony przez Alibabę. Po kliknięciu w tę ikonę możemy w nim generować filmy. Tu też można wybrać format i dołączyć obraz wejściowy. Na obydwu platformach niestety częściej zdarzało mi się trafić na komunikat o zajętości niż coś wygenerować, więc dobrze uzbroić się w nieco cierpliwości. Samo generowanie też potrafi zająć od 3 do 10 minut. Wreszcie, ponieważ to model open source, to są też już płatne serwisy, które go oferują w rozmaitych cenach i subskrypcjach. Przejdźmy jednak do wisienki na torcie, czyli jak zainstalować One A2-1 na swoim sprzęcie. Będziemy potrzebowali przede wszystkim Confi UI. Zrobiłem już kiedyś bardziej wnikliwy tutorial o tym narzędziu, ale dziś pokażę Ci aktualnie najprostszy sposób instalacji i tyle ile jest konieczne, aby korzystać z omawianych dziś modeli. Aby zainstalować Confi UI, wchodzimy na stronę confi.org. Następnie wybieramy opcję Download Windows, jeśli pracujesz na Windowsie, lub Mac, jeśli na Macu. Po ściągnięciu instalatora oczywiście musimy go uruchomić i przejść przez proces całej instalacji. Nie jest on specjalnie skomplikowany. Klikamy wszędzie dalej, zostawiając opcję domyślne. I po instalacji aplikacja Confi UI nam się uruchomi w oknie. Po uruchomieniu Confi UI zobaczysz taki ekran. Następna rzecz, którą musimy zrobić, to pobrać nasze modele. W tym celu wchodzimy na tę stronę. Znajdziesz ją w opisie pod filmem, opisaną jako Confi UI One. I na tej stronie znajdziemy wszystko, co potrzebne do odpalenia One'a w Confi UI. Po pierwsze workflowy, a po drugie same modele, które musimy najpierw pobrać. Zacznijmy od pobierania modeli. Tych modeli, które musimy pobrać jest kilka. Nie tylko same modele dyfuzyjne do generowania filmów, ale też model VAR, CLIP i encoder tekstu. Zaczynamy od encodera tekstu. Wchodzimy w ten link i pobieramy wersję FP8. Klikamy tutaj i model nam się pobiera. Kiedy nam się ściągnie, kopiujemy go do katalogu Confi UI Models Text Encoders. Ten katalog, jeżeli wszystkie opcje przy instalacji zostawiłeś domyślne, znajdziesz w dokumentach. Więc wchodzimy w dokumenty i tu mamy katalog Confi UI. Następnie mamy Models i Text Encoders. I do tego katalogu docelowego kopiujemy plik, który właśnie ściągnęliśmy. Następny model, który musimy ściągnąć to model VAR. Klikamy więc w ten link i klikamy Download. I kiedy nam się pobierze, kopiujemy go z kolei do katalogu Models VAR. Następnie musimy pobrać same modele dyfuzyjne, te które będą nam generować docelowy film. Klikamy więc tutaj i pobieramy wersję FP8. Teraz tak, w zależności od tego czy masz dużo czy mało miejsca na dysku, możesz wybrać tylko ten model, który będzie Ci odpowiadał najbardziej. Ale ja zalecam pobrać wszystkie, jeżeli tylko masz na nie miejsce. Więc pobieramy tak, 480P14BFP8, 720P14BFP8, 14BFP8 oraz 13BFP16. Wszystkie modele, które pobraliśmy tutaj, kopiujemy do katalogu Models, Dyfusion Models. A więc tu, pobieranie tych modeli może trochę potrwać. Każdy z nich waży po kilkanaście gigabajtów, więc w zależności od Twojego łącza i dostępności transferu na Hugging Face, będziesz musiał na to poczekać 2-3 godziny. Następna rzecz, którą musimy zrobić, to skopiować workflow z tej strony. Mamy tu trzy przykładowe workflow'y. Text to Video, Image to Video i kolejny Image to Video 720P. Gdzie te workflow'y zapytasz? A no, są to te obrazki. Wystarczy, że złapiesz myszką ten obrazek i przeciągniesz do ConfiWi. I voila, nasz workflow mamy na miejscu. Teraz tak, jeśli któryś z tych node'ów będzie oznaczony na czerwono, albo pojawi się komunikat z jakimś błędem, kliknij tutaj Manager i gdzieś tu będzie opcja aktualizacji ConfiWi. Wybierz tą opcję, a kiedy się skończy, kliknij Restart. Następna rzecz, którą możesz zrobić, jeśli będzie brakowało któregoś node'a, Install Missing Custom Nodes. Na tej liście po chwili pojawią Ci się wszystkie brakujące node'y do zainstalowania, razem z opcją Zainstaluj. Wystarczy ją kliknąć, poczekać aż się zainstaluje, wrócić, znowu zrestartować ConfiWi i powinno wszystko działać. Teraz, co mamy tutaj po kolei? To okno jest najważniejsze. Wybieramy tutaj właściwy model, który będzie nam generował film. Więc musimy zwrócić uwagę, żeby wybrać model odpowiedni dla naszego workflow. Ten workflow, który tutaj mamy, ten pierwszy z Liskiem, on generuje film na podstawie tylko promptu wejściowego. Nie możemy tutaj dołączyć obrazu, wybieramy więc modele Text to Video, T to V. Więc możemy wybrać ten model lub ten model. Kolejny node służy do wybrania modelu Clip. Ten model powinien być już wybrany i jeśli ściągnąłeś go i umieściłeś we właściwym miejscu w katalogu ConfiWi, wszystko tutaj powinno być w porządku. W tym node'zie ustalamy rozdzielczość tak zwanej przestrzeni latentnej, czyli takiej wejściowej ramki na wideo, które będziemy generować. Wideo czy obrazek, jeśli będziesz używał ConfiWi do generowania obrazków, będzie to wyglądało bardzo podobnie. Więc w polach Wid i Height ustalamy rozdzielczość docelową naszego wideo. Z tym, że jeśli wybieramy model, który generuje 480p, w Height powinniśmy ustawić 480p. Natomiast jeśli wybieramy model, który generuje 720p, powinniśmy tu ustawić 720p. Jeśli chodzi o szerokość, nie ma ona aż takiego znaczenia, aczkolwiek im wyższa, tym oczywiście nasza generacja będzie trwała dłużej. Mamy tutaj jeszcze Length, czyli długość. Jest to długość w klatkach. Modele 1, 2, 1 generują wideo, które ma 16 klatek na sekundę. 33 to są więc 2 sekundy i jedna klatka. Tą jedną klatkę musimy zawsze dodać. Jeżeli chcemy wygenerować 5 sekund, to będzie to 5 razy 16 plus 1. Ta przestrzeń latentna trafia następnie do Case Samplera i tu możemy ustawić kolejne parametry. Pierwszym z nich jest Seed, czyli ziarno. Jest to liczba, na podstawie której generowany jest losowy szum, którym zapełniana jest przestrzeń latentna o tej powierzchni. Następnie mamy możliwość wybrania sposobu generowania tego Seeda. Czy ma być stały? Przy stałym Seedzie i stałym prompcie wyjściowym oraz innych parametrach dostaniemy za każdym razem identyczną generację. Domyślną wartością tutaj jest Randomize, czyli za każdym razem dostajemy inny Seed. Jest to wartość zalecana przy zwykłym używaniu. Natomiast jeśli wybierzemy Fixed, to możemy wtedy zmienić na przykład jedno słowo w naszym prompcie i przekonać się, jak wpływa ono na ostateczną generację. Następnie mamy Steps, ilość kroków. Kroków odszumiania tego początkowego szumu na przestrzeni latentnej. Właśnie w ten sposób powstaje nasz obraz czy wideo. Początkowy losowy szum jest odszumiany w 30 krokach za pomocą naszego modelu. CFG to parametr, który decyduje o tym, jak bardzo kreatywny z jednej strony lub jak bardzo posłuszny z drugiej strony będzie model. Jeśli ustawimy tu wyższą wartość, to będzie się mocniej trzymał naszego promptu. Jeżeli ustawimy niższą, będzie bardziej kreatywny, ale niekoniecznie dostaniemy to, o co prosiliśmy. Resztę parametrów zalecam Ci zostawić tak jak są. I w ostatnim nodzie mamy zapisywanie w formie WebP. I mamy tutaj ustawienia w stylu, gdzie plik ma zostać zapisany, typ kompresji, jakość i metodę. Mamy jeszcze node z negatywnym promptem i są tutaj chińskie znaczki. Są one tutaj wpisane domyślnie przez twórców modelu i nie zalecam ich zmienić. Ale możemy podejrzeć w translatorze, co one oznaczają. I jak widać są to zwykłe słowa kluczowe, które zwykle wpisujemy do negatywnych promptów. Natomiast w zielonym polu mamy wreszcie nasz prompt. To jest to pole, w którym wpisujemy, co chcemy uzyskać. Ostatnia istotna rzecz, jak uruchomić generowanie. Uruchamiamy je przyciskiem QE. Wtedy wszystko zaczyna startować. Widzimy tutaj na górze pasek postępu. Z tym, że po kolei będą nam się ładowały wszystkie modele. I będzie to pasek postępu ładowania tych modeli. I dopiero po jakimś czasie, kiedy wszystkie modele się załadują i dotrzemy do case samplera. Wtedy zacznie się generowanie i pasek postępu, który będzie tutaj szedł. Będzie to postęp generowania naszego filmu. I tu też należy uzbroić się w cierpliwość. W zależności od Twojego sprzętu, od wybranych parametrów i modelu. Generowanie będzie trwało od kilku do kilkudziesięciu minut. A jeśli przesadzisz z wybranymi parametrami, nigdy się nie ukończy. Oczywiście, jeśli chcesz generować coś na podstawie obrazu. To wracamy na naszą stronę confiway. I potrzebujemy teraz workflow image to video. Więc przeciągamy go znowu do naszego confiway. I mamy tutaj note load image. Jednak aby działał on poprawnie, potrzebujemy jeszcze ściągnąć model clip vision. Ściągamy go z tej samej strony. Mamy tutaj linka i klikamy download. Następnie przenosimy ten model do katalogu models clip vision. Ja już oczywiście mam go ściągniętego. I dlatego confiway nie krzyczy, że coś jest nie tak. Klikamy tutaj, wybieramy obrazek. Upewniamy się, czy mamy wybrany właściwy model do generowania. Wpisujemy prompt. Ustawiamy parametry jak rozdzielczość i długość. A następnie klikamy QE. I czekamy cierpliwie, aż nasz film się wygeneruje. I to wszystko. W ten sposób możesz generować filmy na własnym komputerze. A mój chyba właśnie kończy się generować. I mamy tutaj dokładnie tak jak opisane w prompcie. Szybko poruszającego się lisa w zimowej scenerii z drzewami w tle. I z kamerą, która go śledzi. Oczywiście jest to generacja z tego najsłabszego modelu 1.3b. Więc nie możemy się tutaj spodziewać niesamowitych efektów. Ale wciąż myślę, że jak na tak szybką generację, która trwa około dwóch minut. Na zwykłym domowym PC to efekt jest i tak bardzo dobry. Dzięki, że zostałeś do końca. Napisz koniecznie w komentarzu, co uważasz o One 2.1. Jeśli materiał był przydatny, zostaw łapkę w górę. I rozważ subskrypcję, bo to nie ostatni taki na tym kanale. Cześć.