Wan 2.1 - open source generator video for local launch (film, 15m)

Ten klip został wygenerowany przez AI, tak samo jak poprzedni i ten, i każdy następny. Kilka dni temu chińska Alibaba opublikowała 1.2.1, model do generowania filmów, który szturmem podbija nie tylko rankingi generatorów, ale i serca użytkowników. Sceny z dynamicznym ruchem, tańcem nawet wielu postaci naraz, a nawet walką, poprawna fizyka w scenach z wodą, czy krojeniem pomidora, fotorealizm, a nawet tekst. Rzeczy, w których 1.2.1 jest lepsze od tego, co widzieliśmy do tej pory, można wymieniać długo, ale nawet to nie jest jeszcze najlepszą wiadomością. Najlepszą wiadomością jest to, że to model open source i możesz go używać zupełnie za darmo, nie tylko na chińskiej platformie, ale też na swoim własnym komputerze. I w tym filmie pokażę Ci, jak to zrobić krok po kroku. Zaczniemy od najważniejszych informacji o modelu. 1.2.1 został opublikowany na licencji Apache 2, co oznacza, że możesz go używać bez żadnych restrykcji, włącznie z użytkiem komercyjnym. Możesz nawet oferować go jako usługę, jeśli zechcesz. Mamy do dyspozycji kilka modeli, które różnią się możliwościami. Omówię więc krótko, co jest czym. Po pierwsze, na oficjalnej stronie 1.2.1 znajdziemy oryginalne modele w czterech wersjach. Trzy z nich mają po 14 bilionów i jedna 1,3 biliona parametrów. Te parametry w oryginalnej wersji są niestety 32-bitowe, co oznacza, że model 14b będzie potrzebował aż 60 GB pamięci Video RAM. Nie ma więc szans uruchomić go na konsumenckim sprzęcie. Model ostatni, ten 1.3b, będzie zajmował nieco ponad 8 GB VRAM. Jeśli Twoja karta graficzna ma minimum 12 GB, to powinno się udać. Jest on też znacznie szybszy od dużych braci, ale oczywiście daje zauważalnie gorsze efekty. A przyszliśmy tutaj po najlepsze efekty, a nie mizerny kompromis. Na szczęście powstały już wersje tych modeli skwantyzowane do 8-bitowej precyzji. I dzięki temu modele 14b mieszczą się w 16 GB Video RAM, a model mały potrzebuje mniej niż 8 GB. Jeśli nie masz karty graficznej ze wsparciem CUDA lub wystarczającą ilością Video RAM, to wciąż masz kilka możliwości. Po pierwsze, możesz wynająć odpowiednią maszynę online, na takich platformach jak RunPod, HyperStack czy Oblivious. Koszty są rzędu od 2 do 6 zł za godzinę. Nie jest to może rozwiązanie najtańsze w dużej skali, ale też wypróbowanie go kosztuje mniej niż kawa na mieście. Wreszcie, możesz korzystać z modelu na kilku platformach online, zupełnie za darmo, ale już nie bez ograniczeń. Najbardziej funkcjonalna jest platforma OneVideo, gdzie po zarejestrowaniu kontem Google lub GitHub, dostajemy za darmo 50 kredytów na start oraz kolejne 50 każdego dnia, o ile wejdziemy na platformę i klikniemy ten przycisk. Kredyty są ważne przez 30 dni, a jedna generacja zjada ich 10. Mamy więc 5 generacji dziennie. Póki co nie ma tu możliwości do kupienia kredytów, nie mówiąc o cenniku, ale na pewno wkrótce się pojawią. Interfejs jest dość przejrzysty. Mamy tu możliwość wybrania modelu, formatu wideo, rozbudowania promptu przez AI, a także dodania dźwięku do generowanego filmu. Platforma przy okazji pozwala też generować obrazy, które kosztują 2 kredyty. Drugim miejscem, gdzie możemy używać modelu One jest czat Quen AI. Quen to nieco mniej znany czat bot, również stworzony przez Alibabę. Po kliknięciu w tę ikonę możemy w nim generować filmy. Tu też można wybrać format i dołączyć obraz wejściowy. Na obydwu platformach niestety częściej zdarzało mi się trafić na komunikat o zajętości niż coś wygenerować, więc dobrze uzbroić się w nieco cierpliwości. Samo generowanie też potrafi zająć od 3 do 10 minut. Wreszcie, ponieważ to model open source, to są też już płatne serwisy, które go oferują w rozmaitych cenach i subskrypcjach. Przejdźmy jednak do wisienki na torcie, czyli jak zainstalować One A2-1 na swoim sprzęcie. Będziemy potrzebowali przede wszystkim Confi UI. Zrobiłem już kiedyś bardziej wnikliwy tutorial o tym narzędziu, ale dziś pokażę Ci aktualnie najprostszy sposób instalacji i tyle ile jest konieczne, aby korzystać z omawianych dziś modeli. Aby zainstalować Confi UI, wchodzimy na stronę confi.org. Następnie wybieramy opcję Download Windows, jeśli pracujesz na Windowsie, lub Mac, jeśli na Macu. Po ściągnięciu instalatora oczywiście musimy go uruchomić i przejść przez proces całej instalacji. Nie jest on specjalnie skomplikowany. Klikamy wszędzie dalej, zostawiając opcję domyślne. I po instalacji aplikacja Confi UI nam się uruchomi w oknie. Po uruchomieniu Confi UI zobaczysz taki ekran. Następna rzecz, którą musimy zrobić, to pobrać nasze modele. W tym celu wchodzimy na tę stronę. Znajdziesz ją w opisie pod filmem, opisaną jako Confi UI One. I na tej stronie znajdziemy wszystko, co potrzebne do odpalenia One'a w Confi UI. Po pierwsze workflowy, a po drugie same modele, które musimy najpierw pobrać. Zacznijmy od pobierania modeli. Tych modeli, które musimy pobrać jest kilka. Nie tylko same modele dyfuzyjne do generowania filmów, ale też model VAR, CLIP i encoder tekstu. Zaczynamy od encodera tekstu. Wchodzimy w ten link i pobieramy wersję FP8. Klikamy tutaj i model nam się pobiera. Kiedy nam się ściągnie, kopiujemy go do katalogu Confi UI Models Text Encoders. Ten katalog, jeżeli wszystkie opcje przy instalacji zostawiłeś domyślne, znajdziesz w dokumentach. Więc wchodzimy w dokumenty i tu mamy katalog Confi UI. Następnie mamy Models i Text Encoders. I do tego katalogu docelowego kopiujemy plik, który właśnie ściągnęliśmy. Następny model, który musimy ściągnąć to model VAR. Klikamy więc w ten link i klikamy Download. I kiedy nam się pobierze, kopiujemy go z kolei do katalogu Models VAR. Następnie musimy pobrać same modele dyfuzyjne, te które będą nam generować docelowy film. Klikamy więc tutaj i pobieramy wersję FP8. Teraz tak, w zależności od tego czy masz dużo czy mało miejsca na dysku, możesz wybrać tylko ten model, który będzie Ci odpowiadał najbardziej. Ale ja zalecam pobrać wszystkie, jeżeli tylko masz na nie miejsce. Więc pobieramy tak, 480P14BFP8, 720P14BFP8, 14BFP8 oraz 13BFP16. Wszystkie modele, które pobraliśmy tutaj, kopiujemy do katalogu Models, Dyfusion Models. A więc tu, pobieranie tych modeli może trochę potrwać. Każdy z nich waży po kilkanaście gigabajtów, więc w zależności od Twojego łącza i dostępności transferu na Hugging Face, będziesz musiał na to poczekać 2-3 godziny. Następna rzecz, którą musimy zrobić, to skopiować workflow z tej strony. Mamy tu trzy przykładowe workflow'y. Text to Video, Image to Video i kolejny Image to Video 720P. Gdzie te workflow'y zapytasz? A no, są to te obrazki. Wystarczy, że złapiesz myszką ten obrazek i przeciągniesz do ConfiWi. I voila, nasz workflow mamy na miejscu. Teraz tak, jeśli któryś z tych node'ów będzie oznaczony na czerwono, albo pojawi się komunikat z jakimś błędem, kliknij tutaj Manager i gdzieś tu będzie opcja aktualizacji ConfiWi. Wybierz tą opcję, a kiedy się skończy, kliknij Restart. Następna rzecz, którą możesz zrobić, jeśli będzie brakowało któregoś node'a, Install Missing Custom Nodes. Na tej liście po chwili pojawią Ci się wszystkie brakujące node'y do zainstalowania, razem z opcją Zainstaluj. Wystarczy ją kliknąć, poczekać aż się zainstaluje, wrócić, znowu zrestartować ConfiWi i powinno wszystko działać. Teraz, co mamy tutaj po kolei? To okno jest najważniejsze. Wybieramy tutaj właściwy model, który będzie nam generował film. Więc musimy zwrócić uwagę, żeby wybrać model odpowiedni dla naszego workflow. Ten workflow, który tutaj mamy, ten pierwszy z Liskiem, on generuje film na podstawie tylko promptu wejściowego. Nie możemy tutaj dołączyć obrazu, wybieramy więc modele Text to Video, T to V. Więc możemy wybrać ten model lub ten model. Kolejny node służy do wybrania modelu Clip. Ten model powinien być już wybrany i jeśli ściągnąłeś go i umieściłeś we właściwym miejscu w katalogu ConfiWi, wszystko tutaj powinno być w porządku. W tym node'zie ustalamy rozdzielczość tak zwanej przestrzeni latentnej, czyli takiej wejściowej ramki na wideo, które będziemy generować. Wideo czy obrazek, jeśli będziesz używał ConfiWi do generowania obrazków, będzie to wyglądało bardzo podobnie. Więc w polach Wid i Height ustalamy rozdzielczość docelową naszego wideo. Z tym, że jeśli wybieramy model, który generuje 480p, w Height powinniśmy ustawić 480p. Natomiast jeśli wybieramy model, który generuje 720p, powinniśmy tu ustawić 720p. Jeśli chodzi o szerokość, nie ma ona aż takiego znaczenia, aczkolwiek im wyższa, tym oczywiście nasza generacja będzie trwała dłużej. Mamy tutaj jeszcze Length, czyli długość. Jest to długość w klatkach. Modele 1, 2, 1 generują wideo, które ma 16 klatek na sekundę. 33 to są więc 2 sekundy i jedna klatka. Tą jedną klatkę musimy zawsze dodać. Jeżeli chcemy wygenerować 5 sekund, to będzie to 5 razy 16 plus 1. Ta przestrzeń latentna trafia następnie do Case Samplera i tu możemy ustawić kolejne parametry. Pierwszym z nich jest Seed, czyli ziarno. Jest to liczba, na podstawie której generowany jest losowy szum, którym zapełniana jest przestrzeń latentna o tej powierzchni. Następnie mamy możliwość wybrania sposobu generowania tego Seeda. Czy ma być stały? Przy stałym Seedzie i stałym prompcie wyjściowym oraz innych parametrach dostaniemy za każdym razem identyczną generację. Domyślną wartością tutaj jest Randomize, czyli za każdym razem dostajemy inny Seed. Jest to wartość zalecana przy zwykłym używaniu. Natomiast jeśli wybierzemy Fixed, to możemy wtedy zmienić na przykład jedno słowo w naszym prompcie i przekonać się, jak wpływa ono na ostateczną generację. Następnie mamy Steps, ilość kroków. Kroków odszumiania tego początkowego szumu na przestrzeni latentnej. Właśnie w ten sposób powstaje nasz obraz czy wideo. Początkowy losowy szum jest odszumiany w 30 krokach za pomocą naszego modelu. CFG to parametr, który decyduje o tym, jak bardzo kreatywny z jednej strony lub jak bardzo posłuszny z drugiej strony będzie model. Jeśli ustawimy tu wyższą wartość, to będzie się mocniej trzymał naszego promptu. Jeżeli ustawimy niższą, będzie bardziej kreatywny, ale niekoniecznie dostaniemy to, o co prosiliśmy. Resztę parametrów zalecam Ci zostawić tak jak są. I w ostatnim nodzie mamy zapisywanie w formie WebP. I mamy tutaj ustawienia w stylu, gdzie plik ma zostać zapisany, typ kompresji, jakość i metodę. Mamy jeszcze node z negatywnym promptem i są tutaj chińskie znaczki. Są one tutaj wpisane domyślnie przez twórców modelu i nie zalecam ich zmienić. Ale możemy podejrzeć w translatorze, co one oznaczają. I jak widać są to zwykłe słowa kluczowe, które zwykle wpisujemy do negatywnych promptów. Natomiast w zielonym polu mamy wreszcie nasz prompt. To jest to pole, w którym wpisujemy, co chcemy uzyskać. Ostatnia istotna rzecz, jak uruchomić generowanie. Uruchamiamy je przyciskiem QE. Wtedy wszystko zaczyna startować. Widzimy tutaj na górze pasek postępu. Z tym, że po kolei będą nam się ładowały wszystkie modele. I będzie to pasek postępu ładowania tych modeli. I dopiero po jakimś czasie, kiedy wszystkie modele się załadują i dotrzemy do case samplera. Wtedy zacznie się generowanie i pasek postępu, który będzie tutaj szedł. Będzie to postęp generowania naszego filmu. I tu też należy uzbroić się w cierpliwość. W zależności od Twojego sprzętu, od wybranych parametrów i modelu. Generowanie będzie trwało od kilku do kilkudziesięciu minut. A jeśli przesadzisz z wybranymi parametrami, nigdy się nie ukończy. Oczywiście, jeśli chcesz generować coś na podstawie obrazu. To wracamy na naszą stronę confiway. I potrzebujemy teraz workflow image to video. Więc przeciągamy go znowu do naszego confiway. I mamy tutaj note load image. Jednak aby działał on poprawnie, potrzebujemy jeszcze ściągnąć model clip vision. Ściągamy go z tej samej strony. Mamy tutaj linka i klikamy download. Następnie przenosimy ten model do katalogu models clip vision. Ja już oczywiście mam go ściągniętego. I dlatego confiway nie krzyczy, że coś jest nie tak. Klikamy tutaj, wybieramy obrazek. Upewniamy się, czy mamy wybrany właściwy model do generowania. Wpisujemy prompt. Ustawiamy parametry jak rozdzielczość i długość. A następnie klikamy QE. I czekamy cierpliwie, aż nasz film się wygeneruje. I to wszystko. W ten sposób możesz generować filmy na własnym komputerze. A mój chyba właśnie kończy się generować. I mamy tutaj dokładnie tak jak opisane w prompcie. Szybko poruszającego się lisa w zimowej scenerii z drzewami w tle. I z kamerą, która go śledzi. Oczywiście jest to generacja z tego najsłabszego modelu 1.3b. Więc nie możemy się tutaj spodziewać niesamowitych efektów. Ale wciąż myślę, że jak na tak szybką generację, która trwa około dwóch minut. Na zwykłym domowym PC to efekt jest i tak bardzo dobry. Dzięki, że zostałeś do końca. Napisz koniecznie w komentarzu, co uważasz o One 2.1. Jeśli materiał był przydatny, zostaw łapkę w górę. I rozważ subskrypcję, bo to nie ostatni taki na tym kanale. Cześć.

Menu

Wan 2.1 - open source generator video for local launch (film, 15m)

Toggle timeline summary

Transcription