Tworzenie złożonych deepfake z jednego obrazu wejściowego - jak bardzo zaawansowana jest obecnie ta technologia?
Ostatnio w materiale na kanale bycloud poruszono temat zabawnych memów stworzonych przez sztuczną inteligencję. Autor zauważył, że jednym z najwcześniejszych przykładów memetycznej AI były deepfake, a obecnie coraz więcej sztucznych inteligencji wykorzystywanych jest w sposób komediowy. Wspomniał również o modelu o nazwie first order motion, który charakteryzuje się dobrą jakością transferu ruchu, aczkolwiek ogranicza się do ludzkich twarzy. Choć w jego demie pokazano także transfer ruchu konia, to rezultat nie dorównywał jakości transferu mimiki twarzy.
Następnie autor przeszedł do najnowszych wiadomości związanych z AI i wspomniał o badaniach naukowych, które opublikowały nowy dokument zatytułowany Liquid Warping Gen. Nie minęło długo, a kod źródłowy został opublikowany jako Open Source. Oficjalne demo okazało się niezwykle przekonujące, wykazując fenomenalne umiejętności w zakresie uchwytywania ruchu, mapowania ciał w 3D oraz innych skomplikowanych detali. Nawet jeśli rozwiązanie dotyczy tylko jednej osoby, to jego funkcjonalność jest zdumiewająca.
Autor podzielił się również wrażeniami z użytkowania AI, które pozwala na łatwe przeprowadzanie transferów ruchu z jednego zdjęcia pełnego ciała wykorzystując jedno polecenie. Oprócz potencjału w tworzeniu memów, autor zaznacza, że AI może być wykorzystane w rozwoju gier, animacji postaci, a także przy próbowaniu ubrań dzięki funkcji transferu wyglądu. Wskazał na przykłady zabawnych wyników, które uzyskał, natrafiając na sytuacje, gdy AI „przeładowywało” dane i nakładało przód ciała na tył, co tworzyło komiczne efekty.
Kolejnym interesującym punktem poruszonym wideo była koncepcja novel view synthesis, polegająca na generowaniu nowych informacji o perspektywach, które nie były prezentowane w wejściu. Porównał to z generowaniem modeli 3D przez PifuHD, podkreślając, że nowa technologia AI może usprawnić proces tworzenia modeli 3D. Autor bawił się również stylem generacji, zauważając, że chociaż efekty mogą przypominać postaci z gier z lat 2000, to czas renderowania wynoszący jedynie 3 minuty jest olbrzymim krokiem naprzód.
Pod koniec wideo autor podkreślił znaczenie opublikowania wersji demo w 1080p, co pokazuje, że nowa technologia nie jest ograniczona do niskiej rozdzielczości. Przy obecnej liczbie wyświetleń tego wideo wynoszącej 1 850 212 i 60 536 polubieniach możemy spodziewać się przyszłego boomu na memy wykorzystujące tę nową AI. Autor zaprasza do eksperymentowania z nową technologią oraz dzielenia się wynikami na Discordzie. Zachęca również do kontaktu z zespołem Infinite Red, który poradzi w budowie aplikacji mobilnych i internetowych.
Toggle timeline summary
-
Wprowadzenie do memów generowanych przez AI.
-
Dyskusja na temat wczesnej AI, takiej jak deepfakes.
-
Wzrost komicznego wykorzystania technologii AI.
-
Odniesienie do modelu ruchu pierwszego rzędu.
-
Możliwości technologii deepfake.
-
Wprowadzenie do Liquid Warping Gen AI.
-
Wydanie kodów źródłowych dla AI.
-
Możliwości wysokiej jakości przechwytywania ruchu.
-
Przekonanie o jakości transferu ruchu tej technologii.
-
Zastosowania AI w tworzeniu gier i animacji postaci.
-
Najzabawniejsze wyniki uzyskane dzięki AI.
-
Wyjaśnienie nowej technologii syntezy widoków.
-
Ograniczenia związane z generowaniem skóry.
-
Potencjalne ulepszenia w generowaniu modeli 3D.
-
Porównanie czasów renderowania z przeszłymi metodami animacji.
-
Oczekiwanie na przyszłe technologie i memy.
-
Link do tutorialu instalacyjnego dla AI.
-
Uznanie sponsorowania przez Infinite Red.
-
Podsumowanie i podziękowania dla supporterów.
Transcription
Lately, we have been seeing some pretty hilarious memes that are made from AIs. Looking back, one of the earliest memeable AI was definitely from deepfakes, and now more and more AIs are being used comedically, and they are just too much fun. Remember the first order motion model that I covered a few months ago? It does a super good job at deepfaking with only one source image, however it only works on human faces. In their demo, they did show some horse motions transfer or human movements transfer, but it was not as good as the facial motions transfer. So, onto the latest AI news. 3 weeks ago, an AI research paper called Liquid Warping Gen was published, and just a few days ago, they have open sourced their codes. And first of all, their official demo looks too good to be true. It looks insanely good at motion capturing, mapping 3D bodies, image and painting, and many other details that have shown to be difficult to completely function on its own. And to blend all these into one, we would probably expect something not as functional. But after they released their codes, I am absolutely convinced. It is just inconceivably good at motion transferring, even if it is only limited to just one single person. So you basically can take any full body shot of anyone that has a defined body part, and use a reference video to perform motion transfer with just one single command, but a fairly lengthy one. Other than the incredible meme potential, this AI can be used in places such as game development, character animation, and it even can be used for trying on clothes with its appearance transfer function, which sounds amazing if it is developed even further. Looking at my results, they are just hilarious. If not enough information about a person's body is presented, the AI would instead paste the front body on their back, which creates such monstrosity. This is also called novel view synthesis, where the AI would generate new information about the perspectives that are not presented in the input, like the side view of a person or the backside. This is similar to how PifuHD generates the 3D model, but since it is just model generation, not skin generation, they use the front image instead. But in this case, the author can't generate new information of the skin from the back, so they just apply the same image from the front. However, this can be easily improved as the author made it so the AI can take in both the front side and the backside image information and generate a full 3D model for motion transfer. So now, it wouldn't have the problem of having a double-sided face. This would definitely be really beneficial if this can be extracted as a 3D model too. Even though the generated output does look a bit too rounded, which looks like some of that 2000s game graphics for characters, but hey, this only takes like 3 minutes to render and 20 years ago, people still needed to animate this themselves, which can take way longer than 5 minutes. The official demo did also provide a 1080p version, which shows how it is not limited like FOM to just 500x500 pixels. And compared to their previous work, this is a huge step up and a big milestone for them. And this would also mean we will soon have some better technologies and memes for us to enjoy. Not gonna lie, it is only a matter of time before a meme with this AI takes over the internet. So if you want to play around with this AI yourself, I'll link my installation tutorial that's on my spam channel down in the description. This video is sponsored by Infinite Red. Infinite Red Consulting handles your mobile, web, and AI needs. If you are looking for someone to build your app, visit with the link down in the description. If you have any questions about the installation or wanna share your results, you can head over to my discord channel. A big shoutout to Mark Finn and many other Patreons that support me on Patreon. Follow me on Twitter if you haven't and I'll see you all in the next one.