Advanced Deepfake Recordings - Tutorial (Film, 8 Minutes)
Adrian Kilar draws attention to the issue of video and audio manipulation, particularly in the context of lip-syncing tools becoming increasingly common. In his video, he emphasizes how easily one can create realistic-looking recordings that are actually fake. Kilar discusses how to recognize such manipulations, pointing out details like artifacts around the face, inconsistencies between audio and lip movements, as well as the quality and naturalness of the face itself. He urges his viewers to be vigilant about what they watch and hear, considering the simplicity with which such recordings can be made.
In the second part of the video, Adrian demonstrates specific tools for voice synthesis, using the example of cloning Arnold Schwarzenegger's speech. He starts by downloading video footage and clean audio, then uses software to generate a new statement. He mentions that synchronizing lips with fake audio statements is simpler than one might think, and even individuals with no advanced technical knowledge can achieve success in this area.
According to his presentation, Adrian employs plugins and online tools to show how easily one can manipulate video. He explains that users can generate high-quality video effects for a minimal fee, making the technology accessible to a wide audience. This clearly illustrates how advanced techniques can be used for both entertainment and potentially deceptive purposes.
Adrian not only demonstrates how to create such content but also provides practical advice on how to protect oneself from such manipulations. He points out various factors that may indicate the artificiality of a recording, from unnatural sounds to strange lip movements. As he claims, the methods presented are just the first steps in defending against the spread of false information, and user awareness is crucial in this battle.
Finally, Adrian Kilar highlights the immense interest in the topic, sharing that the video has already reached 35,790 views and 1,347 likes. It is worth following this thread as the topic of video manipulation in the age of technology is becoming increasingly relevant. As technology advances, we are more susceptible to various forms of disinformation, making it essential to remain alert and aware of the traps that may await us online.
Toggle timeline summary
-
Awareness of manipulated recordings.
-
Importance of observing lips for authenticity.
-
Check for strange artifacts around the face.
-
Watch for audio delays.
-
Notice rubbery faces and artificial accents.
-
Introduction to a tutorial about AI in video.
-
Discussion of lip syncing tools.
-
Demonstrating video manipulation is simple.
-
Using clean audio for voice cloning.
-
Creating voice profiles for cloning.
-
Connecting original video and generated audio.
-
Discussing the simplicity of the tool.
-
Preview of the generated effect.
-
Comparison of output quality from different tools.
-
Challenge with syncing Arnold's speech in Polish.
-
Tips for checking video authenticity.
-
Checking for artificial elements in faces.
-
Concluding remarks and awareness of manipulation.
Transcription
Musimy mieć świadomość, że możemy się nabrać na tego typu nagrania. Ale aby się przed tym uchronić, warto zwrócić uwagę na usta. Czy wokół twarzy nie występują dziwne artefakty? Czy dźwięk nie jest lekko przesunięty? Zwróć uwagę na gumową twarz i sztuczny akcent. Oraz przede wszystkim, kto publikuje ten film. Nigdy też nie klikajmy w link podany pod takim filmem. Uważajmy na to, co widzimy i słyszymy. Cześć moi drodzy, witam was w takim tutorialowym materiale, bo to movie camera, ale znowu powiązana z AI. Movie camera, dlatego że tu jest kamera, a ja mówię. Ale tak szczerze powiedziawszy, to temat jest poważny. A mianowicie chodzi o narzędzia do lip synku, czyli mówiąc wprost do synchronizacji ust z podrobioną wypowiedzią audio. I mam nadzieję, że ten film uświadomi dużej grupie ludzi, że coś takiego istnieje i że będziemy się z tym chcąc, nie chcąc zmierzać zapewne coraz częściej. I manipulacja wideo, audio, wizualna jest naprawdę banalnie prosta. I to wam dzisiaj w tym filmie chciałem może nie udowodnić, tylko pokazać i uświadomić, wręcz otworzyć oczy tym, którzy myślą, że to są jakieś skomplikowane narzędzia i stoją za tym nie wiadomo jak potężne komputery i ogromna wiedza informatyczno-hakerska. Nic z tych rzeczy. To co? Zaczynamy. Niech to będzie Schwarzenegger, Schwarzenegger speech. OK, zobaczcie, mamy tutaj wideo idealne, dlatego że posłuży nam jako już materiał oryginalny do lip-synka, ale również posłuży nam audio, które jest czyste, jest czystą wypowiedzią do sklonowania głosu. Mam tutaj taką wtyczkę, która pobiera mi bezpośrednio ten materiał z YouTube'a. OK, moi drodzy, mamy materiał, więc ważne jest na początek, aby sklonować głos. Potrzebujemy dosłownie do tego, no minutka starczy, więc znajduję moment po prostu, kiedy nasz bohater mówi, ale nie ma żadnych oklasków czy nikt przypadkiem tam nie wchodzi. No dobra, to teraz wyrenderujmy go do MP3, nazwijmy to Arnold Materiał i już wchodzimy sobie do Eleven Labs, gdzie tworzymy głos. Tutaj tych głosów już mam trochę potworzonych. Skasuję jeden, niech to będzie Chuck Norris. Instant voice cloning, czyli jak z łupka instant, więc trenowanie dzieje się od razu, nawet nie w minutę. Musimy tutaj zafajkować, klikamy Add voice, no i już jest. Spójrzcie, klikamy Use, wpisujemy tekst, generujemy. Fajne w generowaniu jest to, że za każdym razem wychodzi trochę inaczej. Pozdrawiam widzów AI Nowości, zostaw suba dla przyszłości, lecimy dalej. Moim zdaniem to jest całkiem spoko, ale możemy to, jak powiedziałem, wygenerować sobie jeszcze inne wersje, troszkę inna intonacja. Pozdrawiam widzów AI Nowości, zostaw suba dla przyszłości, lecimy dalej. Jak najbardziej możemy również pomanewrować tutaj z subakami typu Stability, Clarity czy Style. Szczerze powiedziawszy, niech zostanie ta pierwsza wersja. Mamy ją tutaj, więc sobie ją pobieramy. I teraz wybierzemy sobie fragment, w którym Arnold to powie. Niech to będzie ten fragment. OK, trwa to 7 sekund, nasza wypowiedź trwa 4 sekundy, więc jest git. Eksportujemy Arnolda. OK, wyrenderowaliśmy 7 sekund oryginalnej wypowiedzi Arnolda i mamy również audio, które jest w stu procentach wygenerowane z tekstu i jest po prostu podróbką. Więc musimy to teraz połączyć. My użyjemy do tego narzędzia webowego, do którego każdy ma dostęp. Oczywiście są też w tym darmowe kredyty, które pozwalają na wygenerowanie kilku materiałów, a za niewielką opłatą, bo tak naprawdę za 10 dolarów mamy tysiąc kredytów, co pozwala naprawdę na wygenerowanie dość sporej ilości fejkowych wideo, takich właśnie gib fejków. No i tutaj, moi drodzy, zadanie jest już banalnie proste. Wrzucamy nasz materiał wideo, naszego oryginalnego Arnolda, a także nasze audio wygenerowane w Eleven Labsie. Mamy tutaj też jeszcze możliwość skorygowania fragmentu ust, bo te usta one są wygenerowane i czasami wychodzą różne artefakty, więc to możemy, ten właśnie element wygenerowany możemy czasami skorygować, obniżyć go, dodać go wyżej czy przesunąć na boki. To narzędzie jest proste, jest tanie, ale ma dość małą rozdzielczość. Co jest tak naprawdę często atutem i to jest właśnie jeden z pierwszych takich elementów, na które powinniśmy zwrócić uwagę, jeżeli pojawia nam się jakaś czerwona lampka zaświeca. A oto, moi drodzy, efekt. Pozdrawiam widzów AI Nowości. Zostaw suba dla przyszłości. Lecimy dalej. Kolejne narzędzie daje nam już większą rozdzielczość. Jest naprawdę ostre, co sprawia, że nie zawsze jest to OK właśnie. W niektórych wypadkach no nie wychodzi to za dobrze, ale w innych, jak na przykład w przypadku, gdy stworzyłem dla panoramy prezydenta czy premiera, całkiem już to wyszło. Polacy, korzystajmy z pięknej pogody, idźmy na rower. Zgadzam się, choć wolę narty, to rower na taką pogodę jest wyśmienity. Chodźmy na rower. Co do działania jest ono niemalże identyczne, z tym, że tutaj możemy jeszcze nawet dać film bezpośrednio z internetu. Nie musimy go mieć na komputerze. My go mamy, więc wrzućmy Arnolda jeszcze raz i nasze audio. Mamy tutaj również trzy rodzaje modeli. Ten wyższy podobno ma lepszy kolor skóry. Dodaję, szczerze powiedziawszy, ja nie zauważyłem różnicy. My stworzymy go z tego modelu Sync 1.5. Potencjalny oszust, manipulant wideo za to narzędzie zapłaci 18 dolarów. Wygeneruje dzięki temu kilkadziesiąt spokojnie takich pięciosekundowych lipsynków. Czeka się też trochę dłużej, ale za to właśnie jakość jest lepsza. Chociaż nie zawsze. OK, mamy wygenerowanego Arnolda już po jednej minucie. Pozdrawiam widzów AI Nowości. Zostaw suba dla przyszłości. Lecimy dalej. Oczywiście u nas pojawia się już totalnie lampka, że coś jest nie tak, dlatego że Arnold nie mówi po polsku. Natomiast jeżeli Arnoldowi wrzucimy angielskie słowa, no to już się robi ciekawiej. Zobaczcie. Jak się ustrzec? Jest na to kilka sposobów. Póki co oczywiście. Przede wszystkim zobaczcie na te usta. Czy tam nie ma asynchro, czy audio nie jest przesunięte. Najczęściej ono jest dobrze dopasowane, ale pod koniec filmu. Zobaczcie na zęby. Jeżeli ich nie ma, to coś jest nie tak. Jeżeli są one zbyt sztuczne, zbyt ostre, to też jest coś nie tak. Jeżeli twarz jest gumowa, jest sztuczna, to też łatwo zauważyć. No i oczywiście patrzmy na to, kto udostępnia nam to nagranie. Czy nie ma tutaj żadnych podtekstów właśnie namawiających nas do zainwestowania w jakieś pieniądze. Dzięki serdeczne i do zobaczenia w kolejnym odcinku. Prawdopodobnie w swojej nowościach.