Advanced Deepfake Recordings - Tutorial (Film, 8 Minutes)

Musimy mieć świadomość, że możemy się nabrać na tego typu nagrania. Ale aby się przed tym uchronić, warto zwrócić uwagę na usta. Czy wokół twarzy nie występują dziwne artefakty? Czy dźwięk nie jest lekko przesunięty? Zwróć uwagę na gumową twarz i sztuczny akcent. Oraz przede wszystkim, kto publikuje ten film. Nigdy też nie klikajmy w link podany pod takim filmem. Uważajmy na to, co widzimy i słyszymy. Cześć moi drodzy, witam was w takim tutorialowym materiale, bo to movie camera, ale znowu powiązana z AI. Movie camera, dlatego że tu jest kamera, a ja mówię. Ale tak szczerze powiedziawszy, to temat jest poważny. A mianowicie chodzi o narzędzia do lip synku, czyli mówiąc wprost do synchronizacji ust z podrobioną wypowiedzią audio. I mam nadzieję, że ten film uświadomi dużej grupie ludzi, że coś takiego istnieje i że będziemy się z tym chcąc, nie chcąc zmierzać zapewne coraz częściej. I manipulacja wideo, audio, wizualna jest naprawdę banalnie prosta. I to wam dzisiaj w tym filmie chciałem może nie udowodnić, tylko pokazać i uświadomić, wręcz otworzyć oczy tym, którzy myślą, że to są jakieś skomplikowane narzędzia i stoją za tym nie wiadomo jak potężne komputery i ogromna wiedza informatyczno-hakerska. Nic z tych rzeczy. To co? Zaczynamy. Niech to będzie Schwarzenegger, Schwarzenegger speech. OK, zobaczcie, mamy tutaj wideo idealne, dlatego że posłuży nam jako już materiał oryginalny do lip-synka, ale również posłuży nam audio, które jest czyste, jest czystą wypowiedzią do sklonowania głosu. Mam tutaj taką wtyczkę, która pobiera mi bezpośrednio ten materiał z YouTube'a. OK, moi drodzy, mamy materiał, więc ważne jest na początek, aby sklonować głos. Potrzebujemy dosłownie do tego, no minutka starczy, więc znajduję moment po prostu, kiedy nasz bohater mówi, ale nie ma żadnych oklasków czy nikt przypadkiem tam nie wchodzi. No dobra, to teraz wyrenderujmy go do MP3, nazwijmy to Arnold Materiał i już wchodzimy sobie do Eleven Labs, gdzie tworzymy głos. Tutaj tych głosów już mam trochę potworzonych. Skasuję jeden, niech to będzie Chuck Norris. Instant voice cloning, czyli jak z łupka instant, więc trenowanie dzieje się od razu, nawet nie w minutę. Musimy tutaj zafajkować, klikamy Add voice, no i już jest. Spójrzcie, klikamy Use, wpisujemy tekst, generujemy. Fajne w generowaniu jest to, że za każdym razem wychodzi trochę inaczej. Pozdrawiam widzów AI Nowości, zostaw suba dla przyszłości, lecimy dalej. Moim zdaniem to jest całkiem spoko, ale możemy to, jak powiedziałem, wygenerować sobie jeszcze inne wersje, troszkę inna intonacja. Pozdrawiam widzów AI Nowości, zostaw suba dla przyszłości, lecimy dalej. Jak najbardziej możemy również pomanewrować tutaj z subakami typu Stability, Clarity czy Style. Szczerze powiedziawszy, niech zostanie ta pierwsza wersja. Mamy ją tutaj, więc sobie ją pobieramy. I teraz wybierzemy sobie fragment, w którym Arnold to powie. Niech to będzie ten fragment. OK, trwa to 7 sekund, nasza wypowiedź trwa 4 sekundy, więc jest git. Eksportujemy Arnolda. OK, wyrenderowaliśmy 7 sekund oryginalnej wypowiedzi Arnolda i mamy również audio, które jest w stu procentach wygenerowane z tekstu i jest po prostu podróbką. Więc musimy to teraz połączyć. My użyjemy do tego narzędzia webowego, do którego każdy ma dostęp. Oczywiście są też w tym darmowe kredyty, które pozwalają na wygenerowanie kilku materiałów, a za niewielką opłatą, bo tak naprawdę za 10 dolarów mamy tysiąc kredytów, co pozwala naprawdę na wygenerowanie dość sporej ilości fejkowych wideo, takich właśnie gib fejków. No i tutaj, moi drodzy, zadanie jest już banalnie proste. Wrzucamy nasz materiał wideo, naszego oryginalnego Arnolda, a także nasze audio wygenerowane w Eleven Labsie. Mamy tutaj też jeszcze możliwość skorygowania fragmentu ust, bo te usta one są wygenerowane i czasami wychodzą różne artefakty, więc to możemy, ten właśnie element wygenerowany możemy czasami skorygować, obniżyć go, dodać go wyżej czy przesunąć na boki. To narzędzie jest proste, jest tanie, ale ma dość małą rozdzielczość. Co jest tak naprawdę często atutem i to jest właśnie jeden z pierwszych takich elementów, na które powinniśmy zwrócić uwagę, jeżeli pojawia nam się jakaś czerwona lampka zaświeca. A oto, moi drodzy, efekt. Pozdrawiam widzów AI Nowości. Zostaw suba dla przyszłości. Lecimy dalej. Kolejne narzędzie daje nam już większą rozdzielczość. Jest naprawdę ostre, co sprawia, że nie zawsze jest to OK właśnie. W niektórych wypadkach no nie wychodzi to za dobrze, ale w innych, jak na przykład w przypadku, gdy stworzyłem dla panoramy prezydenta czy premiera, całkiem już to wyszło. Polacy, korzystajmy z pięknej pogody, idźmy na rower. Zgadzam się, choć wolę narty, to rower na taką pogodę jest wyśmienity. Chodźmy na rower. Co do działania jest ono niemalże identyczne, z tym, że tutaj możemy jeszcze nawet dać film bezpośrednio z internetu. Nie musimy go mieć na komputerze. My go mamy, więc wrzućmy Arnolda jeszcze raz i nasze audio. Mamy tutaj również trzy rodzaje modeli. Ten wyższy podobno ma lepszy kolor skóry. Dodaję, szczerze powiedziawszy, ja nie zauważyłem różnicy. My stworzymy go z tego modelu Sync 1.5. Potencjalny oszust, manipulant wideo za to narzędzie zapłaci 18 dolarów. Wygeneruje dzięki temu kilkadziesiąt spokojnie takich pięciosekundowych lipsynków. Czeka się też trochę dłużej, ale za to właśnie jakość jest lepsza. Chociaż nie zawsze. OK, mamy wygenerowanego Arnolda już po jednej minucie. Pozdrawiam widzów AI Nowości. Zostaw suba dla przyszłości. Lecimy dalej. Oczywiście u nas pojawia się już totalnie lampka, że coś jest nie tak, dlatego że Arnold nie mówi po polsku. Natomiast jeżeli Arnoldowi wrzucimy angielskie słowa, no to już się robi ciekawiej. Zobaczcie. Jak się ustrzec? Jest na to kilka sposobów. Póki co oczywiście. Przede wszystkim zobaczcie na te usta. Czy tam nie ma asynchro, czy audio nie jest przesunięte. Najczęściej ono jest dobrze dopasowane, ale pod koniec filmu. Zobaczcie na zęby. Jeżeli ich nie ma, to coś jest nie tak. Jeżeli są one zbyt sztuczne, zbyt ostre, to też jest coś nie tak. Jeżeli twarz jest gumowa, jest sztuczna, to też łatwo zauważyć. No i oczywiście patrzmy na to, kto udostępnia nam to nagranie. Czy nie ma tutaj żadnych podtekstów właśnie namawiających nas do zainwestowania w jakieś pieniądze. Dzięki serdeczne i do zobaczenia w kolejnym odcinku. Prawdopodobnie w swojej nowościach.

Menu

Advanced Deepfake Recordings - Tutorial (Film, 8 Minutes)

Toggle timeline summary

Transcription