Menu
O mnie Kontakt

Adrian Kilar zwraca uwagę na problem związany z manipulacją wideo i audio, szczególnie w kontekście narzędzi do lip syncu, które stają się coraz bardziej powszechne. W swoim filmie podkreśla, jak łatwo można stworzyć realistycznie wyglądające nagrania, które w rzeczywistości są fałszywe. Kilar omawia, jak rozpoznać takie manipulacje, zwracając uwagę na szczegóły, takie jak artefakty wokół twarzy, niezgodność dźwięku z ruchem ust, a także na jakość i naturalność samej twarzy. Przekonuje swoich widzów, że biorąc pod uwagę łatwość, z jaką można wykonać takie nagrania, każdy powinien być czujny na to, co ogląda i słyszy.

W drugiej części filmu, Adrian demonstruje konkretne narzędzia do syntezowania głosu, podając przykład wykorzystania technologii do sklonowania mowy Arnolda Schwarzeneggera. Zaczyna od pobrania materiału wideo i czystego audio, a następnie korzysta z oprogramowania, aby wygenerować nową wypowiedź. Mówi o tym, że synchronizacja ust z fałszywymi wypowiedziami audio jest prostsza niż mogłoby się wydawać, a nawet osoby bez zaawansowanej wiedzy technicznej mogą w tym względzie odnaleźć sukces.

Zgodnie z prezentacją, Adrian używa wtyczek i narzędzi online, aby przekazać, jak łatwo można manipulować obrazem. Wyjaśnia, że użytkownicy mogą wygenerować efekty wideo w wysokiej jakości, korzystając z niewielkich opłat, co sprawia, że technologia staje się dostępna dla szerokiego kręgu ludzi. To wyraźnie pokazuje, jak zaawansowane techniki mogą być używane zarówno w celach rozrywkowych, jak i potencjalnie w celach oszukańczych.

Adrian nie tylko demonstruje, jak tworzyć tego typu treści, ale także podaje praktyczne rady, jak można się chronić przed takimi manipulacjami. Wskazuje na różne czynniki, które mogą wskazywać na sztuczność nagrania, od nienaturalnych dźwięków po dziwne ruchy ust. Jak twierdzi, przedstawione metody są tylko pierwszymi krokami w obronie przed rozprzestrzenianiem się fałszywych informacji, a świadomość użytkowników jest kluczowa w tej walce.

Na koniec Adrian Kilar wskazuje na ogromne zainteresowanie tym tematem, informując, że film ma już 35,790 odsłon i 1,347 polubień. Warto śledzić ten wątek, ponieważ temat manipulacji wideo w dobie technologii staje się coraz bardziej aktualny. W miarę postępu technologii, jesteśmy coraz bardziej narażeni na różnego rodzaju dezinformację, dlatego kluczowe jest, aby być czujnym i świadomym zasadzek, które mogą nas czekać w Internecie.

Toggle timeline summary

  • 00:00 Świadomość manipulowanych nagrań.
  • 00:04 Znaczenie obserwacji ust dla autentyczności.
  • 00:07 Sprawdź dziwne artefakty wokół twarzy.
  • 00:09 Uważaj na opóźnienia dźwięku.
  • 00:11 Zauważ gumowe twarze i sztuczne akcenty.
  • 00:20 Wprowadzenie do poradnika o AI wideo.
  • 00:34 Omówienie narzędzi do synchronizacji ust.
  • 00:57 Pokazanie, że manipulacja wideo jest prosta.
  • 01:33 Używanie czystego dźwięku do klonowania głosu.
  • 02:17 Tworzenie profili głosowych do klonowania.
  • 03:35 Łączenie oryginalnego wideo i wygenerowanego dźwięku.
  • 04:35 Dyskusja na temat prostoty narzędzia.
  • 04:47 Podgląd wygenerowanego efektu.
  • 05:21 Porównanie jakości wyjściowej z różnych narzędzi.
  • 06:16 Wyzwanie związane z synchronizacją mowy Arnolda w języku polskim.
  • 06:41 Wskazówki dotyczące sprawdzania autentyczności wideo.
  • 07:00 Sprawdzanie sztucznych elementów na twarzach.
  • 07:14 Podsumowanie i świadomość manipulacji.

Transcription

Musimy mieć świadomość, że możemy się nabrać na tego typu nagrania. Ale aby się przed tym uchronić, warto zwrócić uwagę na usta. Czy wokół twarzy nie występują dziwne artefakty? Czy dźwięk nie jest lekko przesunięty? Zwróć uwagę na gumową twarz i sztuczny akcent. Oraz przede wszystkim, kto publikuje ten film. Nigdy też nie klikajmy w link podany pod takim filmem. Uważajmy na to, co widzimy i słyszymy. Cześć moi drodzy, witam was w takim tutorialowym materiale, bo to movie camera, ale znowu powiązana z AI. Movie camera, dlatego że tu jest kamera, a ja mówię. Ale tak szczerze powiedziawszy, to temat jest poważny. A mianowicie chodzi o narzędzia do lip synku, czyli mówiąc wprost do synchronizacji ust z podrobioną wypowiedzią audio. I mam nadzieję, że ten film uświadomi dużej grupie ludzi, że coś takiego istnieje i że będziemy się z tym chcąc, nie chcąc zmierzać zapewne coraz częściej. I manipulacja wideo, audio, wizualna jest naprawdę banalnie prosta. I to wam dzisiaj w tym filmie chciałem może nie udowodnić, tylko pokazać i uświadomić, wręcz otworzyć oczy tym, którzy myślą, że to są jakieś skomplikowane narzędzia i stoją za tym nie wiadomo jak potężne komputery i ogromna wiedza informatyczno-hakerska. Nic z tych rzeczy. To co? Zaczynamy. Niech to będzie Schwarzenegger, Schwarzenegger speech. OK, zobaczcie, mamy tutaj wideo idealne, dlatego że posłuży nam jako już materiał oryginalny do lip-synka, ale również posłuży nam audio, które jest czyste, jest czystą wypowiedzią do sklonowania głosu. Mam tutaj taką wtyczkę, która pobiera mi bezpośrednio ten materiał z YouTube'a. OK, moi drodzy, mamy materiał, więc ważne jest na początek, aby sklonować głos. Potrzebujemy dosłownie do tego, no minutka starczy, więc znajduję moment po prostu, kiedy nasz bohater mówi, ale nie ma żadnych oklasków czy nikt przypadkiem tam nie wchodzi. No dobra, to teraz wyrenderujmy go do MP3, nazwijmy to Arnold Materiał i już wchodzimy sobie do Eleven Labs, gdzie tworzymy głos. Tutaj tych głosów już mam trochę potworzonych. Skasuję jeden, niech to będzie Chuck Norris. Instant voice cloning, czyli jak z łupka instant, więc trenowanie dzieje się od razu, nawet nie w minutę. Musimy tutaj zafajkować, klikamy Add voice, no i już jest. Spójrzcie, klikamy Use, wpisujemy tekst, generujemy. Fajne w generowaniu jest to, że za każdym razem wychodzi trochę inaczej. Pozdrawiam widzów AI Nowości, zostaw suba dla przyszłości, lecimy dalej. Moim zdaniem to jest całkiem spoko, ale możemy to, jak powiedziałem, wygenerować sobie jeszcze inne wersje, troszkę inna intonacja. Pozdrawiam widzów AI Nowości, zostaw suba dla przyszłości, lecimy dalej. Jak najbardziej możemy również pomanewrować tutaj z subakami typu Stability, Clarity czy Style. Szczerze powiedziawszy, niech zostanie ta pierwsza wersja. Mamy ją tutaj, więc sobie ją pobieramy. I teraz wybierzemy sobie fragment, w którym Arnold to powie. Niech to będzie ten fragment. OK, trwa to 7 sekund, nasza wypowiedź trwa 4 sekundy, więc jest git. Eksportujemy Arnolda. OK, wyrenderowaliśmy 7 sekund oryginalnej wypowiedzi Arnolda i mamy również audio, które jest w stu procentach wygenerowane z tekstu i jest po prostu podróbką. Więc musimy to teraz połączyć. My użyjemy do tego narzędzia webowego, do którego każdy ma dostęp. Oczywiście są też w tym darmowe kredyty, które pozwalają na wygenerowanie kilku materiałów, a za niewielką opłatą, bo tak naprawdę za 10 dolarów mamy tysiąc kredytów, co pozwala naprawdę na wygenerowanie dość sporej ilości fejkowych wideo, takich właśnie gib fejków. No i tutaj, moi drodzy, zadanie jest już banalnie proste. Wrzucamy nasz materiał wideo, naszego oryginalnego Arnolda, a także nasze audio wygenerowane w Eleven Labsie. Mamy tutaj też jeszcze możliwość skorygowania fragmentu ust, bo te usta one są wygenerowane i czasami wychodzą różne artefakty, więc to możemy, ten właśnie element wygenerowany możemy czasami skorygować, obniżyć go, dodać go wyżej czy przesunąć na boki. To narzędzie jest proste, jest tanie, ale ma dość małą rozdzielczość. Co jest tak naprawdę często atutem i to jest właśnie jeden z pierwszych takich elementów, na które powinniśmy zwrócić uwagę, jeżeli pojawia nam się jakaś czerwona lampka zaświeca. A oto, moi drodzy, efekt. Pozdrawiam widzów AI Nowości. Zostaw suba dla przyszłości. Lecimy dalej. Kolejne narzędzie daje nam już większą rozdzielczość. Jest naprawdę ostre, co sprawia, że nie zawsze jest to OK właśnie. W niektórych wypadkach no nie wychodzi to za dobrze, ale w innych, jak na przykład w przypadku, gdy stworzyłem dla panoramy prezydenta czy premiera, całkiem już to wyszło. Polacy, korzystajmy z pięknej pogody, idźmy na rower. Zgadzam się, choć wolę narty, to rower na taką pogodę jest wyśmienity. Chodźmy na rower. Co do działania jest ono niemalże identyczne, z tym, że tutaj możemy jeszcze nawet dać film bezpośrednio z internetu. Nie musimy go mieć na komputerze. My go mamy, więc wrzućmy Arnolda jeszcze raz i nasze audio. Mamy tutaj również trzy rodzaje modeli. Ten wyższy podobno ma lepszy kolor skóry. Dodaję, szczerze powiedziawszy, ja nie zauważyłem różnicy. My stworzymy go z tego modelu Sync 1.5. Potencjalny oszust, manipulant wideo za to narzędzie zapłaci 18 dolarów. Wygeneruje dzięki temu kilkadziesiąt spokojnie takich pięciosekundowych lipsynków. Czeka się też trochę dłużej, ale za to właśnie jakość jest lepsza. Chociaż nie zawsze. OK, mamy wygenerowanego Arnolda już po jednej minucie. Pozdrawiam widzów AI Nowości. Zostaw suba dla przyszłości. Lecimy dalej. Oczywiście u nas pojawia się już totalnie lampka, że coś jest nie tak, dlatego że Arnold nie mówi po polsku. Natomiast jeżeli Arnoldowi wrzucimy angielskie słowa, no to już się robi ciekawiej. Zobaczcie. Jak się ustrzec? Jest na to kilka sposobów. Póki co oczywiście. Przede wszystkim zobaczcie na te usta. Czy tam nie ma asynchro, czy audio nie jest przesunięte. Najczęściej ono jest dobrze dopasowane, ale pod koniec filmu. Zobaczcie na zęby. Jeżeli ich nie ma, to coś jest nie tak. Jeżeli są one zbyt sztuczne, zbyt ostre, to też jest coś nie tak. Jeżeli twarz jest gumowa, jest sztuczna, to też łatwo zauważyć. No i oczywiście patrzmy na to, kto udostępnia nam to nagranie. Czy nie ma tutaj żadnych podtekstów właśnie namawiających nas do zainwestowania w jakieś pieniądze. Dzięki serdeczne i do zobaczenia w kolejnym odcinku. Prawdopodobnie w swojej nowościach.