Menu
O mnie Kontakt

W najnowszym filmie Jakuba Mrugalskiego, znanego jako "Kuba", na kanale UW-TEAM.org, zaprezentowano proces tworzenia grafik przy użyciu sztucznej inteligencji z aplikacją DALI. Jakub wyjaśnia, że zarówno DALI, jak i GPT-3 są narzędziami od OpenAI, jednak obliczanie tokenów w GPT-3 jest o wiele bardziej skomplikowane. Tworzenie grafik w DALI jest o wiele prostsze, ponieważ każde zapytanie generuje jeden token niezależnie od tego, czy chodzi o tworzenie nowego obrazu, czy jego modyfikację. Jakub zaczyna od rejestracji na platformie DALI, do której link można znaleźć w opisie filmu, a następnie przybliża dostępne tryby pracy, w których można tworzyć i edytować grafiki.

Podczas gdy DALI oferuje trzy główne tryby – tworzenie obrazów z użycia promptów, inpainting i outpainting – Kuba szczegółowo opisuje każdy z nich. Pierwszy tryb pozwala na generowanie obrazu na podstawie opisu słownego, gdzie użytkownik wpisuje, co chce zobaczyć, a DALI generuje odpowiedni obraz. Opcja inpainting umożliwia użytkownikowi dodanie elementów do istniejących grafik, natomiast outpainting pozwala na rozszerzenie kadru obrazu. Ta elastyczność sprawia, że użytkownicy mogą eksplorować różne koncepty i wizualizacje bez konieczności korzystania z zaawansowanych narzędzi graficznych.

W dalszej części filmu, Jakub demonstruje, jak można skutecznie używać DALI, aby uzyskać ciekawe i zaskakujące efekty. Przykładowo, wprowadza prompt dotyczący czerwonego kwiatu na krześle i sprawdza, jak DALI interpretuje jego zapytanie, sugerując różne wersje wizualizacji. Mówi również o tym, jak ważne jest podawanie szczegółowych opisów, aby uzyskać bardziej realistyczne rezultaty. Kuba podkreśla, że dzięki DALI każdy token daje cztery różne warianty, co czyni pracę z tym narzędziem bardziej efektywną.

Jakub zwraca także uwagę na wyzwania, jakie mogą pojawić się przy generowaniu obrazów przedstawiających ludzkie postacie, na przykład twarze. Jego eksperymenty z grafikami związanymi z Mona Lisą oraz różnymi elementami wzbogacającymi pokazują, jak aplikacja stara się podążać za wizją użytkowników, nawet gdy wyniki są czasami komiczne. Co więcej, Kuba demonstruje, jak użytkownicy mogą dodać lub zmodyfikować elementy obrazów, co pozwala na twórcze wyrażanie siebie w sposób łatwy i zabawny.

Na koniec Jakub zachęca widzów do subskrybowania kanału, szczególnie tych, którzy interesują się technologią i sztuczną inteligencją. Film ten do tej pory zebraną 59670 wyświetleń oraz 994 polubień, co świadczy o rosnącej popularności jego treści edukacyjnych. Jakub zapewnia, że w kolejnych filmach na pewno będzie kontynuować temat sztucznej inteligencji, a jego widzowie mogą spodziewać się jeszcze więcej interesujących treści w przyszłości.

Toggle timeline summary

  • 00:00 Wprowadzenie przez Kubę Mrugalskiego.
  • 00:02 Dyskusja na temat tworzenia tekstów za pomocą AI, konkretnie GPT-3.
  • 00:07 Wspomnienie o używaniu DALI do generowania grafiki z AI.
  • 00:12 Zauważa, że zarówno DALI, jak i GPT-3 są produkowane przez OpenAI.
  • 00:21 Wyjaśnia system tokenów używanych w obu aplikacjach.
  • 00:25 Wspomina o prostocie użycia tokenów w DALI.
  • 00:35 Zaczyna wyjaśniać, jak pracować z DALI i zakładać konto.
  • 00:49 Opisuje pierwszy tryb DALI: generowanie obrazów na podstawie podpowiedzi.
  • 00:55 Wyjaśnia inpainting, który dodaje elementy do istniejących obrazów.
  • 01:06 Wprowadza outpainting, aby rozszerzyć ramki obrazów.
  • 01:25 Demonstruje używanie aplikacji DALI do generowania obrazów.
  • 01:30 Opisuje początkowy wygląd DALI po zalogowaniu.
  • 01:45 Instrukcja generowania obrazu czerwonego kwiatu na krześle.
  • 02:02 Szczegóły, jak dodatkowe parametry mogą poprawić generowane obrazy.
  • 02:16 Każde zapytanie zwraca kilka opcji obrazów, maksymalizując wykorzystanie tokenów.
  • 02:44 Podkreśla, że więcej szczegółów poprawia dokładność w generowaniu obrazów.
  • 02:54 Wspomina o funkcji 'zaskocz mnie' do generowania podpowiedzi.
  • 03:08 Pokazuje, że DALI może interpretować błędnie napisane lub niepoprawne angielskie zdania.
  • 03:38 Testuje zdolność DALI do zrozumienia nieco błędnie napisanego zapytania.
  • 04:00 Porównuje wyniki wersji obrazów kreskówkowych i realistycznych.
  • 04:30 Dyskusja na temat wyzwań, przed którymi stoi DALI z cechami ludzkimi.
  • 04:44 Analiza niedociągnięć generowanych ludzkich twarzy.
  • 05:12 Demonstruje inpainting i outpainting z zewnętrznym obrazem.
  • 06:27 Wyjaśnia, jak potrzebna jest cierpliwość podczas korzystania z DALI.
  • 07:44 Dyskusja na temat tego, jak szczegółowe opisy przynoszą lepsze wyniki.
  • 11:15 Podsumowanie na temat tworzenia i edytowania grafik z DALI.
  • 11:25 Zachęca widzów do subskrybowania, aby otrzymywać więcej treści związanych z technologią.

Transcription

Cześć, tu Kuba Mrugalski. W ostatnim filmie pokazywałem jak tworzy się teksty z użyciem sztucznej inteligencji, a konkretniej mówiąc GPT-3. Teraz chcecie nauczyć jak tworzy się też grafiki z użyciem AI i do tego wykorzystam aplikację DALI. Zarówno DALI jak i GPT-3 są od tego samego producenta, czyli od OpenAI. I w jednym i drugim przypadku zatworzenie prac z użyciem AI płaci się tokenami. Tylko, że tokeny w przypadku GPT-3 są dość skomplikowane do liczenia. W przypadku DALI jest to banalnie proste. To znaczy jedno zapytanie to jest jeden token. Niezależnie od tego czy tworzysz grafikę, czy grafikę modyfikujesz. W takim razie na czym polega praca z DALI? Na początku oczywiście trzeba założyć konto. Linka do założenia konta masz w opisie do tego filmu. Druga sprawa, musisz wybrać jeden z trybów pracy. DALI aktualnie gdy nagrywam ten film obsługuje trzy tryby. Tryb pierwszy to jest tworzenie obrazu na podstawie prompta. Czyli opisujesz normalnie słownie w języku angielskim co chcesz uzyskać, a DALI stara Ci się to dostarczyć. Opcja druga to jest tak zwany inpainting. Inpainting polega na tym, że do grafiki dorysowujemy coś czego na tej grafice wcześniej nie było. Następna opcja to jest outpainting, czyli rozszerzamy kadr. Tak jak ja jestem teraz w kadrze i on się gdzieś zaczyna i gdzieś kończy, to jeżeli coś wystaje poza kadr, na przykład mój fragment ręki, no to chcielibyśmy uzyskać brakujący fragment ręki. Do tego właśnie używamy narzędzia zwanego outpainting, czyli dorysowujemy to coś co wystaje poza kadr. W ten sposób można w nieskończoność rozszerzać kadr, który widzimy na obrazku. Pokażę Ci teraz jak korzystać z każdej z tych trzech opcji i zobaczysz, że wcale nie jest to takie trudne. Zapraszam do Daliego. Po zalogowaniu się do Daliego naszym oczom okazuje się coś co wygląda jak wyszkliwarka Google. Wpisujemy tam więc zapytanie, na przykład red flower i następnie jakieś dodatkowe opcje, na przykład on the chair. Czyli chcemy mieć czerwony kwiatek lewący na krześle. Czekamy chwilę, tu mamy pasek postępu, to chwilę zajmuje i tu jednocześnie widać z boku są inne grafiki, które do tej pory generowałem. Trochę ich było. Czekamy, czekamy i mamy coś co teoretycznie wygląda jak czerwony kwiatek, który leży na krześle. Możemy dodać dodatkowe parametry, które wyrażą co naprawdę chcemy uzyskać. Na przykład ja bym chciał, żeby to było takie narysowane, a nie sfotografowane. Dopisuję więc digital art, daję generate i czekam. Znowu chwilę to trwa. Zwróć uwagę, że każde zapytanie zwraca Ci cztery możliwe odpowiedzi. Dzięki temu, korzystając z jednego tokena, masz cztery prace wygenerowane, co się opłaca. Wybieram jedno, co mi się najbardziej podoba i klikam na wariację, czyli chciałbym więcej obrazków w takim samym stylu do tego samego zapytania. I w tym momencie Dalik generuje mi coś, co będzie zbliżone stylem, wyglądem ogólnie do tego właśnie obrazka. Zobaczmy jak to wygląda w praktyce. Otrzymaliśmy cztery podobnie wyglądające krzesła z czerwonym kwiatkiem. Jak się teraz tworzy w ogóle te zapytania Daliego? Im więcej podajesz szczegółów, to tym bardziej dokładny obrazek Ci powstanie. Jeżeli masz problem z wymyśleniem jakiegoś zapytania, warto kliknąć na surprise me, to jest ten górny przycisk tutaj. I wtedy zobacz, jakie są zapytania, które sugeruje zadać Dali. I na podstawie tych zapytań naucz się, jakie są parametry, co można tam dodać do środka. To jest bardzo pouczające. Dali, podobnie jak GPT-3, jest odporny na wszelkiego rodzaju literówki albo lekko łamliwy angielski. Napiszę sobie na przykład różowy kot latający na dywanie, który na przykład trzyma kwiatek w ręce. Tylko zamiast pink cat napisałem pink cat. Czy teraz Dali nam rozpozna, o czym ja tak naprawdę myślałem, czy też nie? Sprawdźmy to. Klikam na generate i czekamy chwilę. Jest literówka i pytanie brzmi, czy to rozczai, co ja miałem na myśli? Jak najbardziej tak. Mamy różowego kota, lata sobie na dywanie. W niektórych przypadkach tak. Jest kwiatek, jest kwiatek. Gdy poprawię teraz tę literkę, to otrzymam inne wyniki. Zobaczmy na to. Trwa generowanie i już za chwilę dostaniemy kolejną porcję wyników. Zwróćcie tylko uwagę, że to są takie rysunkowe te kotki. Moglibyśmy tutaj dopisać sobie na przykład fotorealistyk, abyśmy dostali takie bardziej jakościowe, nazwijmy to realistyczne obrazki. Zobaczmy teraz, jak wygląda wersja realistyczna w wykonaniu Daliego. Czym się różni od wersji rysunkowej? Popatrz na to. Kliknijmy sobie na ten pierwszy przykład i widzisz, że to jest bardziej starannie narysowane. Przyglądamy kolejny, też jakiś taki lekko 3D, tutaj trochę bardziej fajny. W stylu grafiki mogę sobie oczywiście zmieniać pomiędzy komiksowym, fotorealistycznym, digital artem, pixel artem. Ale zróbmy sobie teraz człowieka. Wygeneruje kobietę, która siedzi przed MacBookiem. Proste zadanie, prawda? Ale okazuje się, że nie dla Daliego. Dlaczego? Dlatego, że nie za bardzo on sobie radzi z ludzkimi twarzami i z ludzkimi częściami ciała. Choć na pierwszy rzut oka wyniki będą wyglądały dość obiecująco. Normalne zdjęcia jak ze stoka. Ślicznie, nie? Ale co się tu nie zgadza? Coś niewyraźnie gdzieś wygląda. Te oczy się trochę rozjechały, jakaś przerwa w zębach. Dalej idziemy tutaj. Wygląda ekstra, ale usta się rozjechały. Trochę tutaj mamy brak palcy. Są ubytki. To nie jest realistyczny człowiek. Tutaj ta pani już naprawdę ma kiepski dzień. I kolejna grafika. Coś tutaj, jakaś choroba nam chwyciła palce, więc to nie wygląda jak ludzka ręka, powykrzywiane wszystko. Niestety tak to wygląda w wykonaniu Daliego. To było generowanie grafik na podstawie prompta, czyli zapytania. Teraz pokażę Ci dwie inne opcje. Inpainting oraz outpainting. Potrzebujemy zewnętrznej grafiki. Niech to będzie Mona Lisa. Uploadujemy ją, tylko na początku trzeba ją przyciąć, aby była kwadratowa, ponieważ na takich grafikach pracuje właśnie Dali. Klikamy na krop. Teraz mamy albo generowanie wariacji, albo edycja. Ja teraz wybieram edycję. Chcę coś tutaj dorysować, czyli inpainting. Domyślnie jest wybrana gumka. Można zwiększać, zmniejszać jej rozmiar. I co zrobimy? No na przykład zamawiamy Mona Lisie oczy. Co ona by mogła mieć na oczach? Nie wiem, jakieś okulary, opaskę? Albo będziemy nowocześni, dorysujemy jej Google VR. Czyli VR, Google. I ciągle daję Enter. I zobaczmy, jaki będzie efekt, gdy na Mona Lisa dorysujemy taki dość nowoczesny gadżet. Popatrzmy na to. Czekamy chwilę. I za chwilę naszym oczom ukaże się Mona Lisa w Google. Okej. No nie wszystkie wyglądają dobrze, bym powiedział. Zobaczmy sobie, jak to dokładnie wygląda. Tutaj jakieś takie dziwne okularki. To nie jest zbyt dobre. To jest lepsze, takie statykowe trochę. To już jest pokraczne, a to mało efektowne. Dobra, zmienimy zapytanie. Niech to będzie jakiś konkretny model okularów. Niech to będzie na przykład Oculus Rift. Dajemy sobie Oculusa i wpisujemy sobie tutaj. Okej. I generujemy podgląd Mona Lisa z tym czymś na głowie. Pamiętaj, że do pracy z Dariem potrzebna jest też cierpliwość. Mamy teraz cztery wersje w teorii z Oculusem, a w praktyce ta jest kiepska. Ta jest taka sobie, tragedia. A to jest w ogóle jakaś maska. Dobra. Ten numer dwa był fajny. Zatwierdzamy go i będziemy edytować dalej. Dorysujemy sobie teraz jakiś bardziej złożony element, nie tylko opaskę. Co więc robimy? Używając narzędzia gumka, nakładamy tak jakby maskę na to miejsce, gdzie ma pojawić się nowy obiekt. Obiekt, który ja sobie wymyśliłem, to będzie ręka trzymająca papierosa. Czemu by nie? W takim razie wpisujemy tutaj, co chcemy uzyskać w tym oto miejscu. Niech to będzie holding sygaret. Czyli ta osoba na zdjęciu trzyma papierosa. Daję Enter. Trwa generowanie. I za chwilę zobaczymy, jak wygląda Mona Lisa trzymająca w teorii papierosa. Tu oczywiście inwencja Daliego może być naprawdę pokraczna albo śmieszna, ale czasami wychodzą z tego całkiem dobre wyniki. Popatrz na to. Otwieramy pierwszą fotkę i sprawdzamy. No to jest kiepskie. Nie trafiła z papierosem. Dalej tutaj w ogóle papierosa nie ma. To jest niezłe. A to takie sobie. Dobra. To poprzednie było dobre, więc klikamy wstecz. I teraz robimy inną rzecz. Nie będziemy nic dorysowywać, a będziemy rozszerzać kadr. Aby to zrobić, wybieramy opcję rozszerzenia kadru, a potem decydujemy, gdzie ten kadr będzie rozszerzony. Chcę mieć taki długi, fajny obrazek z resztą brakującej sukni. I tu uwaga. Na tym można się fajnie przejechać. Bo co musimy w opisie napisać? To, co chcemy wygenerować. Ale uwaga. Ja teraz na przykład chcę mieć dalszą część sukni. Załóżmy napiszę kobieta, no bo to przedstawia rysunek kobiety, która ubiera się na czarno i do tego nie na czarno ogólnie, tylko ma czarną suknię. Więc mówię tam jako black dress. No i domyślam się, że teraz uzupełni mi Mona Lisa. A co się okazuje? Może to być źle zrozumiane. W opisie podałem, że chcę mieć kobietę w czarnej sukni, no więc zobacz. Mam kobietę w czarnej sukni. Dokładnie to, o co poprosiłem, tylko nie tak to sobie wyobrażałem. Trzeba nauczyć się poprawnie mówić do Daliego, tak by cię zrozumiał. Zwróć też uwagę, że on tutaj dorysował, że to jest fragment tej kobiety. Właśnie ta ręka z papierosem, to ona ją trzyma, a nie Mona Lisa. Sprytne, nie? Teraz rozszerzymy sobie to w kolejnym kierunku. Wybieram narzędzie do rozszerzania. Tu oczywiście mogę przeglądać sobie inne wariacje tej kobiety, bo przecież nie jedna była wygenerowana. No tu jest nie wiadomo co, tutaj kiepsko, kiepsko, a jedna była najfajniejsza. Dobra, akcept. I teraz narzędzie do rozszerzania i rozszerzymy sobie to tutaj w prawą stronę. Klikam sobie na to coś i doklejam kolejny kafelek. Niech to będzie tutaj na tej wysokości. I chciałbym mieć tam na przykład coś absurdalnego, czyli na przykład jakiegoś kosmita, który tańczy. I mogę to opisać jako co się dzieje na tym obrazku. Czyli na przykład Alien is dancing. Na tej zasadzie. Daję teraz Enter i trwa generowanie. No nie wygląda to za dobrze, ale mamy jeszcze inne wersje. To jest niezłe. Następna wersja niech będzie tutaj. To jest kiepskie. Tragedia. Dobra, ta dwójka była niezła. Akcept. I teraz dorysujemy sobie kolejny element. Czyli już wiesz jak to działa. Wybierasz sobie po prostu kwadracik. Wskazujesz gdzie ma być dorysowane i opisujesz co tam ma się znaleźć. Niech to będzie jakiś nie wiem latający potwór spaghetti przykładowo. Czemu by nie? Też abstrakcja. Z abstrakcjami całkiem nieźle sobie dalej radzi, więc w takim razie faktycznie wpisuję tutaj latający potwór spaghetti. Daję Enter i czekamy na wyniki. No ta wersja średnio mi się podoba, ale przynajmniej tu opasuje całkiem ładnie. To jest niezłe. To jest śmieszne. A to w ogóle nie wiem co jest. Okej. To było niezłe. Akceptuję i dalej rysujemy. W ten sposób tak jak widzisz banalnie można rozszerzać to w dowolnym kierunku i wkomponowywać tam to co dokładnie chcesz uzyskać. Ważna uwaga. Aktualnie znajdujemy się w trybie outpaintingu, czyli rozszerzania kadru. Jeżeli w trybie rozszerzania kadru zaczniemy używać inpaintingu, czyli dorysowywania, to dziwne rzeczy mogą się zdarzyć. Popatrz na to. Chciałbym tej pani, która trzyma papierosa dorysować załóżmy bransoletkę. Niech to będzie bransoletka w tym miejscu założona, a więc rysujemy maskę tak jak do tej pory. Nic nowego tu się nie dzieje, a następnie w opisie słownym no mówię, że chcę mieć bransoletkę. Jak to się zachowa? Popatrz na to. Dali stwierdził, że skończył i cztery bransoletki gotowe. Tylko, że ja widzę dziurę w ręce, a nie cztery bransoletki. Co się dzieje? A no chodzi o to, że mamy kadr, gdzie to ma być generowane, zaznaczony na latające potworze spaghetti, a tam nie ma żadnego miejsca do uzupełnienia. Musimy zmienić ten kadr na rękę pani, czyli celujemy sobie tak, aby ta ręka była faktycznie w tym kadrze outpaintingu i teraz dopiero wpisujemy złota bransoletka i dopiero teraz dostaniemy realne odpowiedzi zgodne z tym, o co zapytaliśmy. Mamy wygenerowane cztery bransoletki. Możemy je przeglądać. Ta, która nam się najbardziej podoba, tą wybierzemy. Okej. Ta wygląda całkiem znośnie. Daje accept. I teraz pozwól, że nieco przyspieszę film. Chcę dorysować jeszcze dwa brakujące kawałki elektryki. W lewym górnym rogu będzie lądowanie UFO, a na przykład nieco niżej będzie jakiś pojazd bojowy, czołg, może coś w tym stylu. Zobaczmy, jak to będzie wyglądało w praktyce. No to pracu pracu, wybieramy kadrę, wpisujemy zapytania, wybieramy odpowiednią wersję i w zasadzie gotowe. Nie wiem jak Ty, ale ja jestem z siebie dumny. Myślę, że mój poradnik pokazał Ci, jak wykonywać podstawowe operacje w DALIM, czyli jak tworzyć własne grafiki, bądź przebudowywać grafiki, które znajdziesz w internecie. Jeżeli interesują Cię filmy tego typu, technologiczne, to koniecznie obserwuj mój kanał. Kliknij subskrybuj i do zobaczenia w następnym filmie. Cześć. Napisy stworzone przez społeczność Amara.org