DALL-E 2 - creating graphics using AI. A guide (film, 12 minutes)
In his latest video, Jakub Mrugalski, known as "Kuba," from the UW-TEAM.org channel, presents the process of creating graphics using artificial intelligence through the DALI application. Kuba explains that both DALI and GPT-3 are tools from OpenAI, but calculating tokens in GPT-3 is much more complicated. Creating graphics in DALI, on the other hand, is considerably simpler, as each query generates one token regardless of whether it is for creating a new image or modifying an existing one. Jakub starts by registering on the DALI platform, for which a link can be found in the video description, and then introduces the available working modes for creating and editing graphics.
DALI offers three main modes – image creation using prompts, inpainting, and outpainting – and Kuba describes each of them in detail. The first mode allows generating an image based on a verbal description, where the user types what they want to see, and DALI generates the corresponding image. The inpainting option lets users add elements to existing graphics, while outpainting allows for extending the frame of the image. This flexibility allows users to explore different concepts and visualizations without needing advanced graphic design tools.
In the further part of the video, Jakub demonstrates how to effectively use DALI to achieve interesting and surprising effects. For instance, he inputs a prompt about a red flower on a chair and checks how DALI interprets his request, suggesting various visualization versions. He also emphasizes the importance of providing detailed descriptions to obtain more realistic outcomes. Jakub points out that with DALI, every token provides four different variants, making work with this tool more efficient.
Jakub also notes the challenges that may arise when generating images of human characters, such as faces. His experiments with graphics related to the Mona Lisa and different additional elements show how the application tries to follow users' visions, even if the results are sometimes humorous. Moreover, Kuba demonstrates how users can add or modify elements of images, allowing for creative self-expression in an easy and fun way.
Finally, Jakub encourages viewers to subscribe to the channel, particularly those interested in technology and artificial intelligence. This video has so far gathered 59,670 views and 994 likes, showcasing the growing popularity of his educational content. Kuba assures that in future videos, he will continue the topic of artificial intelligence, and his viewers can expect even more engaging content ahead.
Toggle timeline summary
-
Introduction by Kuba Mrugalski.
-
Discusses creating texts using AI, specifically GPT-3.
-
Mentions using DALI for generating graphics with AI.
-
Notes that both DALI and GPT-3 are produced by OpenAI.
-
Explains the token system used for both applications.
-
Mentions the simplicity of token usage in DALI.
-
Starts explaining how to work with DALI and creating an account.
-
Describes the first mode of DALI: image generation from prompts.
-
Explains inpainting, which adds elements to existing images.
-
Introduces outpainting to extend image frames.
-
Demonstrates using the DALI app for generating images.
-
Describes the initial appearance of DALI after logging in.
-
Walkthrough for generating an image of a red flower on a chair.
-
Details how additional parameters can refine generated images.
-
Each query returns several image options, maximizing token use.
-
Emphasizes that more details improve accuracy in image generation.
-
Mentions the 'surprise me' feature for generating prompts.
-
Shows that DALI can interpret misspelled or broken English.
-
Tests DALI's capability to understand a slightly misspelled prompt.
-
Compares the results of cartoonish vs. realistic image versions.
-
Discusses the challenges DALI faces with human features.
-
Analyzes the shortcomings of generated human faces.
-
Demonstrates inpainting and outpainting with an external image.
-
Explains how patience is needed when using DALI.
-
Discusses how specific descriptions yield better results.
-
Conclusion on how to create and edit graphics with DALI.
-
Encourages viewers to subscribe for more technology-related content.
Transcription
Cześć, tu Kuba Mrugalski. W ostatnim filmie pokazywałem jak tworzy się teksty z użyciem sztucznej inteligencji, a konkretniej mówiąc GPT-3. Teraz chcecie nauczyć jak tworzy się też grafiki z użyciem AI i do tego wykorzystam aplikację DALI. Zarówno DALI jak i GPT-3 są od tego samego producenta, czyli od OpenAI. I w jednym i drugim przypadku zatworzenie prac z użyciem AI płaci się tokenami. Tylko, że tokeny w przypadku GPT-3 są dość skomplikowane do liczenia. W przypadku DALI jest to banalnie proste. To znaczy jedno zapytanie to jest jeden token. Niezależnie od tego czy tworzysz grafikę, czy grafikę modyfikujesz. W takim razie na czym polega praca z DALI? Na początku oczywiście trzeba założyć konto. Linka do założenia konta masz w opisie do tego filmu. Druga sprawa, musisz wybrać jeden z trybów pracy. DALI aktualnie gdy nagrywam ten film obsługuje trzy tryby. Tryb pierwszy to jest tworzenie obrazu na podstawie prompta. Czyli opisujesz normalnie słownie w języku angielskim co chcesz uzyskać, a DALI stara Ci się to dostarczyć. Opcja druga to jest tak zwany inpainting. Inpainting polega na tym, że do grafiki dorysowujemy coś czego na tej grafice wcześniej nie było. Następna opcja to jest outpainting, czyli rozszerzamy kadr. Tak jak ja jestem teraz w kadrze i on się gdzieś zaczyna i gdzieś kończy, to jeżeli coś wystaje poza kadr, na przykład mój fragment ręki, no to chcielibyśmy uzyskać brakujący fragment ręki. Do tego właśnie używamy narzędzia zwanego outpainting, czyli dorysowujemy to coś co wystaje poza kadr. W ten sposób można w nieskończoność rozszerzać kadr, który widzimy na obrazku. Pokażę Ci teraz jak korzystać z każdej z tych trzech opcji i zobaczysz, że wcale nie jest to takie trudne. Zapraszam do Daliego. Po zalogowaniu się do Daliego naszym oczom okazuje się coś co wygląda jak wyszkliwarka Google. Wpisujemy tam więc zapytanie, na przykład red flower i następnie jakieś dodatkowe opcje, na przykład on the chair. Czyli chcemy mieć czerwony kwiatek lewący na krześle. Czekamy chwilę, tu mamy pasek postępu, to chwilę zajmuje i tu jednocześnie widać z boku są inne grafiki, które do tej pory generowałem. Trochę ich było. Czekamy, czekamy i mamy coś co teoretycznie wygląda jak czerwony kwiatek, który leży na krześle. Możemy dodać dodatkowe parametry, które wyrażą co naprawdę chcemy uzyskać. Na przykład ja bym chciał, żeby to było takie narysowane, a nie sfotografowane. Dopisuję więc digital art, daję generate i czekam. Znowu chwilę to trwa. Zwróć uwagę, że każde zapytanie zwraca Ci cztery możliwe odpowiedzi. Dzięki temu, korzystając z jednego tokena, masz cztery prace wygenerowane, co się opłaca. Wybieram jedno, co mi się najbardziej podoba i klikam na wariację, czyli chciałbym więcej obrazków w takim samym stylu do tego samego zapytania. I w tym momencie Dalik generuje mi coś, co będzie zbliżone stylem, wyglądem ogólnie do tego właśnie obrazka. Zobaczmy jak to wygląda w praktyce. Otrzymaliśmy cztery podobnie wyglądające krzesła z czerwonym kwiatkiem. Jak się teraz tworzy w ogóle te zapytania Daliego? Im więcej podajesz szczegółów, to tym bardziej dokładny obrazek Ci powstanie. Jeżeli masz problem z wymyśleniem jakiegoś zapytania, warto kliknąć na surprise me, to jest ten górny przycisk tutaj. I wtedy zobacz, jakie są zapytania, które sugeruje zadać Dali. I na podstawie tych zapytań naucz się, jakie są parametry, co można tam dodać do środka. To jest bardzo pouczające. Dali, podobnie jak GPT-3, jest odporny na wszelkiego rodzaju literówki albo lekko łamliwy angielski. Napiszę sobie na przykład różowy kot latający na dywanie, który na przykład trzyma kwiatek w ręce. Tylko zamiast pink cat napisałem pink cat. Czy teraz Dali nam rozpozna, o czym ja tak naprawdę myślałem, czy też nie? Sprawdźmy to. Klikam na generate i czekamy chwilę. Jest literówka i pytanie brzmi, czy to rozczai, co ja miałem na myśli? Jak najbardziej tak. Mamy różowego kota, lata sobie na dywanie. W niektórych przypadkach tak. Jest kwiatek, jest kwiatek. Gdy poprawię teraz tę literkę, to otrzymam inne wyniki. Zobaczmy na to. Trwa generowanie i już za chwilę dostaniemy kolejną porcję wyników. Zwróćcie tylko uwagę, że to są takie rysunkowe te kotki. Moglibyśmy tutaj dopisać sobie na przykład fotorealistyk, abyśmy dostali takie bardziej jakościowe, nazwijmy to realistyczne obrazki. Zobaczmy teraz, jak wygląda wersja realistyczna w wykonaniu Daliego. Czym się różni od wersji rysunkowej? Popatrz na to. Kliknijmy sobie na ten pierwszy przykład i widzisz, że to jest bardziej starannie narysowane. Przyglądamy kolejny, też jakiś taki lekko 3D, tutaj trochę bardziej fajny. W stylu grafiki mogę sobie oczywiście zmieniać pomiędzy komiksowym, fotorealistycznym, digital artem, pixel artem. Ale zróbmy sobie teraz człowieka. Wygeneruje kobietę, która siedzi przed MacBookiem. Proste zadanie, prawda? Ale okazuje się, że nie dla Daliego. Dlaczego? Dlatego, że nie za bardzo on sobie radzi z ludzkimi twarzami i z ludzkimi częściami ciała. Choć na pierwszy rzut oka wyniki będą wyglądały dość obiecująco. Normalne zdjęcia jak ze stoka. Ślicznie, nie? Ale co się tu nie zgadza? Coś niewyraźnie gdzieś wygląda. Te oczy się trochę rozjechały, jakaś przerwa w zębach. Dalej idziemy tutaj. Wygląda ekstra, ale usta się rozjechały. Trochę tutaj mamy brak palcy. Są ubytki. To nie jest realistyczny człowiek. Tutaj ta pani już naprawdę ma kiepski dzień. I kolejna grafika. Coś tutaj, jakaś choroba nam chwyciła palce, więc to nie wygląda jak ludzka ręka, powykrzywiane wszystko. Niestety tak to wygląda w wykonaniu Daliego. To było generowanie grafik na podstawie prompta, czyli zapytania. Teraz pokażę Ci dwie inne opcje. Inpainting oraz outpainting. Potrzebujemy zewnętrznej grafiki. Niech to będzie Mona Lisa. Uploadujemy ją, tylko na początku trzeba ją przyciąć, aby była kwadratowa, ponieważ na takich grafikach pracuje właśnie Dali. Klikamy na krop. Teraz mamy albo generowanie wariacji, albo edycja. Ja teraz wybieram edycję. Chcę coś tutaj dorysować, czyli inpainting. Domyślnie jest wybrana gumka. Można zwiększać, zmniejszać jej rozmiar. I co zrobimy? No na przykład zamawiamy Mona Lisie oczy. Co ona by mogła mieć na oczach? Nie wiem, jakieś okulary, opaskę? Albo będziemy nowocześni, dorysujemy jej Google VR. Czyli VR, Google. I ciągle daję Enter. I zobaczmy, jaki będzie efekt, gdy na Mona Lisa dorysujemy taki dość nowoczesny gadżet. Popatrzmy na to. Czekamy chwilę. I za chwilę naszym oczom ukaże się Mona Lisa w Google. Okej. No nie wszystkie wyglądają dobrze, bym powiedział. Zobaczmy sobie, jak to dokładnie wygląda. Tutaj jakieś takie dziwne okularki. To nie jest zbyt dobre. To jest lepsze, takie statykowe trochę. To już jest pokraczne, a to mało efektowne. Dobra, zmienimy zapytanie. Niech to będzie jakiś konkretny model okularów. Niech to będzie na przykład Oculus Rift. Dajemy sobie Oculusa i wpisujemy sobie tutaj. Okej. I generujemy podgląd Mona Lisa z tym czymś na głowie. Pamiętaj, że do pracy z Dariem potrzebna jest też cierpliwość. Mamy teraz cztery wersje w teorii z Oculusem, a w praktyce ta jest kiepska. Ta jest taka sobie, tragedia. A to jest w ogóle jakaś maska. Dobra. Ten numer dwa był fajny. Zatwierdzamy go i będziemy edytować dalej. Dorysujemy sobie teraz jakiś bardziej złożony element, nie tylko opaskę. Co więc robimy? Używając narzędzia gumka, nakładamy tak jakby maskę na to miejsce, gdzie ma pojawić się nowy obiekt. Obiekt, który ja sobie wymyśliłem, to będzie ręka trzymająca papierosa. Czemu by nie? W takim razie wpisujemy tutaj, co chcemy uzyskać w tym oto miejscu. Niech to będzie holding sygaret. Czyli ta osoba na zdjęciu trzyma papierosa. Daję Enter. Trwa generowanie. I za chwilę zobaczymy, jak wygląda Mona Lisa trzymająca w teorii papierosa. Tu oczywiście inwencja Daliego może być naprawdę pokraczna albo śmieszna, ale czasami wychodzą z tego całkiem dobre wyniki. Popatrz na to. Otwieramy pierwszą fotkę i sprawdzamy. No to jest kiepskie. Nie trafiła z papierosem. Dalej tutaj w ogóle papierosa nie ma. To jest niezłe. A to takie sobie. Dobra. To poprzednie było dobre, więc klikamy wstecz. I teraz robimy inną rzecz. Nie będziemy nic dorysowywać, a będziemy rozszerzać kadr. Aby to zrobić, wybieramy opcję rozszerzenia kadru, a potem decydujemy, gdzie ten kadr będzie rozszerzony. Chcę mieć taki długi, fajny obrazek z resztą brakującej sukni. I tu uwaga. Na tym można się fajnie przejechać. Bo co musimy w opisie napisać? To, co chcemy wygenerować. Ale uwaga. Ja teraz na przykład chcę mieć dalszą część sukni. Załóżmy napiszę kobieta, no bo to przedstawia rysunek kobiety, która ubiera się na czarno i do tego nie na czarno ogólnie, tylko ma czarną suknię. Więc mówię tam jako black dress. No i domyślam się, że teraz uzupełni mi Mona Lisa. A co się okazuje? Może to być źle zrozumiane. W opisie podałem, że chcę mieć kobietę w czarnej sukni, no więc zobacz. Mam kobietę w czarnej sukni. Dokładnie to, o co poprosiłem, tylko nie tak to sobie wyobrażałem. Trzeba nauczyć się poprawnie mówić do Daliego, tak by cię zrozumiał. Zwróć też uwagę, że on tutaj dorysował, że to jest fragment tej kobiety. Właśnie ta ręka z papierosem, to ona ją trzyma, a nie Mona Lisa. Sprytne, nie? Teraz rozszerzymy sobie to w kolejnym kierunku. Wybieram narzędzie do rozszerzania. Tu oczywiście mogę przeglądać sobie inne wariacje tej kobiety, bo przecież nie jedna była wygenerowana. No tu jest nie wiadomo co, tutaj kiepsko, kiepsko, a jedna była najfajniejsza. Dobra, akcept. I teraz narzędzie do rozszerzania i rozszerzymy sobie to tutaj w prawą stronę. Klikam sobie na to coś i doklejam kolejny kafelek. Niech to będzie tutaj na tej wysokości. I chciałbym mieć tam na przykład coś absurdalnego, czyli na przykład jakiegoś kosmita, który tańczy. I mogę to opisać jako co się dzieje na tym obrazku. Czyli na przykład Alien is dancing. Na tej zasadzie. Daję teraz Enter i trwa generowanie. No nie wygląda to za dobrze, ale mamy jeszcze inne wersje. To jest niezłe. Następna wersja niech będzie tutaj. To jest kiepskie. Tragedia. Dobra, ta dwójka była niezła. Akcept. I teraz dorysujemy sobie kolejny element. Czyli już wiesz jak to działa. Wybierasz sobie po prostu kwadracik. Wskazujesz gdzie ma być dorysowane i opisujesz co tam ma się znaleźć. Niech to będzie jakiś nie wiem latający potwór spaghetti przykładowo. Czemu by nie? Też abstrakcja. Z abstrakcjami całkiem nieźle sobie dalej radzi, więc w takim razie faktycznie wpisuję tutaj latający potwór spaghetti. Daję Enter i czekamy na wyniki. No ta wersja średnio mi się podoba, ale przynajmniej tu opasuje całkiem ładnie. To jest niezłe. To jest śmieszne. A to w ogóle nie wiem co jest. Okej. To było niezłe. Akceptuję i dalej rysujemy. W ten sposób tak jak widzisz banalnie można rozszerzać to w dowolnym kierunku i wkomponowywać tam to co dokładnie chcesz uzyskać. Ważna uwaga. Aktualnie znajdujemy się w trybie outpaintingu, czyli rozszerzania kadru. Jeżeli w trybie rozszerzania kadru zaczniemy używać inpaintingu, czyli dorysowywania, to dziwne rzeczy mogą się zdarzyć. Popatrz na to. Chciałbym tej pani, która trzyma papierosa dorysować załóżmy bransoletkę. Niech to będzie bransoletka w tym miejscu założona, a więc rysujemy maskę tak jak do tej pory. Nic nowego tu się nie dzieje, a następnie w opisie słownym no mówię, że chcę mieć bransoletkę. Jak to się zachowa? Popatrz na to. Dali stwierdził, że skończył i cztery bransoletki gotowe. Tylko, że ja widzę dziurę w ręce, a nie cztery bransoletki. Co się dzieje? A no chodzi o to, że mamy kadr, gdzie to ma być generowane, zaznaczony na latające potworze spaghetti, a tam nie ma żadnego miejsca do uzupełnienia. Musimy zmienić ten kadr na rękę pani, czyli celujemy sobie tak, aby ta ręka była faktycznie w tym kadrze outpaintingu i teraz dopiero wpisujemy złota bransoletka i dopiero teraz dostaniemy realne odpowiedzi zgodne z tym, o co zapytaliśmy. Mamy wygenerowane cztery bransoletki. Możemy je przeglądać. Ta, która nam się najbardziej podoba, tą wybierzemy. Okej. Ta wygląda całkiem znośnie. Daje accept. I teraz pozwól, że nieco przyspieszę film. Chcę dorysować jeszcze dwa brakujące kawałki elektryki. W lewym górnym rogu będzie lądowanie UFO, a na przykład nieco niżej będzie jakiś pojazd bojowy, czołg, może coś w tym stylu. Zobaczmy, jak to będzie wyglądało w praktyce. No to pracu pracu, wybieramy kadrę, wpisujemy zapytania, wybieramy odpowiednią wersję i w zasadzie gotowe. Nie wiem jak Ty, ale ja jestem z siebie dumny. Myślę, że mój poradnik pokazał Ci, jak wykonywać podstawowe operacje w DALIM, czyli jak tworzyć własne grafiki, bądź przebudowywać grafiki, które znajdziesz w internecie. Jeżeli interesują Cię filmy tego typu, technologiczne, to koniecznie obserwuj mój kanał. Kliknij subskrybuj i do zobaczenia w następnym filmie. Cześć. Napisy stworzone przez społeczność Amara.org