Jak rysować z ChatGPT? Sposoby, wskazówki, porady

Damian

15 stycznia, 2024



0

Rok 2023 przyniósł nam szeroką gamę konsumenckich narzędzi AI, które możemy wykorzystać do wspierania swojej pracy i — szerzej mówiąc — codzienności.

I myślę, że zgodzisz się ze mną, jeśli powiem, że najbardziej popularnym z narzędzi jest ChatGPT. Ten asystent AI jest bardzo często wymieniany niemal jako synonim generatywnej sztucznej inteligencji.

I trudno mu przy tym odmówić wszechstronności. Może on pełnić funkcję naszego asystenta do wymiany myśli, czy nawet realizacji niektórych zadań, takich jak analiza danych, pisanie tekstów, czy tworzenie grafik. I o tej ostatniej chciałbym dzisiaj z Tobą porozmawiać.

Zapraszam do krótkiej podróży po funkcji generowania grafik w ChatGPT.

ChatGPT asystuje w tworzeniu grafik

Zanim jednak zaczniemy, przejdźmy przez krótkie wprowadzenie na temat tego, kiedy i po co w ogóle ChatGPT nauczył się tworzyć grafiki.

Bo widzisz, ChatGPT jest asystentem AI, z którym przede wszystkim możemy rozmawiać. Korzysta on pod spodem z algorytmu GPT, który jest trenowany do tego, żeby generować jak najlepiej brzmiące teksty.

Ta jego cecha powoduje, że tworzone odpowiedzi są zwykle bardzo dobrze napisane, choć nie zawsze prawdziwe.

Po powołaniu do cyfrowego życia algorytmu GPT-4, OpenAI (twórca rozwiązania) stanęło przed wyzwaniem: w jakim kierunku dalej rozwijać swojego asystenta? Można było albo robić to wgłąb, pracując i w ten sposób zaczęło eksperymentować z dodawaniem do asystenta integracji zewnętrznych, czy wtyczek.

Działają one w prosty (pod względem logicznym) sposób. Jeśli bot wykryje, że do rozwiązania zleconego zadania jest potrzebne skorzystanie ze wsparcia z zewnątrz (np. dostęp do Internetu), to wie, w jaki sposób z niego skorzystać. Przygotowuje wtedy zapytanie w odpowiednim formacie, wysyła do integracji i przetwarza wynik.

W ten sam sposób działa właśnie możliwość rysowania w ChatGPT. Asystent, gdy zauważy, że naszą intencją jest generowanie grafiki, to przygotuje dla nas polecenie do algorytmu DALL-E, wykona zapytanie i zwróci wynik.

Przez to, że ChatGPT jest bardzo dobry w generowaniu tekstów to zawsze, gdy prosimy o generowanie grafiki, to on tak naprawdę zapoznaje się z naszymi wymaganiami i tworzy prompt opisujący oczekiwaną grafikę. Nasza prośba nie jest nigdy bezpośrednio wysyłana do DALL-E.

Takie pośredniczenie w tym procesie ma trzy główne zalety:

Po pierwsze, możemy wygenerować grafikę na podstawie nawet kilku słów. Zostanie on wtedy rozbudowany przez ChatGPT do bardziej złożonego opisu.
Po drugie, jeśli dokładnie wiemy, czego chcemy, to asystent umieści nasze wymagania w przygotowanym dla nas w tle poleceniu. Osiągniemy wtedy niemal ten sam efekt, co korzystając bezpośrednio z DALL-E (choć wciąż za pośrednictwem ChatGPT).
Po trzecie, możemy w ten sposób stworzyć grafiki na podstawie tekstów, których celem wcale nie jest opis konkretnej grafiki. Wyobraź sobie na przykład, że masz bajkę, do której chcesz stworzyć ilustrację albo grafikę, na podstawie której chcesz to zrobić.

Czy to rozwiązanie ma także wady? Ależ oczywiście! Należą do nich:

Mniejszy poziom kontroli nad generowanym obrazem. ChatGPT jest pośrednikiem pomiędzy nami a algorytmem. Mogą zdarzać się sytuacje, w których zrozumie on coś inaczej, niż tego oczekiwaliśmy.
Pozornie większy koszt niż przy zakupie subskrypcji np. Midjourney. Z drugiej strony w ramach jednej opłaty w ChatGPT otrzymujemy też dostęp do innych mechanizmów (GPT-4, GPTs, wtyczki). Obecnie możliwość generowania grafik przez ChatGPT jest dostępna tylko dla użytkowników ChatGPT Plus;

Wciąż jednak, porównując korzyści i koszty, generowanie grafik z ChatGPT wydaje się bardzo ciekawą możliwością. Ogranicza to czas potrzebny na dopracowywanie poleceń i umożliwia osiągnięcie dobrych efektów.

Jak rysować z ChatGPT?

Jeśli chcesz zacząć rysować z ChatGPT, to musisz mieć dostęp do płatnej wersji tego narzędzia — potrzebne będzie wykupienie subskrypcji.

Gdy to zrobisz, po zalogowaniu będziesz mieć wybór, z jakiego trybu działania asystenta chcesz skorzystać. W tym miejscu wystarczy, że wybierzesz opcję GPT-4 i rozpoczniesz rozmowę.

Za każdym razem, gdy asystent oceni, że naszą intencją jest generowanie grafiki, wygeneruje dla nas w tle odpowiednie polecenie i prześle je do DALL-E. Ze względu na to, że asystent ocenia naszą intencję do generowania grafiki, to warto wprost powiedzieć mu np. „Wygeneruj grafikę, która…”.

W każdym takim przypadku zobaczymy na ekranie informację, że grafika jest generowana, a po chwili — w tym samym miejscu — gotowy obraz.

Rozpoczęty czas będzie nam umożliwiał prowadzenie z asystentem dalszej rozmowy — będziemy mogli na przykład generować kolejne grafiki, czy nawet odwoływać się do tych już wygenerowanych.

Warto jednak mieć świadomość pewnego ograniczenia. Za każdym razem, gdy asystent tworzy dla nas grafikę, to jest ona generowana zupełnie na nowo. Nawet jeśli poprosimy o wprowadzenie zmian do wygenerowanej już grafiki, to i tak asystent utworzy dla nas nowe polecenie i od nowa wyśle je do DALL-E.

Czasami rzeczywiście otrzymamy podobną grafikę, ale zawsze będzie ona wygenerowana od podstaw. Trzeba mieć tego świadomość i nie zrażać się za pierwszym razem, gdy wygenerowany efekt nie będzie pasował do naszych oczekiwań.

Sposoby i przykładowe polecenia

Czas na konkrety.

W dalszej części przejdziemy przez kilka sposobów na tworzenie grafik z wykorzystaniem ChatGPT. Każda z nich sprawdzi się w różnych przypadkach, w zależności od tego, jakimi informacjami wejściowymi dysponujemy.

Proste polecenie

Pierwszym i najbardziej oczywistym sposobem, jest krótkie opisanie tego, co chcemy uzyskać. Może to na przykład być jednozdaniowy opis, skupiający się na głównym elemencie grafiki.

Kiedy ponad rok temu publikowałem pierwszy artykuł na temat generatywnej SI, pracowaliśmy na grafice „kota w czarnym płaszczu, sprzedającego lizaki na plaży”.

Wtedy wygenerowana grafika wyglądała tak:

Ilustracja kota w czarnym płaszczu, z lizakami na plaży. Wygenerowana przez DALL-E w 2022 roku.

A tak z zadaniem radzi sobie dzisiaj ChatGPT:

Stwórz grafikę kota w czarnym płaszczu, sprzedającego lizaki na plaży.

Ilustracja wygenerowana z takiego samego polecenia, za pośrednictwem ChatGPT, z użyciem DALL-E 3 w 2024 roku.

I można w tym miejscu zobaczyć przewagę ChatGPT nad używaniem modelu samodzielnie. Jak to się stało, że na grafice jest parasol, stoisko, a w tle chodzą ludzie? To dlatego, że ChatGPT rozbudował wpisane polecenie według własnego uznania.

Możemy sprawdzić, jakie dokładnie było polecenie, które zostało wymyślone przez asystenta. Aby to zrobić, wystarczy, że poprosisz go o taką informację lub klikniesz grafikę i w ikonę „i”, znajdującą się w prawym, górnym rogu.

W moim przykładzie, z prostego polecenia o kocie w czarnym płaszczu, powstał bardzo bogaty opis sceny:

Kot w czarnym płaszczu i kapeluszu typu cylinder, który sprzedaje kolorowe lizaki na plaży. Kot stoi na tylnych łapach w pozycji wyprostowanej, niczym człowiek, a przed nim znajduje się drewniana skrzynka z wielobarwnymi lizakami. Kot trzyma w łapie bukiet spiralnych lizaków, a jego ekspresja jest przyjacielska i zachęcająca. W tle widoczna jest plaża z leżakami, parasolami i ludźmi relaksującymi się przy brzegu morza. Niebo jest jasnoniebieskie z kilkoma białymi chmurami, a scena wydaje się pełna słońca i letniej atmosfery.

Rzut oka na przygotowany dla nas prompt może dawać podwójną korzyść:

Jeśli chcemy, możemy wykorzystać takie polecenie, zmodyfikować niepasujące nam elementy i wykorzystać do ponownego generowania.
Możemy też w ten sposób uczyć się, jak powinien wyglądać dobry prompt tego rodzaju.

A skoro już mowa o rozbudowanych promptach, to możemy przejść do kolejnego punktu.

Rozbudowane polecenie

W pierwszym przykładzie z jednozdaniowego polecenia to ChatGPT stworzył dla nas dokładny, długi opis, wypełniony szczegółami, o które go wcale nie prosiliśmy. Po prostu uznał, że dobrze je będzie uwzględnić, żeby grafika była atrakcyjna.

W sytuacjach, gdy nie do końca jeszcze wiesz, czego oczekujesz, takie jednozdaniowe polecenie w ChatGPT będzie dobrym sposobem na wygenerowanie pierwszej wersji Twojej grafiki.

Im więcej jednak szczegółów podasz w swojej prośbie o grafikę, tym mniej pola do domysłów zostawisz dla samego asystenta i tym bliżej finalny efekt będzie zbliżony do Twoich dokładnych oczekiwań.

Jeśli chcesz stworzyć grafiki, które będą spełniać bardziej określone wymagania, to nic nie stoi na przeszkodzie, żeby dokładniej opisać oczekiwane polecenie.

Wyobraź sobie, że potrzebujesz grafiki do wykorzystania w materiałach reklamowych — możesz na przykład planować kampanię reklamową i chcieć wykorzystać wygenerowane grafiki, zamiast gotowych zdjęć.

Rozbudowane polecenie w takim przypadku będzie już dokładniej opisywać oczekiwaną scenę.

Weźmy na przykład takie polecenie:

Przygotuj mi ilustrację na potrzeby reklamowe. Powinna być wesoła, kolorowa i ciepła. Grafika powinna przedstawiać zadowolonego z siebie człowieka, który ewidentnie cieszy się ze swojego sukcesu. Jest w pokoju, który wygląda jak salon, w pokoju jest biurko z komputerem. Proporcje poziome.

Oto wygenerowany efekt:

Przykładowa grafika do materiałów reklamowych

Tworząc rozbudowany prompt, warto skupić się na następujących aspektach:

Rodzaj grafiki (np. fotorealizm, zdjęcie, render, anime);
Klimat (np. mroczny, wesoły, kolorowy);
Układ grafiki (np. kwadrat, poziom lub pion);
Opis elementów, które powinny znaleźć się na grafice, w tym w szczególności jej centralny punkt oraz otoczenie;
Oczekiwane kolory (w formie opisowej);
Oczekiwane cechy postaci (nastrój, aparycja);
Oczekiwane punkty charakterystyczne;

I pamiętaj — wygenerowana grafika nie zawsze będzie dokładnie taka, jak oczekujesz. Możesz potrzebować kilku prób, żeby uzyskany efekt był dla Ciebie zadowalający i jest to całkowicie normalne.

Ilustrowanie historii

Jak już wiesz, dużym atutem generowania grafik z ChatGPT jest to, że nie musisz wcale wiedzieć, co dokładnie chcesz zobaczyć.

Przydaje się to na przykład w sytuacjach, w których Twoje oczekiwania są bardzo ogólne, wręcz jednozdaniowe. Przydaje się jednak również wtedy, gdy tekstu jest dużo, ale nie jest to opis grafiki.

Wyobraź sobie, że masz napisaną pewną historię, bajkę, czy opowiadanie i potrzebujesz stworzyć do niego zestaw ilustracji. To właśnie ten moment, w którym możesz poprosić ChatGPT o pomoc w stworzeniu ilustracji.

Dzielisz się z asystentem swoim opowiadaniem i prosisz o wygenerowanie grafik. Możesz określić, jaki styl Cię interesuje, w jakim klimacie mają być grafiki, czy ile ma ich być. ChatGPT samodzielnie wybierze fragmenty do zilustrowania i przygotuje odpowiednie prace.

Uważaj jednak na różnice, pomiędzy nimi. Tak, jak wcześniej, tak i w tym przypadku, każda grafika będzie generowana całkowicie od początku. Warto więc poprosić ChatGPT, aby generowane grafiki miały podobny styl, klimat i aby znajdujące się na nich postaci wyglądały spójnie.

Grafika na podstawie innej grafiki

ChatGPT, dzięki dostępnym także funkcjom analizy danych wejściowych innych, niż tekst, potrafi też w pewnym sensie widzieć. Możesz wysłać do niego jakąś grafikę, rysunek, czy zdjęcie, a on „zobaczy”, co się na nim znajduje.

Dzięki temu, korzystając z ChatGPT możemy na podstawie istniejącej grafiki, stworzyć inną. Wystarczy, że wyślesz grafię źródłową (np. zdjęcie) i opiszesz oczekiwany efekt.

Dzięki temu możesz na przykład:

Zmienić rysunki swoich dzieci (lub swoje) w prace artystyczne;
Tworzyć odwzorowania zdjęć, w innych stylach (na przykład wygenerować ilustrowany awatar na podstawie swojego zdjęcia);
Przekształcać szkice na realnie wyglądające grafiki, czy ilustracje;

Moje zdjęcie z pluszowym psem na ramieniu pozwoliło wygenerować na przykład taką ilustrację:

Ilustracja wygenerowana ze zdjęcia.

Z kolei prośba o wygenerowanie grafiki z bardzo prostego rysunku, zaowocowała rysunkowym kotem:

Zdefiniowani wirtualni ilustratorzy

W styczniu 2024, OpenAI udostępniło w ChatGPT katalog tzw. GPTs.

Mówiąc w uproszczeniu GPTs to jest taki ChatGPT, który otrzymał wcześniej instrukcje zachowania w konkretny sposób. Za każdym razem, gdy rozpoczynamy rozmowę z danym GPTs, to rozpoczyna on ją już z określonym zestawem instrukcji i wiedzy.

Udostępniony katalog GPTs zawiera w sobie sekcję, związaną z takimi asystentami, którzy umieją generować grafiki:

Lista najlepszych GPTs związanych z DALL-E.

Jeśli więc chcesz zrealizować jakieś konkretne zadanie graficzne, to możesz sprawdzić, czy któryś z GPTs nie spełni Twoich oczekiwań lepiej, niż próby stworzenia własnego polecenia zupełnie od podstaw.

Parametry

Czasami w Internecie można trafić na informacje, jakoby grafiki generowane w ChatGPT można było dostosowywać dzięki specjalnym parametrom, takim jak --ar (proporcje grafiki), --stylize (poziom realizmu), czy --weird (stopień odjechania)

Problem w tym, że nie do końca działa to tak, jak można by się spodziewać.

Możemy wpisać w naszej wiadomości do asystenta takie parametry, ale ChatGPT nie przekaże ich do DALL-E. Asystent wykorzysta swoje ich rozumienie do tego, żeby uwzględnić dany efekt ogólnie w poleceniu. I nie zawsze zrobi to logicznie, zgodnie z naszymi oczekiwaniami.

Na przykład określenie proporcji spowoduje, że grafika nawiąże do niej (będzie kwadratowa, pozioma lub pionowa), ale w rzeczywistości proporcje jej wymiarów nie będą takie, jak zaleciliśmy. Generowane przez DALL-E grafiki zawsze mają jeden z trzech wymiarów:

Kwadrat: 1024×1024 pikseli.
Panorama: 1792×1024 pikseli.
Pionowe: 1024×1792 pikseli.

Z kolei określenie poziomu realizmu, czy odjechania (dla obu możemy przyjąć skalę od 0 do 1000) spowoduje, że przygotowany przez ChatGPT prompt będzie nawiązywać do naszych oczekiwań, ale to analiza polecenia przez DALL-E, a nie parametrów, będzie uwzględniona w wygenerowanej grafice.

Można więc powiedzieć, że te parametry są wirtualne. Trochę działają, ale ich efekt jest symulowany przez zrozumienie ich przez ChatGPT.

W innych modelach graficznych (szczególnie pracując z nimi bezpośrednio, a nie przez asystenta) takie parametry rzeczywiście są wykorzystywane i można za ich pomocą dopracowywać nasze grafiki.

Powyższa wiedza wystarczy Ci do tego, żeby zacząć, zdobywać nową wiedzę i eksperymentować z własnymi przykładami.

Chcę Ci jeszcze tylko opowiedzieć o brakach, które generowanie grafik przez ChatGPT ma, względem swojej konkurencji oraz o sposobach na wykorzystanie grafik wygenerowanych w ten sposób.

Braki względem innych narzędzi

ChatGPT pozwala bardzo łatwo zacząć z generowaniem grafik i jest bardzo dobrym pierwszym krokiem. Często też jego możliwości będą dla Ciebie wystarczające na dłużej.

Ze względu jednak na swoją charakterystykę działania, możesz też w pewnym momencie zacząć odczuwać jego braki. Jakie one są i w którym kierunku zmierzać, gdy na nie trafisz?

Brak możliwości rozszerzania obrazów

Niestety, ale generowanie grafik za pośrednictwem ChatGPT nie pozwala na ich rozszerzanie w wybranych kierunkach i generatywne wypełnienie brakujących obszarów. Nie można na przykład poprosić „a teraz rozszerz grafikę w prawo o 300px”.

Taka funkcja jest dostępna, jeśli na przykład korzystamy bezpośrednio z DALL-E, Midjourney, czy funkcji AI w Photoshopie. W tych narzędziach takie (lub podobne) rozszerzenia grafiki jak najbardziej możemy wykonać.

Brak możliwości zaznaczenia fragmentu grafiki do edycji

ChatGPT nie daje też możliwości zaznaczenia obszaru i podmiany tylko konkretnego fragmentu grafiki.

Taka funkcja (tzw. wypełnianie generatywne) jest dostępna w innych narzędziach do generowania grafik z AI, ale tutaj, na razie musimy ograniczyć się do wymiany zdań. W związku z tym grafiki każdorazowo będą generowane na nowo i mogą się pomiędzy sobą różnić.

Brak możliwości powiększania rozmiaru wynikowej grafiki

Grafika generowana w ChatGPT ma ograniczenie wymiaru. Mamy dostępne 3 opcje:

Kwadrat: 1024×1024 pikseli.
Panorama: 1792×1024 pikseli.
Pionowe: 1024×1792 pikseli.

Niestety nie możemy wygenerować w nim ogromnych grafik, które na przykład będą odpowiednie do profesjonalnego wydruku. Nie możemy w nim też określać proporcji grafik, które miałyby być inne, niż z góry zdefiniowane.

Jeżeli poszukujesz rozwiązania do profesjonalnych, graficznych zastosowań, to dobrym pomysłem będzie skorzystanie z funkcji generatywnego SI np. w pakiecie Adobe.

Korzystanie z wygenerowanych grafik

Czy korzystanie z wygenerowanych w ten sposób grafik jest etyczne? Czy takie możliwości sprawią, że praca grafika, ilustratora, czy fotografa będzie zagrożona?

To bardzo złożone zagadnienia, na których odpowiedź zajęłaby na pewno dużo czasu, a i tak trudno byłoby wskazać jedyne słuszne zdanie.

Nic jednak nie stoi na przeszkodzie, żeby wykorzystywać tak wygenerowane prace w formie inspiracji albo jako element gotowych grafik (tak, jak być może wykorzystujesz „bank zdjęć”).

W szczególności generowanie grafik z SI będzie dla Ciebie:

Świetną bazą inspiracji do Twojej pracy;
Nieograniczoną bazą unikalnych grafik stockowych, które możesz wykorzystywać w swoich projektach;
Ciekawą zabawą dla Twoich dzieci, które będą mogły „ożywić” swoje rysunki lub czytane historie;
Narzędziem do tworzenia materiałów reklamowych, czy elementów uzupełniających Twoje grafiki;

Zgodnie z polityką OpenAI, wszystkie tworzone przez Ciebie w ten sposób grafiki należą do Ciebie i masz prawo je wykorzystywać — oczywiście o ile nie zawierają one znaków towarowych lub zastrzeżonych elementów (gdyby tak się zdarzyło, że efekt Twojej pracy takie elementy będzie zawierał).

Podsumowanie

ChatGPT to bardzo wszechstronny asystent, którego jedną z możliwości jest generowanie dla nas grafik na podstawie kilku słów, dokładnych opisów lub złożonych historii.

Jak miałeś/aś okazję zobaczyć, nie jest to rozwiązanie idealne do każdego zastosowania, ale jest na tyle interesujące, że warto z nim spróbować.

Po przeczytaniu tego materiału jesteś już wyposażony/a w całą, potrzebną na start wiedzę i możesz śmiało próbować, eksperymentować i generować grafiki samodzielnie.

Pamiętaj też, żeby zachować się przy tym etycznie. Informowanie o tym, że grafika została wygenerowana przez SI, jest zawsze dobrym pomysłem tam, gdzie może to mieć znaczenie.

Źródła

Model text-to-image https://en.wikipedia.org/wiki/Text-to-image_model
Jak używać DALL-E 3 do tworzenia obrazów AI za pomocą ChatGPT https://zapier.com/blog/dall-e-3/
Wypełnianie generatywne w Photoshopie https://orbin.pl/edu/wypelnianie-generatywne-w-photoshopie/
Korzystanie z parametrów do generowania grafik https://twitter.com/rowancheung/status/1719347795373555952, https://twitter.com/dr_cintas/status/1717896142044676356

0 komentarzy

Funkcja trackback/Funkcja pingback

Pojedynek ChatGPT z Google Gemini. Który asystent jest lepszy? - ztechnicznego.pl - […] ChatGPT radzi sobie z tym całkiem nieźle, a jeśli chcesz dowiedzieć się więcej, to możesz to zrobić tutaj: Jak rysować z ChatGPT?. […]

Wyślij komentarz Anuluj pisanie odpowiedzi

Ta strona używa Akismet do redukcji spamu. Dowiedz się, w jaki sposób przetwarzane są dane Twoich komentarzy.