AI Art
: 22-01-2023, 01:05
Napisałem dziś artykuł na ten temat, który myślę że ciekawi prawie każdego w mniejszym niż większym stopniu (nie robiłem korekty, więc będzie trochę błędów i pewnie coś napisanego po angielsku, ale trudno), więc jest to jakiś przyczynek do dyskusji. Osadzony w realiach dungeon synthu, ale myślę że każdy zrozumie o co chodzi. Co myślicie o sztuce lub ,,sztuce" generowanej przez AI?
AI Art - Dobre czy Złe?
Temat generowanych przez AI obrazów rozpala internetowe dyskusje od kiedy tylko Midjourney wyszło z fazy alfa i stało się dostępne dla wszystkich poprzez Discord. Dungeon synth community również nie uniknęło leja po bombie jaką okazały się właśnie Midjourney oraz Night Cafe. Temat lata mi po głowie jak natrętna mucha od samego początku, i jeśli nie spiszę tego wszystkiego i nie opublikuję, to chyba zesram się w gacie - tak jak wszyscy inni internauci, ale postaram się to zrobić w bardziej uporządkowany sposób.
Po pierwsze - osobiście nie uważam, że to jest dobre czy niedobre samo przez się, ale chciałbym też uniknąć banałów mówienia rzeczy w stylu: ,,to tylko narzędzie, jak młotek, można nim wbić gwoździa, a można się pierdolnąć w jajca". Jestem ponad to, ja, zwycięzca wielu konkursów ortograficznych w szkole podstawowej poziomu lokalnego (gdybyście jednak znali polską ortografię, to zrozumielibyście znaczenie takiego tytułu). Najlepszym słowem, które oddałoby moje odczucia wobec Midjourney, byłoby: ,,niepokojące".
Nie tak dawno uczyłem angielskiego w korporacjach. Jednym z dyskutowanych tematów była sztuczna inteligencja i to, jak wypiera ona kolejne zawody, oraz czego możemy spodziewać się w przyszłości. Generalna zasada wyrażona wówczas przez naukowców brzmiała: im prostsza i bardziej powtarzalna praca, tym prędzej zostanie zautomatyzowana; im bardziej kreatywna praca, tym później zostanie zautomatyzowana. Proste i logiczne, prawda? To przecież oczywiste, że najpierw zautomatyzowani będą sprzedawcy w sklepach, pracownicy na taśmie produkcyjnej, tego typu rzeczy. Następni mieli być kierowcy. No i w tym momencie pojawia się Midjourney i pokazuje, że wszystkie przemyślenia naukowców można spuścić w kiblu i zamknąć klapę. Otóż najbardziej kreatywny z procesów - sztuka - został nagle zautomatyzowany i miliony ludzi ochoczo z niego korzystają. Jak to możliwe?
Podobno najpierw każdy nowy pomysł jest wyśmiewany, potem zwalczany, a na koniec akceptowany. Midjourney nie było inne: generowane przez nie obrazy były, przynajmniej na początku, śmiechu warte. Zawierały jakieś śmieci, elementy które wzięły się nie wiadomo skąd, cycate baby miały po 3 cycki, choinki były okrągłe, postaci miały tylko jeden ząb na środku. Innym zarzutem było to, że panuje ogromna powtarzalność, wszystkie obrazy wyglądają podobnie itd. To wszystko prawda. Teraz jednak obserwujemy, że uczy się z przerazającą prędkością i nie będzie potrzebować 100 lat, by osiągnąć zupełnie nieprzewidziane poziomy.
Dlaczego to niepokojące? Organizmy żywe ulegają ewolucji, powolnemu procesowi zmian i dostosowywania się do środowiska. Tak naprawdę to samo zachodzi z technologią. Weźmy na przykład muzykę. Zaczęła się, i przez zdecydowaną większość historii trwała, jako coś tworzonego fizycznymi instrumentami i nieuchwytnego. Potem pojawiły się sposoby zapisu na jakimś sonicznym odpowiedniku glinianej tabliczki, który przemienił się w winyl, potem w kasetę, potem w płytę CD, pliki mp3 itd. To samo z tworzeniem: pojawiły się jakieś komputery wydające dźwięki, syntezatory, VST, a dziś pojawiają się już pierwsze ,,albumy" muzyczne wygenerowane w 100% przez algorytm (i to nie jakaś najprostsza muzyka, ale progressive metal/djent - sprawdź w Youtube "10 Hours of Procedurally Generated Progressive Metal). I to nie szokuje, nie generuje wielkich dyskusji, i w zasadzie stanowi tylko jakąś tam ciekawostkę dla wybranych. Dlaczego? Cóż, przeszliśmy tyle powolnych kroków, że pojawienie się takich rzeczy po prostu już nie zaskakuje, staje się naturalną konsekwencją. Żaba została ugotowana. Posłuchamy, pokiwamy głową, a potem i tak puścimy Slayera.
Ale z Midjourney jest jakoś inaczej, dlaczego? Otóż dlatego, że żaba nie zdążyła się ugotować, została wrzucona prosto do wrzątku i wrzeszczy w bólu, próbuje się ratować. Midjourney przeskoczyło kilka pośrednich stopni, które powinny się pojawić, a nie pojawiły się. I to właśnie triggeruje nasz dogłębny, odwieczny strach: że zostaniemy doszczętnie zastąpieni maszynami. Dotąd technologia szła sobie powolutku od strony czysto utylitarnej, o której wspomnieliśmy wyżej, ułatwiała życie, pozwalała odbierać paczkę o dowolnej godzinie, posłuchać ulubionej muzyki, wyprodukować szybciej samochód. Teraz zaś sięgnęła z zupełnie innej strony: strony tego, co uważaliśmy, że nam zostawi, gdy zajmie się wszystkimi małymi obowiązkami, na które nie mamy ochoty, typu przygotowanie posiłku, pościelenie łóżka, podtarcie dupy. Nagle sięgnęła po to, co uważaliśmy za najbardziej ludzkie, ba, to, co w ludziach najpiękniejsze - sztukę. I idzie jej podejrzanie dobrze. I nie podoba nam się to. Sztukę chcieliśmy zostawić dla siebie.
Z drugiej strony pojawi się na pewno argument tego, że sztuka w znakomitej części też pełni funkcję utylitarną. No bo weźmy sobie takiego Jana Kowalskiego, który właśnie odkrył dungeon synth, ściągnął pierwszy program do tworzenia go, nagrał swoje dwudziestominutowe demo i zastanawia się, co właściwie zrobić z okładką. Tymczasem, tragedia - wszystkie obrazy Gustava Dorego już dawno zajęte, to samo z Durerem, Bauer również jakby wyeksploatowany. A on ma jasną wizję - chce mieć na okładce rycerza bijącego smoka w czambuł buzdyganem, że aż iskry lecą. Jasna sprawa, kto by nie chciał? Tutaj jednak pojawia się problem, ponieważ chociaż Jan potrafi stworzyć wiekopomne muzyczne dzieło, to z kredkami idzie mu znacznie gorzej: rycerz wygląda jakoś nieprzekonująco, smok podejrzanie przypomina jego psa Burka, buzdygan wygląda jak penis. Jest źle. Wpada na pomysł, żeby zwrócić się do artysty, który spełniłby jego wizję, ale zderza się z kolejną ścianą - artysta chce 200€, a on ma tylko 10. Nie zrozumcie mnie źle - uważam, że cena jest uzasadniona latami nauki, praktyki i ogólnie raczej biednego życia artysty zdeterminowanego, by jednak żyć ze swojej pasji i jakoś opłacić czynsz i paliwo do Passata. Takie są realia i tyle - zasługuje na tę cenę. Co jednak z tego Janowi, który musiałby dokonać poważnych wyrzeczeń finansowych, na których może stracić też jego kochany Burek? I nie mówimy tu o umieraniu z głodu, ale na przykład wizycie u lekarza, nowym krześle, czy po prostu produkcji jego nowego albumu na kasetach z odzysku.
I w tym momencie Jan odkrywa Midjourney. Wpisuję frazę "Rycerz na koniu bijący smoka buzdyganem w głowę, smok nie wygląda jak pies" i otrzymuje kilka propozycji, potem wybiera coraz bardziej pasujące, aż voila - rycerzowi świeci się zbroja jak psu jajca, buzdygana nie powstydziłby się sam hetman kozacki, a smok zieje ogniem jak dupsko na następny dzień po zjedzeniu 20 chicken stripsów z KFC. Janowi na pewno przejdzie przez głowę parę przykrych myśli w kierunku artysty, który próbował związać koniec z końcem - a może też nie, i po prostu zacznie sobie dalej używać generatora i prędko ,,stworzy" pasujące mu nie tylko okładki, ale całą serię ilustracji do historyjki o smoku jedzącym KFC, którą zamieści na demówce limitowanej do 10 sztuk, której nakład wyprzeda się w 3 miesiące.
Mało tego, dla Jana, fana dungeon synthu, ma to inne korzyści. Jak wielu fanów dungeon synthu, Jan jest introwertykiem i ogólnie niespecjalnie lubi rozmawiać z ludźmi. Sprawiają, że Janowi trzęsą się ręce i pocą się pachy. Fajnie porozmawiać z kolegami, ale odezwanie się do obcego to już nie takie proste. Co gorsza, nie wystarczy się odezwać, ale trzeba też skrystalizować swoją wizję, bo inaczej może być klapa - co, jeśli obraz nie wyjdzie taki, jak Jan sobie wymarzył? Powtarzam, Jan jest introwertykiem, człowiekiem bardzo grzecznym, i głupio mu powiedzieć, że to jednak nie do końca to, ponieważ szanuje pracę innych ludzi i, przykro to powiedzieć, ale często zachowuje się wobec nich bardziej w porządku, niż oni wobec niego, co jednak prowadzi do cierpień. Z Midjourney wszystkie te problemy znikają - Jan może bawić się bez końca w głębi swojej piwnicy, nie odzywając się do nikogo i koncentrując się na wybraniu tego, co pasuje mu najbardziej, i nawet jeśli wcześniej jego wizja nie była skrystalizowana, to podpowiadane obrazy delikatnie mogą nawet zasugerować, o co może chodzić.
Oczywiście, równie dobrze może być odwrotnie i Jan okaże się osobowością całkiem odwrotną - pełną werwy, chęci kontaktu z obcymi ludźmi, bez ogródek mówiącą, co mu pasuje, a co nie. Wybaczcie jednak uogólnienie, ale jeśli wydanie dziewięciu numerów zina i codzienne kontakty z dziesiątkami muzyków czegoś mnie nauczyły, to właśnie tego, że tak prawdopodobnie nie będzie. Różne gatunki muzyki przyciągają różne typy ludzi, a dungeon synth lubi zwłaszcza ludzi nieśmiałych - sam zresztą takim trochę jestem, więc rozumiem to doskonale.
Midjourney dokonało poza tym czegoś, czego nie wszyscy wydają się zauważać: zadało po raz pierwszy od wieków wielkie pytanie: "Co to jest sztuka?". Wielu ludzi podświadomie odrzuciło obrazy generowane przez AI jako sztukę, a zapytani dlaczego, odpowiadają raczej ogólnikami niż konkretami. Nie znaczy to, że nie mają racji. Nie znaczy też, że ją mają. Pomyślmy o tym: co to jest sztuka? A może dokładniej: co to jest sztuka wizualna? Jako że nie każdy szanuje Wikipedię, sięgnę po Encyclopedia Britannica: "a visual object or experience consciously created through an expression of skill or imagination." Przeczytaj to. Przeczytaj jeszcze raz. CONSCIOUSLY. Czy człowiek bawiący się MidJourney "tworzy" świadomie? Chyba tak, przecież nie robi tego przez przypadek. Zaraz, ale czy on w ogóle "tworzy"? Dobre pytanie! Jest to narzędzie posunięte do ostateczności, jednak wciąż potrzebuje człowieka, by wpisał te słowa, które nakreślą, co ma zostać ukazane. Najciekawiej jednak robi się przy expression of skill or imagination". Argumentem używanym często przeciwko Midjourney jest to, że nie wymaga żadnych umiejętności. To prawda. Każdy może go używać. Pod tym względem jest to the great equalizer, doskonałe narzędzie sprawiedliwości społecznej - absolutnie każdy da sobie z nim radę. Jednak druga część wymazuje ten argument z powierzchni ziemi - ponieważ według Encyclopedia Britannica skill nie jest konieczny, wystarczy wyobraźnia - a tej w społeczności dungeon synth jest aż nadmiarze, buzuje wręcz jak kocioł czarownicy, przelewa się przez brzegi! Wyobraźnia in spe, wyobraźnia również wizualna, której brak umiejętności, by się ucieleśnić, ale ona tam jest, te obrazy znajduja się w głowach, czekają tylko, by wyskoczyć! I w końcu znajdują Midjourney, a ono pomaga kreatywnym ejakulatom znaleźć formę. To jak siła życiowa - nie sposób jej powstrzymać.
Popatrzmy na to też z innej strony. Kiedy byłem nastolatkiem i odkryłem metal razem z kolegami, naszym naturalnym wrogiem stały się, jak to mówiliśmy, techno-zjeby. Czuliśmy się lepsi: wszak słuchamy muzyki granej na prawdziwych instrumentach, a oni jakiegoś pitu pitu robionego klikaniem na komputerze. Czujecie tę ironię gościa, który dzisiaj tworzy magazyn muzyczny poświęcony dungeon synthowi, prawda? Dzisiaj jednak wszyscy jesteśmy trochę starsi, a perspektywa przesunęła się przez te lata bardzo, bardzo daleko - popatrzmy zatem na tę historię z innej strony.
No więc najpierw ludzie grali pewnie na jakichś kamieniach czy innym gównie i stukali się pałkami w głowy, wydając odgłosy i rytmy. Potem odkryli, że jak wyciągnąć zwierzętom flaki i je wyprawić, to w te flaki można dąć i one też dają jakieś ciekawe odgłosy, i zrobili jakieś dudy czy coś podobnego. Nie przejmujcie się nieścisłościami jeśli jakieś są tutaj, generalnie wiecie o co mi chodzi. Z czasem bardzo rozwinięto umiejętności wokalne, wiecie, chorał gregoriański, aż w końcu operę. Bywacie czasem w operze? Ja bywam. Opera to przede wszystkim wokale. Jak nie ma wokali, to znaczy że jesteście w filharmonii. Opera doprowadziła śpiew do perfekcji, ale nawet gdy pójdziecie do opery, możecie tego do końca nie zrozumieć, dopóki na scenie nie pojawi się jakiś wyraźnie słabszy śpiewak, który nagle uwydatni kontrast pomiędzy tymi dobrymi i tymi średnimi. Nas jednak na chwilę obecną interesuje przede wszystkim jeden fakt: nie potrzebowali oni mikrofonu.
No ale w pewnym momencie ten mikrofon się pojawił, i również ci technicznie słabsi śpiewacy byli w stanie zostać usłyszeni. Założyli zespoły punk rockowe, a czasem nawet wydzierając się do mikrofonu srali nago na scenę (GG Allin na zawsze w naszych sercach). Sranie jednak nie jest tutaj tak istotne, jak sam fakt mikrofonu. No i popatrzmy teraz na to z perspektywy śpiewaka operowego: jego umiejętności są zdecydowanie większe niż, dajmy na to, Axla Rose, ale on śpiewa w operze dla 500 ludzi, a Axl Rose dla 50,000. Głos śpiewaka operowego spokojnie poniósłby się znacznie dalej, jest potężniejszy, ale jednak Axl Rose wziął te mikrofon i przyciągnął więcej ludzi. Do dupy! Niezbyt to sprawiedliwe.
Potem pojawiły się kolejne ułatwienia, nie będziemy jednak równie dogłębnie analizować wszystkich, skupmy się jednak na jednym, które jest dla dungeon synthu szczególnie istotne: komputer. Byłem zaskoczony odkryciem, że wielu muzyków dungeon synthowych nigdy nawet nie grało na syntezatorze. Ba! Niektórzy nagrali nawet 100 albumów używając jedynie komputera. Teraz popatrzmy na to z perspektywy zawodowego muzyka, którego mama od 4 roku życia biła w głowę za każdym razem, gdy pomylił się w dźwiękach skrzypiec. Nagle pojawia się jakiś program, którego każdy może użyć za 2.99$, który doskonale oddaje dźwięk skrzypiec. Oczywiście, nie potrafi oddać wszystkich detali, ale mimo wszystko... Taki muzyk musi czuć się jednak trochę rozczarowany.
Znajdą się tacy, którzy powiedzą: ,,Zawsze znajdą się amatorzy prawdziwej sztuki". Zgadza się. Ale pole jednak się zawęża. Gdy pojawia się coś takiego jak Midjourney, wizualny artysta z bólem odkrywa, że jego klientela jednak zmniejsza się. Nie da się przed tym uciec. Będą tacy, których na artystę stać, ale ci, których stać ledwie-ledwie, wybiorą jednak tańszą opcję. Prawdziwy artysta tworzy rzeczy niewątpliwie lepsze, a te tworzone przez AI są niewątpliwie bardziej generyczne. Każdy z nas jednak sam odpowiada sobie na pytanie: co wybieram, biorąc pod uwagę wszystkie czynniki?
Znam ten ból. Jak wspomniałem, uczyłem kiedyś angielskiego w korporacjach. Było coraz ciężej: inflacja idzie do przodu, płaca wcale. Po 7 latach nauczania odkryłem, że istnieje taka platforma jak Tutlo, gdzie nauczycieli online można zamawiać ,,na godziny", a raczej ,,na kwadranse", i są to native speakerzy (co prawda z państw afrykańskich, ale jednak mówi się tam po angielsku), i gotowi są pracować za połowę mojej stawki. Stanąłem przed wyborem pracowania dwa razy dłużej za te same pieniądze i powolnej degradacji kreatywnej pracy umysłowej do roli kierowcy nauczycielskiego Ubera lub zmiany pracy. Westchnąłem głęboko i dziś wykonuję w zasadzie gównianą korporacyjną pracę za troszkę lepsze pieniądze. Nie życzę tego nikomu.
Jakieś ostatnie wnioski? Na pewno istnieje o wiele więcej aspektów, które można było tu poruszyć, np. plagiaty, jednak nie wszystko da się opisać. Czy to wszystko jest nie fair wobec artystów? Jest, i jest kolejnym przykładem tego, jak technologia nas wypiera - tym razem po prostu padło na wyjątkowo nietypową grupę. Czy da się tego uniknąć? Chyba nie. Czy więc tu zalet, czy wad - to już każdy musi ocenić sam w głębi serca.