It from Bit: Част 2
- Яна Илиева
- Jun 25, 2022
- 5 min read
Updated: Mar 16
В своите „Размишления върху първата философия“ (1641г.) Декарт развива мисловния си експеримент за злия гений. Разсъждавайки върху природата на нещата, в които можем да се съмняваме, той се пита как разбираме дали някакъв злонамерен демон не ни заблуждава, че има предметен свят, докато всъщност нищо от него не съществува. Възможно ли е за нас вече да няма нищо несъмнено? Дори и в съня, във въображаемото, съзнанието ни борави с цветове, форми, протяжност, фигура, количество и големина. Дали обаче това са реални образи? Според картезианското схващане нужно е да допуснем, че всичко, което виждаме може да е илюзия. В настоящия момент тази дилема би звучала така: Как да сме сигурни, че не сме в симулирана реалност, доминирана от deep fake?“
Генеративните състезателни мрежи са особено добри в създаването на сурогатни медийни продукти. Тази технология стои зад проекти за компютърно генерирани, напълно изкуствени изображения на човешки лица или други обекти с висока резолюция и много добро качество на детайла, след като невронната мрежа е била захранена и обучена с набор реални снимки. Вариация на GAN, наречена DCGAN (Дълбоки конвулюционни генеративни мрежи), се ползва за генериране на различни типове изображения – от интериорни снимки до портретни изображения. Синтетични, фалшиви, несъществуващи в материалния свят, но напълно правдоподобни. Вече не е нужно художник да рисува на ръка или със софтуер анимационни персонажи, експонирани в десетки пози, защото GAN успешно генерира пълноцветни анимирани герои и фигури, покемони, манга образи от първоначална скица, конвертира растерно изображение на лице в емоджи аватар и т.н.
Можем да видим автентични фотокадри, черно-бели и с лошо качество, от реч на Хитлер през 30-те години на миналия век, трансформирани в пълноцветни снимки с перфектен контраст и с висока резолюция, по начин, по който бихме ги заснели днес с добър смартфон. Проект като DeOldify, базиран на много мощния при манипулирането на снимка с ниско цифрово качество до кадри със супер резолюция и много фини детайли SRGAN (Super Resolution GAN), постига такива доскоро немислими неща. Същото важи и за конвертирането на стари черно-бели кадри, заснети с допотопни камери от зората на кинематорафията, в цветно видео. По времето на Чаплин вече има прототип на цветни киноленти, но цветът в долното видео е дело на невронна мрежа.
Реален ли е този цветен дигитален сурогат е относителен въпрос в зависимост кого питаме – изкуствоведа или инженера. Но е сигурно, че този „продукт“ бързо пасва на вкуса на днешната публика, ласкае сетивата ѝ, засилва възбудата и апетита за разширени възможности, и власт да манипулираме неограничено всяко творение (и преживяване), плод на визуалната култура. Какви разширени възможности още ни дават генеративните мрежи? Безспорно добри са в преобразуването на изображение в друго изображение или превръщането на текст в изображение. Изречение, описващо пейзаж, може да бъде илюстрирано нагледно със снимка на въпросния пейзаж, който реално никога не е бил заснеман и не съществува в природата.
Тези възможности на технологията вече си пробиват път в медиите, улеснявайки ги в набавянето на илюстративен материал за широка употреба – т.нар. широкомащабен GAN (BigGAN) е вариация на технологията, прицелена в създаването на силно фотореалистични снимки. Във възможностите на GAN е да транслира сателитна снимка в изглед за Google Maps. Сравнително по-малко предизвикателство е преобразуването на снимка на дневен пейзаж в същата сцена, но снимана нощем или през различни годишни сезони. Както и подмяната на обект в снимка с друг обект – махаме зебрата и на фона на саваната монтираме фигурата на сибирски лос, изглеждащ напълно органично в тази среда. Трансферирането на едно изображение в друго е специалност на т.н. CycleGAN. Възможностите на GAN във face aging-а или визуалното модифициране на човешко лице от ранна в напреднала възраст се ползват в социалните мрежи като забавна опция. Генерирането на лице в поза анфас само от налична профилна снимка е по-скучно и по-отдавнашно умение на GAN, но с оценена полза в сферата на сигурността и системите за лицево разпознаване. Вариации на GAN се ползва за конкретни бизнес задачи като генериране на нови пози и ракурси на човешкото тяло за модната индустрия или манипулиране на обекти като дрехи и други стоки в електронната търговия. GAN успешно рендерира и 3D обект от няколко налични двуизмерни изображения.
Това са част от примерите за приложения на генеративните мрежи, към които индустрията храни растящи амбиции за производство на бързи, визуално атрактивни и по-добре работещи маркетингови продукти. Потребителите вече влизат в досег с тях в своето дигитално journey и това ще е устойчива тенденция, която ще преструктурира нагласите им в следващото десетилетие. Когато заговорим за социално и политическо обаче, опираме до тъмната страна на GAN. Как да сме сигурни, че не обитаваме симулирана реалност? Опираме до твърде лесната подмяна на fact с fiction чрез инструменти и знание, достъпни за разширяващ се кръг хора. Чужди думи се оказват в устата на политици с глобално влияние и тази подмяна е неразпознаваема с просто око в изкуствено генериран видео клип. Можем да видим глава на знаменитост, монтирана върху чуждо тяло в непривична поза или действие, можем да гледаме редактирани от изкуствен интелект телевизионни новини, изцяло фалшиви репортажни кадри и т.н.
Въздействието на т.нар. deep fake върху обществените процеси е предвидимо. Тук например има интересни бележки във връзка със сигурността – дигитална и физическа. Разбира се, и призиви за норми, образование, стандарти за етика, политики и закони по отношение на изкуствения интелект. Фалшиво видео с президента Обама, изричащ скандални фрази, стана емблематичен пример за силата на невронните мрежи да подменят реалността по потенциално опасен начин. Ето защо GAN има заряда да изправи цялата ни визуална и медийна дигитална култура на ръба на етиката. Да прекрачи безобидните територии на иновацията, която в някакви „вълнуващи времена“ сме намирали за забавна. Това е един от аргументите в полза на убеждението, че логиката на софтуер като GAN е нужно да се разбира поне в основни линии дори и от хора, които не са софтуерни инженери, така, както всеки потребител на мобилен телефон днес вече знае какво е мегабайт. Защото те, искаме или не, навлизат в живота ни.
„…Живеем в свят, в който всичко е основано на информация. Живеем в „It from Bit“ вселена, където всичко е информация. Ще имаме много нива на реалност, но всичко те ще са истински…“,
казва Дейвид Чалмърс, професор по конгитивни науки, във връзка с това как трябва да интерпретираме симулакрума на изкуствената реалност спрямо познатите ни категории за истинно и неистинно.
„Симулираните светове са съвършено реални светове. Те са просто дигитални светове.“, смята Чалмърс.
Връщайки се към Декарт, който преди четири века е мислил по същите въпроси в трактата си (забележете – обединяващ в едно математическите, физически, логически и философски концепти) откриваме, че в картезианското схващане осъзнаването на истинско и неистинско е част от процеса за опознаване на битието изобщо и не принадлежи на нито една специфична област на знанието. Затова и философско-етичният дискурс съпътства GAN и сходните креативни иновации от самото им раждане. Защото въпросът не е само технически. Може би в това би се състоял следващият интелектуален пробив, до който технологиите ще ни отведат. До шанса да се доберем до по-автентично разбиране на нашия свят и нашата същност.