ДРУГИЯТ УМ

автор: Яна Илиева, май 2019

Творческият симулакрум и езиковите граници на изкуствения интелект 

„Може ли робот да напише симфония? Може ли да превърне празно платно в прекрасен шедьовър?, пита инспектор Спунър (Уил Смит) робота Сани в сцената с полицейския разпит от филма „Аз, роботът“ (2004). „Вие можете ли?, отговаря Сани и видимо смущава инспектора, принуждавайки го да смени темата.

 

 

   Творческата природа на човека е стара картезианска проблема, която разглежда спобността да създаваме за основен белег на човешката ни същност. Онова нещо, което не може да бъде автентично възпроизведено от животно, автомат или машина. Наподобено да, но не и възпроизведено, според разбиранията от предпросвещенците насам и по-специално на Декарт, който определя в своите „Размишления върху първата философия“ иновативната и съзидателна природа на езика ни като височайш белег на homo creator. Естественият език отдавна е обект на научни експерименти, но напоследък напредъкът на технологиите ни отвежда до гранични зони, където говорим за симулация на талант, наблюдавайки как изкуственият интелект успешно и смущаващо добре имитира креативност.

 

 

„Ябълката е зелена“ + ∞
На пръв поглед е странно как толкова многопластово структурирана духовна материя като поезията, „многозначна до недоказуемост“ по думите на големия поет Константин Павлов, се оказва бързо въвлечена, адаптирана и умело употребена от прагматично-суровия, систематичен и резултатно ориентиран когнитивен разум, който мисли в изчислителни процедури. Да, изглежда странно, но танцът между художественото и строгата наука си има предистория и своя любопитна вътрешна логика. Двете противоположни сфери се движат в особен ритъм и синхрон като непрекъснато извличат ползи от интердисциплинарното си вмешателство. През 20-ти век, в отношенията между слово и изкуствения интелект силният интермедиатор е лингвистичната теория, в чието поле се оформят тезите за самопораждащата се природа на езика, който може да бъде възпроизвеждан логически до безкрай. Те ще укрепят в следващите години моста между информационните технологии и литературата, а теоретичната фигура, която дефинира природата на естествения човешки език е Ноам Чомски с ключовия си труд „Студии за езика и философията на ума [1].

 

 

Теорията на езика затвърждава идеята за самопораждаща му природа. Съставен е от краен брой елементи (фонеми, части на речта и т.н.), с които неограничено се създават изречения, базирани на дефинирани граматически правила, а тези му свойства го сближават с числата в абстрактната математика. „Генерираният от граматиката език е безкраен. Като оставим настрана ирелевантните за езика ограничения, свързани с времето, търпението и паметта, хората по принцип могат да разбират и да използват изречения с произволна дължина и сложност. Съответно, колкото повече намаляват тези ограничения в езиковата ни практика, толкова повече нараства нашата способност за използване на езика – по принцип тя е неограничена”, твърди Чомски. [2] Това е ядрото на неговата теория на генеративната граматика, чрез която хуманитаристиката и компютърните науки намират общ теоретичен език. Така цялата когнитивна наука, която се развива през втората половина на 20-ти век, поставя математика Алън Тюринг и теоретика на езика Ноам Чомски върху една и съща изследователска писта, по която съвместно ще тичат в следващите десетилетия AI (Artificial inteligence) софтуерни инженери, лингвисти, математици и философи.

 

 

Как системно функционира езикът, според Чомски?

Изреченията се самопораждат и могат да се подпъхват едно в друго при пълно спазване на граматическите принципи, без да страда смисълът, като този процес може да нарои безкраен брой комбинации, по подобие на теорията за естествените числа. Например, простото изречение „Ябълката е зелена“ би могло да се мултиплицира в „Ябълката, която ям, е зелена“, „Ябълката, която ям на кухненската маса, е зелена“, „Ябълката, която ям следобед на кухненската маса, е зелена“ и т.н. в още вариации. Това в разбиранията на Чомски не е само формална структура, а вътрешно-мисловна реалност, която се поражда в умовете ни. Езикът като граматическа архитектура ни е вроден, затова в ранна детска възраст знаем кой израз е граматически правилен, без да имаме понятие от синтаксис. Изречението, което Чомски дава за пример, превърнало се в емблема на идеята за генеративната граматика, е: “Зелените безцветни идеи яростно спят“. То звучи нерационално, но пък е 100% граматически вярно, а ние безпогрешно разпознаваме структурата му като адекватна, вместо нерелевантното: „Безцветни спят идеи зелените“. Това обяснява и успеха на алгоритмите в проектите, свързани с робопоезията.

 

 

Изкуственият интелект е напълно в състояние да изпълни сходната с математическите принципи граматична логика за подредба на частите на речта според дефинирани правила, употребявайки коректно подлог, сказуемо и допълнение в безброй вариации. Дори и да възникне смислов нонсенс като „зелените идеи“, този дефект на механичната комбинаторика изненадващо започва да чука по вратата на креативността, доближавайки се до ... поетичното. Онази сфера от нашия език, в която властва художествената метафора. С други думи, изречението “Зелените безцветни идеи яростно спят“ звучи напълно правилно и логично „от устата“ на комютър и напълно уместно и очаквано от устата на поет. И точно тази конвергентна точка между двата свята е безкрайно любопитна. Тя обяснява успеха на технологични проекти, които в момента интензивно се развиват от научни екипи в големите корпорации или в университетите, доколкото изобщо има разлика между тях.

 


Поезия по картинка
Така наивистично може да се опише с две думи експериментаторско-когнитивният научен проект, който AI инженерите от Университета в Киото представиха през 2018г., Той усложни задачата пред изкуствения интелект, възлагайки му да напише поема, вдъхновена от изображение. [3] Имаме снимка на красив залез, придружена от стих, който пресъздава в стилистиката на поезията емоция или състояние на духа, свързани с гледката. Това е крачка напред, в сравнение с предходни експерименти, в които машината или само пише поеми или описва с кратки изречения изображение. В първия случай целта е автоматично генериране на ритмична поезия в различни форми, използвайки модел на невронния език, обучен да кодира фонетично речта, заедно с набор от общи правила на поетичното изразяване като рима, ритъм и алитерация. Резултатът са стихове в различни поетични форми и на различни теми. Във втория – алгоритмите описват обектите, които „виждат“ на снимката чрез максимално естествен език - например „Син папагал с жълт клюн на фона на заснежени планини“.


Научният проект, върху който обръщам внимание, комплицира задачата, обединявайки тези два подхода, тъй като алгоритъмът трябва да разбере какво има на картинката и да състави текст в автентичната поетика на стиха като наподоби начина, по който човек с усет и талант към поетичното слово би го направил. Тук има и още едно предизвикателство. Ако предишните експерименти върху уменията на алгоритмите в полето на стихоплетстването се фокусираха върху стила и ритмическата автентичност, новото условие включва и стилистично изискване за поетично звучене, заедно с адекватност към темата, като предпочитана е отворената форма на т.нар. свободен стих [4]. За да се случи това се ползват в синхрон две от най-разпространените методологии на дълбокото учене за генериране на текст и разпознаване на образи. Ще вметна, че по-старият подход за писане на текст в стихотворна форма от машина разчиташе на предефиниран текстови шаблон и набор от граматически правила /за английския език в общия случай/. Сега обаче на ход е потенциалът на т.нар. повтарящи невронни мрежи, чиито постижения в писането на поетични текстове могат сериозно да замислят човек дали не чете автентичен текст, писана от човек, при това талантлив човек. За тях ще стане дума по-подробно. 

[1]. Ноам Чомски, „Студии за езика и философията на ума“, съставител и превод Илияна Кръпова, Издателска къща „ЛИК“, 2012г.
[2]. Ноам Чомски, „Студии за езика и философията на ума“, стр. 75

[3]. Виж подробно „Beyond Narrative Description: Generating Poetry from Images by Multi-Adversarial Training”

[4]. Свободният стих е поетична форма извън ограничения на стандартния стихотворен ритъм като допуска римови схеми или алитерации, но ги ползва подчертано неравномерно. 

[5]. Повече за Тюринг и неговия тест, Виж тук

[6]. Ноам Чомски, „Студии за езика и философията на ума“, стр. 205-206

[7]. От математическото понятие „конволюция“. Виж повече

Some Alt Text

Wings hold rocks and water lightly
in the loneliness
Stroll the empty
The land becomes soft

 

 

 

Крила поддържат леко скали и вода
в усамотението
Пустотата блуждае
Земята е нежна

 

XiaoIce chatbot, създаден от Microsoft, генерира стих на китайски език, инспириран от горното изображение, Източник: thenextweb.com

Как подхождат изследователите, за да накарат изкуствения интелект да напише прилична поема, вдъхновена от изображение? Използват логическа рамка, която включва предварително зададени работни данни (поетични текстове, писани от хора), хиляди сдвоени данни тип снимка + поема, процес на обучение, процес по генериране на нови данни и проверка на резултата. Всичко това обединено в една система. Адекватността на резултата на финала се измерва чрез автоматизирани скриптове, които проверяват дали условията са изпълнени и разбира се - чрез стандартния тест на Тюринг [5], в който се включват лаици и експерти по английска литература. Те трябва да посочат кои поеми са писани от човек, като избират от произволен микс от творби на хора и машини. Най-общо резултатът от валидирането на експеримента показва висок коефициент на генерични стихове, възприети като оригинална поезия, писана от човек. В подобна посока бяха и тазгодишни сходни проекти, реализирани под шапката на Google (PoemPortraits) и Microsoft (XiaoIce chatbot), които изглежда по-скоро се забавляват да генерират кратки AI стихове, „вдъхновени“ от селфи изображения на хора и са предназначени за мейнстрийм употреба.

 

Какво би казал Ноам Чомски, с когото диалогизираме през цялото време, за изводите, до които стига описания научен подход? Вероятно би възразил, давайки пример с пионерите от 18-ти век „…Жак де Вокансон, големият изобретател на онази епоха, се стремеше да разбере живите системи, които сам моделираше; той конструираше механични устройства, за да формулира и удостовери своите теории за живите модели, а не за да удовлетвори някакви критерии на изпълнението (performance)…” и още: „…да покажем, че една компютърна програма може да „победи“ гросмайстор по шах е толкова безинтересно от научна гледна точка, колкото и това, че един булдозер също може да „спечели“ олимпийско състезание по вдигане на тежести…“ [6] Какво тогава се опитват да разберат AI учените, стоящи зад тези разработки? Със сигурност не прицелват големи познавателни проблеми като това как упражняваме езиковата си способност или какво е човешката компетентност. Те засега просто изпробват инструментарните възможности на технологията да интерпретира естествен език, т.е. – все още само разпъват границите на алгоритъма. До какво знание ще отведе това е друг въпрос.

 

 

Как точно работи? Да надникнем вътре 
Как технически работи имитационната игра с естествения език? Ако, образно казано, поемем дъх и навлезем по-дълбоко в така смутителната „сложност“ на чисто инженерния аспект, отдавайки му равен респект и разбиране. В случая със стиха по картинка, съществено е съвместното ползване на два типа невронни мрежи, които са ключови в сферата на изкуствения интелект при работата със съдържание, съставено от букви или пиксели. Т.нар. Recurrent Neural Networks (RNN) или повтарящите невронни мрежи са водеща методология в генерирането на текст, включително и компютърна поезия. Конволюционните невронни мрежи (Convolutional Neural Networks – CNN) пък са водещи в разпознаването на дигитални образи. Тези разновидности на невронната мрежа са в основата на начина, по който изкуственият интелект от описания експеримент се обучава да свързва и възпроизвежда визуално и текстово съдържание. Говорейки за невронна мрежа в ума изниква нещо сложно и необятно като мрежата от невронни синапсиси в човешкия мозък. Да, компютърната невронна мрежа е вдъхновена от устройството му, но в много масовия случай става дума за неща като код, написан на усвоим програмен език /Python често се ползва за тази цел/ и ползване на модули и библиотеки /също код, писан например на C++, който има широко приложение и за много други неща/.

 

 

Какво са повтарящите невронни мрежи (RNN)?
Има сложни отговори на този въпрос, съдържащи много математически формули, разновидности, софистицирани механизми на градиента, обратното разпространение и т.н. Без да задълбаваме в тях, можем да обясним семпло принципа на RNN като симулация чрез изчисления на начина, по който хората мислят и упражняват интуицията си. Логиката и се основава на това, че разсъждавайки, ние не започваме мисловния процес от нулата във всяка минута и секунда, защото вече имаме понятия, представи, дефиниции и логически модули, върху които надграждаме в някаква последователност. Когато четем книга, например, отчитаме събития в сюжета и можем да предусетим следващите. Недостатъкът на мрежите преди RNN е, че те не могат да „схванат“ причинно-следствената нишка между предходна и следваща информация. Повтарящите невронни мрежи решават това като ползват репродуциращи се цикли. Те „запазват“ в себе си предишната информация и могат да я преизползват.

 

 

Наричат се повтарящи се, защото изпълняват една и съща задача за всеки елемент от последователна редица, а изходът зависи от натрупване на всички предишни изчисления. Пример! Ако невронната мрежа използва X входни данни, за да изведе Y изходни стойности, тя завърта цикъл, при който информацията, с която вече е захранена се препредава като заучена от едната стъпка към следващата чрез веригоподобна структура. Може да се каже, че RNN е множество копия на една и съща мрежа, като всяко копие предава информация нататък към своя наследник и „помни” това, което вече е изчислено. Справя се чудесно с последователни данни, които са нейна естествена архитектура и и позволяват да работи с разпознаване на реч, моделирането на език, машинен превод на текст, описание на изображение и подобни предизвикателства, свързани с логиката на словобразуването. Текстът е силната страна на RNN, защото той сам по себе си, технически погледнато, е форма на последователни данни. Поредност от символи /букви/ или думи, организирани от граматически синтактични правила. Това е всичко, което трябва на RNN.

 


Какво е CNN?
Конволюционните невронни мрежи са вариант на невронните мрежи, използвани за т.нар. компютърно виждане. Намесени са в картографирането, медицината, дроновете и автономните автомобили – навсякъде, където се работи с визуалното разпознаване, класификация на изображения или локализиране на видими обекти. Дълбокото обучение на изкуствения интелект чрез конволюционни мрежи [7] се ползва и за разпознаване на съставните обекти вътре в изображението. Например - човешко лице на преден план в снимката и ято птици в небето на заден план. Архитектурно, CNN са вдъхновени от човешкия визуален кортекс - анатомичният дял от нашия мозък, чиято задача е да процесва визуална информация, така че да идентифицираме онова, което виждат очите ни. Конволюционната невронна мрежа се обучава да разпознава изображението като първо го разделя на решетка от групирани пиксели, разпределена по квадранти. Изчислителният алгоритъм обхожда и трансформира всеки квадрант от оригиналното/входно изображение чрез поредица от слоеве или филтри, които математически извличат характеристиките му и ги преобразуват в нови алгоритмични данни за пикселите, от които е съставено изображението. Това е наистина крайно опростено обяснение на един в същността си доста сложен изчислителен процес.

 

 

Другият вид ум
И така. Изкуствен интелект емулира езикова дейност, която ние определяме като характеристика на естествения интелект. Защо се занимава така упорито с езика? Това са необходимости зададени от индустрията, но са и въпрос на изследователско любопитство. Ако единият интелект търси да се приравни с другия, то това може най-достоверно да се случи в полето на езика, дотогава, докато тестът на Тюринг най-сетне стане безсилен в разкриването на машината зад словесните артефакти. Пак ще цитирам бащата на генеративната граматика Ноам Чомски, според когото да се сдобие с език е изключително интелектуално постижение за всяко създание, което изначално не е сътворено за тази цел. За хамстера това наистина би било постижение. Колкото до изкуствения интелект, в процеса на описаните поетични творчески симулакруми, сдобива ли се той в действителност с език? Създадено ли нещо, което съвсем изначално не само притежава logos, но и собственото му съществуване е пак езиково дефинирано, доколкото програмният език, на който е написано, е сходна с човешкия език символна система, обаче четена от машина? И следователно можем ли, според горната дефиниция, да го смятаме за пълноценен интелект или за този „друг вид ум“, за който философията от емпириците насам говори, изхождайки от убеждението, че творческият аспект на езиковата употреба е специфичен само за човешкия биологичен вид? За мен това през цялото време е една и съща тема, по която теоретици като Чомски разсъждават, а AI изследованията експериментално верифицират с инструментариума на логиката и математиката, дълбаейки около въпроса не толкова възможна ли е пълноценна алтернатива на човешкия разум, а какво точно представлява самият той.

Проектът PoemPortraits, в който т.нар. „поезия от селфи“ и изкуствен интелект съжителстват в един по-скоро забавен аспект.