КОМПЈУТЕР ПИШУВА ПЕСНИ ВО СТИЛОТ НА БЛАЖЕ КОНЕСКИ Прочитајте го кодот на Стојанчо Туџарски

Самата вештачка интелигенција веќе има длабоко навлезено во нашите компјутери и насекаде околу нас, само најверојатно не сме свесни за тоа, вели македонскиот програмер.

918

Компјутерска програма која може да учи од стиховите на великанот Блаже Конески сега пишува цели песни во неговиот препознатлив стил!  Но, може ли една вештачка интелигенција да навлезе длабоко во поетскиот митос на македонист каков што беше Конески?

На 100-годишнината од раѓањето на таткото на нашиот модерен стих, еден друг Македонец по име Стојанчо Туџарски успеа да го заврши кодот со кој тој сега планира да ги овековечи и Рацин и Ацо Шопов.






Плусинфо направи интервју со Туџарски и објавува дел од песните. Еве како изгледа еден од поуспешните примери:

Тој повев тих и плавен на шалот,
тој блесок црн и мигновен на шалот,
но сепак таа разделеност крајна,
и како небо што грее,
но сепак таа разделеност крајна,
па зошто трешти црна веда в рака?
И зошто трешти црна веда в срце
како во глуждот на самотен даб.

Стојанчо Туџарски е дата-програмер кој 11 години го барал она вистинското – кога машината може да учи сама од себе. И решил, ако AI може да имитира цели слики од Ван Гог, тогаш зошто не и текст? Прво почнал со Шекспир и бил речиси скептик, но откако текстот успеал, си рекол „одам на великанот Конески!“

Еве што вратила програмата кога била „напоена“ со мислите на Конески:

Ноќеска слушав песна
на пуста нива,
во час на самрак,
на шир.

Но, македонскиот јазик со својот член, удвоен предмет и специфични конструкции е нешто што мора да биде кодирано одново и одново, за да биде усовршено. Дали дигитализацијата ќе го спаси нашиот јазик и идентитет? За Туџароски таа е „неопходен чекор кој мора да го направиме“. Но, колку ќе го користиме нашиот јазик, останува на нас, луѓето.

Дата-програмерството зема голем замав во Македонија

Како започна љубовта кон вештачката интелегенција и дали во Македонија е во подем дата-програмерството?

– Откако памeтам за себе, сум вљубеник во математиката и во компјутерите. Спојот помеѓу двете области ме доведе до вештачката интелигенција. Иницијатор беше мојот директор во фирмата каде што и денес работам, „Нетцетера“, Александар Ников. Пред 11 години имав една интерна презентација за Data Mining способностите на MS SQL Server, полна со убави визуелизации, но со малку информации за тоа како се добиени. Тој ми обрна внимание кога зборувам за вештачка интелигенција, да се обидам да ги објаснувам работите на „more scientific way”. Ме насочи на Andrew Ng и еден негов курс за Machine Learning на coursera.org. Од тогаш, веќе 11 години, сѐ што учам, читам и гледам е поврзано со вештачката интелигенција. Се „навлеков”.

Што се однесува до сегашната состојба, дата-програмерството добива замав секаде низ светот, па и во Македонија. Корона вирусот, покрај другите ефекти кои ги има врз секојдневното живеење и сите промени кои ги донесе во начинот на организација на работата, одигра огромна улога во две меѓусебно поврзани области: огромно забрзување на дигитализацијата на глобално ниво, и глобализација на понудата и побарувачката на работна сила која не инсистира на физичко присуство.

Првото неодминливо води кон забрзана примена на вештачката интелигенција насекаде околу нас. Второто придонесува за зголемување на побарувачката за дата инженери локално во Македонија, од странски фирми, со можност за работа од дома.

Zoom и Google Meet ја сведоа комуникацијата меѓу две точки на Земјата на тривијалност и единствен проблем е ако заборавите да прашате за која временска зона станува збор кога закажувате состанок. Најискрено се надевам дека тоа барем малку ќе придонесе за намалување на одливот на квалитетни кадри во странство, како единствена можност да се работи за фирми на кои императив им е да ги пратат последните достигнувања во областа.

Да се автогенерира текст сигурно е тешко, но колку длабоко може компјутерот да навлезе во уникатната поетска мисла на Конески?

– За да стигнам до генерирање на поезија во стилот на Блаже Конески, требаше да го изодам патот на детално разбирање на технологијата која го овозможува ова. Станува збор за пробив во вештачката интелигенција направен од Google и OpenAI од пред три години, Transformers, BERT и GPT, кои овозможија да почнеме да зборуваме за transfer-learning и style -transfer применети во областа на пишаниот збор.

Овие техники се применувани од поодамна во обработката на слики. Кога со една операција во Photoshop или со слични алатки, применуваме филтер кој придонесува сликата врз која во моментот работиме да изгледа како да е цртана од Ван Гог, или цртана како со молив на хартија, во позадина ја применуваме оваа технологија. Популарна мобилна апликација што го прави истото ова, од поодамна е Prism, иако денес е само една од многуте слични.

Благодарејќи на придонесот на Google и OpenAI, стана можно истото да се примени и во областа на пишаниот збор. Proof-of-concept ми беше тренирање на невронска мрежа која генерира поезија во стилот на Шекспир. Доколку успеам со него, ќе успеам со било кој, така размислував пред една година. Резултат: https://dmind.ai/the-minds/william-shakespeare/. Следниот обид беше да се генерираат текстови кои ќе зборат за Covid-19, во стилот на Шекспир.

Резултатот можете да го видите на следниов линк: https://dmind.ai/the-minds/william-shakespeare/about-covid-19/. Станува збор за текстови во целост изгенерирани автоматски, од соодветно истренирани невронски мрежи.

Следен за обработка беше македонскиот јазик. Со оглед на тоа што сите пробиви во оваа област првенствено се изведени во англискиот јазик и потоа постепено се имплементирани врз останатите најраспространети светски јазици, требаше да се почне од нула.

Тука голема поддршка добив од тимот Македонајзери: проф. д-р. Анастас Мишев, д-р. Моника Симјановска, м-р. Костантин Мишев и Ташко Павлов, сите од ФИНКИ. Резултат: BERT и GPT-2 истренирани на македонски јазик. Со нив веќе бевме спремни за style-transfer, и прв „дигитализиран” од македонските автори е Блаже Конески. Резултат: https://dmind.ai/the-minds/blaze-koneski/. Следни се Кочо Рацин и Ацо Шопов.

Вештачката интелигенција не може да е одговорна за донесувањето одлуки

Што е NLG, NLP,  и воопшто, како машинското учење ќе ги промени нашите животи?

NLG (Natural Language Generation) и NLP (Natural Language Processing) се гранки од машинското учење и вештачката интелигенција, применети врз текст. Тие можат да направат анализа на одредено чувство (позитивна/негативна критика, на пример), автоматски да класифицираат некој текст, дали станува збор за текст на тема политика, забава, спорт, итн. Тие забрзано се развиваа во последните неколку години, како впрочем и сѐ што е поврзано со вештачката интелигенција.

Самата вештачка интелигенција веќе има длабоко навлезено во нашите компјутери и насекаде околу нас, само најверојатно не сме свесни за тоа. На пример, Google и Facebook се AI-first компании, сѐ што прават е прво имплементирано со поддршка на вештачка интелигенција. Кога купуваме нешто на Amazon или на AliExpress, вештачката интелигенција ни дава препораки базирани на нашите посети на интернет страниците во последните неколку часа.  Накратко, вештачката интелигенција веќе е насекаде околу нас, а ќе ја има уште повеќе.

Важно е да се разберат нејзините ограничувања. Таа сѐ уште е во фаза да биде обична статистичка алатка, само многу софистицирана, поддржана од многу податоци и брзо процесирање. Она што и недостасува за таа да стане вистинска „вештачка” интелигенција е „здрав разум”, нешто да ѝ биде очигледно, иако истото не е точно специфицано во конкретен случај.

Поради ова, не смее да се остави AI да биде одговорна за донесување на одлуки кои можат да имаат не баш занемарливи последици. Денешниот стадиум со автономните возила го покажува тоа: пред четири години Илон Маск ветуваше потполно автономни коли за две години, а денес се чини дека таа цел е подалеку отколку што беше тогаш. На сите заинтересирани за оваа област им ја препорачувам книгата „Rebooting AI“ од Gary Marcus и Ernest Davis. Таму детално е елаборирано погоре кажаното, со многу примери.

Дали дигитализацијата може да ги спаси македонскиот јазик и идентитетот, во време кога книгите исчезнуваат?

– Дигитализацијата на сите пишани документи на македонски јазик е неизбежен и неопходен чекор кој мораме да го направиме, доколку сакаме да им ги ставиме на увид тие материјали на сегашните и идните поколенија. Книгите исчезнуваат, но само во нивната хартиена форма. Дигитални содржини се генерираат со брзини кои бележат експоненцијален раст. За жал, растот на квалитетни содржини не го следи овој тренд, но така е насекаде низ светот.

Што се однесува до спасувањето на македонскиот јазик и на идентитетот, дигитализацијата сама по себе не може да придонесе за тоа. Тука одговорни сме ние самите, сите, колку и како и со кој квалитет ќе го практикуваме нашиот македонски јазик.

За крај, неколку генерирани песни, во стилот на Блаже Конески:

И еве пак во самрак сега гледам
како се потихи
со задуман вик,
како да не бидам тажен,
како да не сетам.
Јас не барам од тебе чуда,
со задуман повик да те наспиам,
те молам запри, не,
не, нема среќа.

***

Ноќеска слушав песна
за тебе земјо,
да бидеш делотворна,
в амбарна,
сиромашчинска
како се смешкаш
со рацете
и некој смел и широк глас
како се смешкаш
со рацете
и некој широк глас
како се смееш
како се смееш

***

Како се измеша веков,
косата да ти се крене!

О време, време е.
Не остана живот за нас,
за берокуќници,
луѓе чесни домаќини…

Си збиркал, си штурил –
си пустел, си штурил –
сиренце.
Што оставил тогаш,
одовде се врати
како берокуќник, си пустел, си штурил.

Поврзани содржини