Kaasaegse AI koidik: GPT mõistmine
GPT muutis revolutsiooniliseks mitte ainult selle suurus (kuigi sel ajal tundus selle 117 miljonit parameetrit tohutu), vaid ka selle aluseks olev arhitektuur. Trafomudel, mille Google'i teadlased tutvustasid oma artiklis "Tähelepanu on kõik, mida vajate", osutus järjestikuste andmete (nt teksti) töötlemisel märkimisväärselt tõhusaks. Erinevalt varasematest korduvatest närvivõrkudest, mis töötlesid märke üksteise järel, said trafod oma enesetähelepanumehhanismi kaudu analüüsida terveid järjestusi üheaegselt.
See paralleelne töötlemine mitte ainult ei kiirendanud koolitusaega, vaid võimaldas mudelil paremini tabada teksti pikamaa sõltuvusi. Järsku võis AI "meelde jätta" lõikude eest mainitud ja säilitada pikemate väljundite temaatilise järjepidevuse. Esimest korda hakkas masinaga loodud tekst tunduma tõeliselt inimlikuna.
Skaleerimise ajastu: GPT-2-st GPT-3-le
Kuid tõeline veelahkmehetk saabus GPT-3-ga aastal 2020. 175 miljardi parameetri juures – mis on enam kui 100 korda suurem kui GPT-2 – kujutas see endast võimaluste hüpet. Mudel näitas, mida teadlased nimetavad "tekkivateks võimeteks" - oskused, mille jaoks seda ei õpetatud selgesõnaliselt, vaid need arendati välja ulatuse ja erinevate andmetega kokkupuute kaudu.
Võib-olla kõige tähelepanuväärsem on see, et GPT-3 näitas algelisi "mõne võttega õppimise" võimeid. Kui viipa on vaid paar näidet, saab see kohaneda uute ülesannetega, nagu tõlkimine, kokkuvõte või isegi põhiline kodeerimine. Tehisintellekti valdkond hakkas mõistma, et mastaap ei parandanud ainult jõudlust järk-järgult - see muutis põhjalikult seda, mida need süsteemid suudavad.
Suurusest kaugemale: täiustamine RLHF-i kaudu
Sisestage tugevdamisõpe inimeste tagasisidest (RLHF). See koolitusmetoodika tutvustab inimestest hindajaid, kes hindavad mudeli väljundeid, luues tagasisideahela, mis aitab tehisintellektil mõista, millised vastused on kasulikud, tõesed ja kahjutud. RLHF-iga koolitatud mudelid, nagu ChatGPT ja Claude, osutusid igapäevaste toimingute jaoks oluliselt kasulikumaks, vähendades samal ajal kahjulikke väljundeid.
RLHF tähistas AI arendusfilosoofias olulist nihet. Toorest ennustusjõust enam ei piisanud – inimväärtuste nüansside mõistmiseks oli vaja süsteeme. See koolitusviis aitas mudelitel tundlikele teemadele asjakohaselt reageerida, sobimatuid taotlusi tagasi lükata ja ebakindlust väljendada, selle asemel et enesekindlalt valesid väita.
Algab multimodaalne revolutsioon
Need süsteemid töötasid difusioonimudelite väljaõppega pilt-tekstipaaride tohututel andmekogumitel. Õppides visuaalsete mõistete ja nende tekstiliste kirjelduste vahelist seost, saaksid nad muuta vastavateks kujutisteks sellised vihjed nagu "sürrealistlik maal Salvador Dali stiilis malet mängivast kassist".
Samamoodi muutusid kõnetuvastusmudelid üha täpsemaks ja teksti kõneks muutmise süsteemid muutusid inimhäältest peaaegu eristamatuteks. Videote genereerimine, olles veel oma varasemates etappides, hakkas andma paljulubavaid tulemusi selliste süsteemidega nagu Runway ML Gen-2 ja Google'i Lumiere.
Iga modaalsus arenes kiiresti, kuid need jäid suures osas eraldi süsteemideks. Järgmine revolutsioon tuleneks nende võimete ühendamisest.
Tõeline multimodaalne AI: nägemine, kuulmine ja mõistmine
Need süsteemid suudavad kirjeldada seda, mida nad piltidel näevad, eraldada dokumentidest teksti, analüüsida diagramme ja graafikuid ning lahendada isegi visuaalseid mõistatusi. Kasutaja saab üles laadida foto oma külmikus olevatest koostisosadest ja küsida: "Mida ma saan neist süüa?" Seejärel tuvastab tehisintellekt esemed ja soovitab sobivaid retsepte.
Tõelised multimodaalsed süsteemid erinevad lihtsalt eraldi mudelite ühendamisest nende ühtne arusaam. Kui küsite pildil oleva elemendi kohta, ei käivita süsteem lihtsalt eraldi pildituvastust ja seejärel teksti genereerimist – see arendab integreeritud arusaama erinevatest viisidest. See võimaldab keerukamat arutluskäiku, näiteks selgitada, miks meem on naljakas, või teksti ja piltide vahelise vastuolu tuvastamine.
Testi tehisintellekti OMA veebisaidil 60 sekundiga
Vaata, kuidas meie tehisintellekt analüüsib koheselt sinu veebisaiti ja loob personaliseeritud vestlusroboti - ilma registreerimiseta. Sisesta lihtsalt oma URL ja jälgi, kuidas see toimib!
Multimodaalsete süsteemide arhitektuur
Kaasaegsed multimodaalsed arhitektuurid kasutavad iga modaalsuse jaoks spetsiaalseid kodeerijaid, mis muudavad algandmed jagatud esitusruumiks. Näiteks võib pilti töödelda nägemistrafo (ViT), mis jagab selle paikadeks ja teisendab need manusteks, samas kui tekst märgistatakse ja manustatakse eraldi. Need erinevad manustused projitseeritakse seejärel ühisesse ruumi, kus põhimudel saab neid koos töödelda.
See "torni ja silla" arhitektuur võimaldab mudelitel õppida transpordiliikidevahelisi suhteid – mõista, kuidas mõisted keeles vastavad visuaalsetele tunnustele või helimustritele. Kui GPT-4 Vision tunneb fotol ära maamärgi, saab see ühendada selle visuaalse esituse oma tekstiliste teadmistega asukoha ajaloo, tähtsuse ja konteksti kohta.
Koolitusprotsess hõlmab tavaliselt tohutuid paarissisu andmekogumeid – pilte koos pealdistega, videoid koos transkriptsioonidega ja muid joondatud multimodaalseid andmeid. Nendest joondustest õppides loob mudel sisemise esituse, kus erinevate modaalsuste seotud mõisted kaardistatakse selle vektorruumis tihedalt koos.
Multimodaalse AI reaalmaailma rakendused
Tervishoius saavad süsteemid diagnoosimise abistamiseks analüüsida meditsiinilisi pilte koos patsiendi andmete ja sümptomitega. Arst saab üles laadida röntgenipildi ja esitada konkreetseid küsimusi võimalike probleemide kohta, saades teadmisi, mis ühendavad visuaalse analüüsi meditsiiniliste teadmistega.
Juurdepääsetavuse tagamiseks aitab multimodaalne AI üksikasjalike kirjelduste kaudu pimedatel kasutajatel visuaalsest sisust aru saada ning kurtidele kasutajatele, pakkudes kõnesisu reaalajas transkriptsiooni ja tõlkimist.
Haridustöös loovad need süsteemid interaktiivseid õpikogemusi, kus õpilased saavad esitada küsimusi diagrammide, ajalooliste fotode või matemaatiliste võrrandite kohta, saades nende õppimisstiilile kohandatud selgitusi.
Sisuloojad kasutavad multimodaalset tehisintellekti täiendavate varade loomiseks – artiklite kirjutamiseks ja sobivate illustratsioonide loomiseks või sünkroonitud visuaalide ja jutustusega õppevideote tootmiseks.
E-kaubanduse platvormid rakendavad visuaalset otsingut, kus kliendid saavad üles laadida pildi neile meeldivast tootest ja leida sarnaseid esemeid, samas kui tehisintellekt kirjeldab põhifunktsioone, millele see sobib.
Võib-olla kõige olulisem on see, et multimodaalsed süsteemid loovad loomulikumaid inimese ja arvuti interaktsiooni paradigmasid. Selle asemel, et kohandada oma suhtlust nii, et see sobiks jäikade arvutiliidestega, saame üha enam suhelda tehnoloogiaga viisil, nagu me üksteisega loomulikult suhtleme – sõnade, piltide, helide ja žestide sujuva kombinatsiooni kaudu.
Piirangud ja eetilised kaalutlused
Visuaalne arusaam jääb inimese tajuga võrreldes pinnapealseks. Kuigi tehisintellekt suudab objekte tuvastada ja stseene kirjeldada, jätab see sageli märkamata peened visuaalsed näpunäited, ruumilised suhted ja kultuuriline kontekst, mille inimesed kohe ära tunnevad. Paluge multimodaalsel tehisintellektil selgitada keerukat inseneridiagrammi või tõlgendada fotol kehakeelt ja selle piirangud tulevad kiiresti ilmsiks.
Need süsteemid pärivad ja mõnikord võimendavad ka nende treeningandmetes esinevaid eelarvamusi. Näotuvastuskomponendid võivad teatud demograafiliste rühmade puhul halvemini toimida või visuaalne arutluskäik võib peegeldada kultuurilisi eelarvamusi piltide tõlgendamisel.
Privaatsusprobleemid suurenevad multimodaalsete süsteemide puhul, kuna need töötlevad potentsiaalselt tundlikke visuaalseid ja heliandmeid. Kasutaja võib pilti jagada, teadmata, et see sisaldab taustal isiklikku teavet, mida tehisintellekt võib ära tunda ja oma vastustesse potentsiaalselt kaasata.
Võib-olla on kõige pakilisem probleem multimodaalse tehisintellekti potentsiaal luua veenvat sünteetilist meediat – sügavaid võltsinguid, mis ühendavad realistlikud pildid, video ja heli, et luua veenev, kuid väljamõeldud sisu. Kuna need tehnoloogiad muutuvad kättesaadavamaks, seisavad ühiskonna ees kiireloomulised küsimused meedia autentsuse ja digitaalse kirjaoskuse kohta.
Tulevik: multimodaalsest multisensoorse AI-ni
Uued teadusuuringud uurivad kehastatud tehisintellekti – süsteeme, mis on ühendatud robotplatvormidega, mis suudavad maailmaga füüsiliselt suhelda, ühendades taju ja tegevuse. Multimodaalse tehisintellektiga varustatud robot suudab objekte visuaalselt ära tunda, mõista suulisi juhiseid ja vastavalt oma keskkonda manipuleerida.
Samuti näeme varajast tööd tehisintellektisüsteemide kallal, mis suudavad säilitada püsivat mälu ja luua konteksti mõistmist pikema interaktsiooni käigus. Selle asemel, et käsitleda iga vestlust eraldiseisvana, arendaksid need süsteemid kasutajatega pidevat suhet, pidades meeles mineviku suhtlust ja õppimiseelistusi aja jooksul.
Võib-olla on kõige transformatiivsem areng AI-süsteemid, mis suudavad teostada keerukaid arutlusahelaid erinevatel viisidel – näha mehaanilist probleemi, arutleda füüsika põhimõtete üle ja pakkuda välja lahendusi, mis integreerivad visuaalset, tekstilist ja ruumilist arusaamist.
Kuna need tehnoloogiad arenevad edasi, hägustavad need üha enam piire eritööriistade ja üldotstarbeliste assistentide vahel, mis võib viia tehisintellektisüsteemideni, mis suudavad paindlikult lahendada peaaegu iga inimese kirjeldatava teabetöötlusülesande.
Järeldus: navigeerimine multimodaalses tulevikus
See kiirendus ei näita aeglustumise märke ja tõenäoliselt oleme veel AI loo esimestes peatükkides. Kuna need süsteemid arenevad edasi, kujundavad need ümber seda, kuidas me töötame, õpime, loome ja suhtleme.
Arendajate jaoks avab multimodaalne paradigma uusi võimalusi intuitiivsemate ja ligipääsetavamate liideste loomiseks. Ettevõtetele pakuvad need tehnoloogiad võimalusi keerukate töövoogude automatiseerimiseks ja klientide kogemuste parandamiseks. Üksikisikute jaoks pakub multimodaalne AI võimsaid tööriistu loovuse, produktiivsuse ja teabele juurdepääsu suurendamiseks.
Kuid selles tulevikus navigeerimine nõuab nii võimaluste kui ka piirangute läbimõeldud kaalumist. Kõige tõhusamad rakendused on need, mis kasutavad tehisintellekti tugevusi, võttes arvesse selle nõrkusi, luues inimeste ja tehisintellekti koostööd, mis võimendab meie kollektiivseid võimeid.
Areng GPT-lt multimodaalsele tehisintellektile ei ole pelgalt tehniline saavutus – see on põhimõtteline nihe meie suhetes tehnoloogiaga. Me liigume käsklusi täitvatelt arvutitelt assistentide poole, kes mõistavad konteksti, tõlgendavad tähendusi erinevatel viisidel ning tegelevad inimestevahelise suhtluse rikkalikkuse ja mitmetähenduslikkusega. See üleminek jätkub eelseisvatel aastatel üllataval ja muutlikul viisil.