DeepMind dezvăluie Genie 3
Google DeepMind a prezentat Genie 3, cel mai recent model de tip „foundation world model”, care reprezintă un pas crucial către inteligența artificială generală (AGI) sau inteligența asemănătoare omului.
Inovații și Capacități
„Genie 3 este primul model de lume interactiv în timp real, destinat uzului general”, a declarat Shlomi Fruchter, director de cercetare la DeepMind. Acest model depășește modelele anterioare, care erau specifice unor medii particulare. Genie 3 poate genera atât lumi fotorealiste, cât și imaginate, oferind o flexibilitate semnificativă.
În prezent, Genie 3 este disponibil doar în preview de cercetare și nu este accesibil publicului. Acesta se bazează pe precursorul său, Genie 2, care putea genera medii noi pentru agenți, și pe modelul de generare video Veo 3, care exhibă o înțelegere profundă a fizicii.
Generarea Mediilor Interactive
Cu un simplu prompt text, Genie 3 poate genera medii interactive 3D diverse pentru mai multe minute, comparativ cu 10-20 de secunde în Genie 2, la 24 de cadre pe secundă și cu o rezoluție de 720p. Modelul include „evenimente mondiale promptabile”, permițând modificarea mediului generat printr-un prompt.
Un aspect esențial este că simulările lui Genie 3 rămân consistente din punct de vedere fizic în timp, deoarece modelul își amintește ceea ce a generat anterior. Aceasta este o capacitate emergentă, care nu a fost programată explicit de cercetătorii DeepMind.
Aplicații și Implicații pentru AGI
Genie 3 are implicații importante pentru experiențele educaționale și pentru media generativă, precum jocurile sau prototiparea conceptelor creative. Totuși, cheia reală a acestuia constă în antrenarea agenților pentru sarcini de uz general, ceea ce este esențial pentru atingerea AGI.
Jack Parker-Holder, cercetător științific în echipa de deschidere a DeepMind, a subliniat că modelele de lume sunt esențiale pentru agenții încorporați, unde simularea scenariilor din lumea reală este deosebit de provocatoare.
Soluționarea Provocărilor în Simulări
Genie 3 este proiectat pentru a depăși obstacolul simulării. Spre deosebire de Veo, nu se bazează pe un motor fizic codificat, ci învață singur cum funcționează lumea, cum se mișcă, cad și interacționează obiectele, prin amintirea a ceea ce a generat anterior.
Modelul este auto-regresiv, generând un cadru la un moment dat, ceea ce îi permite să se uite înapoi la ceea ce a fost generat anterior pentru a decide ce se va întâmpla în continuare. Această memorie creează consistență în lumile simulate, permițând dezvoltarea unei înțelegeri intuitive a fizicii.
Limitări și Perspective Viitoare
În prezent, gama de acțiuni pe care un agent le poate întreprinde este încă limitată. Evenimentele mondiale promptabile permit intervenții ecologice variate, dar nu sunt neapărat efectuate de agentul însuși. De asemenea, este dificil de modelat interacțiunile complexe dintre agenți independenți într-un mediu comun. Genie 3 suportă doar câteva minute de interacțiune continuă, când orele ar fi necesare pentru un antrenament corespunzător.
Cu toate acestea, Genie 3 reprezintă un pas important în învățarea agenților să meargă dincolo de reacționarea la inputuri, permițându-le să planifice, exploreze, caute incertitudine și să învețe din experiențele proprii, într-un mod care reflectă modul în care oamenii învață în lumea reală.
Concluzie
Genie 3 are potențialul de a deschide noi orizonturi în dezvoltarea inteligenței artificiale, îmbunătățind capacitatea agenților de a învăța și adapta, ceea ce este esențial pentru progresul către inteligența artificială generală.