Ce este Dall-E: transformarea textului în imagini în 2023

Conceptul de a vorbi ceva în existență este încruntat cu o tonă de scepticism în anumite cercuri.

scriem adesea lucrurile ca „gândire doritoare” sau „vise de țeavă”.

Dar trebuie să se spună ceva despre puterea manifestării – în special în ceea ce privește tehnologia .

La începutul anului 2021, OpenAI a lansat un nou model de inteligență artificială numit dall-e .

dall-e este o versiune de formare de 12 miliarde de parametri a modelului de transformare GPT-3.

care duce la creșterea diferitelor AI Art Generators , Dall- E a fost considerat „Picasso of AI” de către unii.

În acest articol, voi explora ce este Dall-e, cum funcționează și ce deține viitorul acestei tehnologii .

Să intrăm corect în ea.

& nbsp;

< /div>

Ce este dall-e?
Dall-e Capabilități
dall-e 2
Viitorul
înfășurați.

Table des matières

Ce este dall -e?

instruit pe o rețea neuronală și capabil să ia subtitrări text ca intrare, Dall-E generează imagini corespunzătoare.

Cu alte cuvinte, acest instrument AI Art transformă textul în imagini.

Aceasta este o realizare semnificativă, deoarece, până acum, modelele de inteligență artificială au avut dificultăți în a înțelege și a genera imagini din descrierile textului .

De la versiuni antropomorfizate ale animalelor și obiectelor până la imagini suprarealiste și creații complet inedite, Dall-E poate genera o mare varietate de imagini.

Un model de limbaj transformator precum GPT-3, Dall-E este instruit pe un set de date mare de text și imagini.

Această pregătire permite algoritmilor și modelelor sale să învețe relațiile dintre cuvinte și concepte și cum să mapeze acele concepte pe reprezentări vizuale.

se poate folosi nume specifice artistului precum Salvador Dali și Pablo Picasso ca intrări de imagine.

Există, de asemenea, opțiunea de a crea artă care seamănă cu ceva direct din Wall-e .

indiferent de metoda de intrare pentru generarea de imagini noi, acest instrument AI este cu adevărat remarcabil.

Dall-e AI poate regenera, de asemenea, orice regiune dreptunghiulară sau „cultură” a unei imagini pe care a generat-o deja.

Dacă nu sunteți mulțumit de un anumit aspect al unei imagini existente, puteți cere Dall-e să genereze unul nou.

Când vine vorba de pixeli, dall-e poate genera o rezoluție 1024 × 1024 , care este mai mare decât multe dintre celelalte instrumente disponibile pe piață.

Tehnologie trecută

rețele adversare generative (GAN) obișnuiau să fie cea mai bună metodă pentru crearea de imagini din descrieri textuale.

Cu toate acestea, GAN -urile au mai multe limitări.

În primul rând, necesită o mulțime de date pentru a funcționa corect.

, de asemenea, tind să producă imagini de calitate scăzută și lipsesc detalii .

În timp ce Gan a fost în jur de ceva vreme, mulți cred că lansarea Dall-e a însemnat sfârșitul domniei lui Gan.

dall-e este, de asemenea, mult mai eficient decât GAN-urile, deoarece poate genera imagini realiste mult mai bune, de o calitate mult mai bună și într-o fracțiune din timp.

dall-e mini

Pe lângă modelul complet Dall-E AI, OpenAI a lansat și o versiune în miniatură numită Dall-e Mini.

În ciuda mai multor capabilități, Dall-e mini poate genera în continuare imagini de înaltă calitate .

dall-e Mini by Craiyon.com este mai accesibil pentru cei care nu au acces la cantități mari de resurse de calcul.

Dall-e Mini este, de asemenea, o versiune open-source a predecesorului său și este disponibilă pentru oricine.

< /a> Dall-e Capabilități

dall-e poate modifica mai multe dintre atributele unui obiect.

Acest lucru duce la rezultate unice și interesante, toate bazate pe descrierea textului dat Dall-e.

înseamnă, de asemenea, că această platformă poate controla numărul de ori în care un obiect apare într -o imagine, precum și dimensiunea, forma și culoarea obiectului menționat.

Dall-e este, de asemenea, capabil să creeze imagini care sunt compuse din scene întregi de la zero , nu doar obiecte individuale.

Acest lucru deschide și mai multe posibilități pentru tipul de imagine generat.

dall-e este capabil să deseneze mai multe obiecte, precum și să formeze relații între ele.

Capacitatea de a genera scene complexe este un pas semnificativ înainte în inteligența artificială.

Pe site-ul lor, Dall-E oferă exemplul de „un arici care poartă o pălărie roșie, mănuși galbene, cămașă albastră și pantaloni verzi.”

Cu pălăria având un atribut de culoare specific , nu este suficient ca instrumentul să recunoască și să creeze pălăria menționată, dar trebuie să o poată plasa corect pe capul ariciului.

același lucru se aplică la mănuși, cămașă și pantaloni menționați în descriere.

Aceasta este o realizare semnificativă și deschide calea pentru ca imaginile și mai complexe să fie generate în viitor.

cu acest concept cunoscut sub numele de legare variabilă, Dall-E poate genera imagini care conțin mai multe obiecte și scene.

Având în vedere trei-dimensii

dall-e nu este doar limitat la imagini bidimensionale.

Platforma este, de asemenea, capabilă să genereze modele tridimensionale de obiecte .

Dall-e este, de asemenea, capabil să genereze modele tridimensionale de obiecte din unghiuri diferite.

în timpul diferitelor faze de testare, dezvoltatorii au dorit să atragă capul unui model din mai multe unghiuri și au descoperit că Dall-E ar putea crea un model 3D neted pe care l-ar putea vedea din orice unghi.