OpenAI DALL-E AI vaizdo generatorius dabar taip pat gali redaguoti nuotraukas

OpenAI DALL-E AI vaizdo generatorius dabar taip pat gali redaguoti nuotraukas

Dirbtinio intelekto tyrimų grupė OpenAI sukūrė naują DALL-E versiją, jos teksto į vaizdą generavimo programą. DALL-E 2 turi didesnės raiškos ir mažesnės vėlavimo pradinės sistemos versiją, kuri sukuria paveikslėlius, kuriuose vaizduojami vartotojų parašyti aprašymai. Jame taip pat yra naujų galimybių, pavyzdžiui, redaguoti esamą vaizdą. Kaip ir ankstesniame OpenAI darbe, įrankis nėra tiesiogiai skelbiamas visuomenei. Tačiau mokslininkai gali prisiregistruoti internetu, kad peržiūrėtų sistemą, o OpenAI tikisi vėliau padaryti ją prieinamą naudoti trečiųjų šalių programose.

Originalus DALL-E, menininko „Salvadoro Dali“ ir roboto „WALL-E“ portretas, debiutavo 2021 m. sausio mėn. Tai buvo ribotas, bet žavus AI gebėjimo vizualiai pavaizduoti sąvokas išbandymas iš kasdienių vaizdų. manekenė flaneliniais marškiniais prie „žirafos iš vėžlio“ arba ridiko, vedančio šunį, iliustracija. Tuo metu „OpenAI“ teigė, kad ji ir toliau plėtos sistemą, nagrinėdama galimus pavojus, tokius kaip šališkumas kuriant vaizdus arba dezinformacijos kūrimas. Jis bando išspręsti šias problemas naudodamas technines apsaugos priemones ir naują turinio politiką, taip pat sumažindamas skaičiavimo apkrovą ir pratęsdamas pagrindines modelio galimybes.

DALL-E 2 rezultatas už „Shiba Inu šuo, dėvintis beretę ir juodą vėžlį“.

Viena iš naujų DALL-E 2 funkcijų, dažymas, pritaiko DALL-E teksto į vaizdą galimybes detalesniu lygiu. Vartotojai gali pradėti nuo esamos nuotraukos, pasirinkti sritį ir nurodyti modeliui ją redaguoti. Pavyzdžiui, galite užblokuoti paveikslą ant svetainės sienos ir pakeisti jį kitu paveikslėliu arba pridėti gėlių vazą ant kavos staliuko. Modelis gali užpildyti (arba pašalinti) objektus, atsižvelgdamas į detales, pvz., šešėlių kryptis kambaryje. Kita funkcija, variantai, yra tarsi neegzistuojančių nuotraukų vaizdų paieškos įrankis. Vartotojai gali įkelti pradinį vaizdą ir tada sukurti daugybę į jį panašių variantų. Jie taip pat gali sujungti du vaizdus ir sukurti paveikslėlius, kuriuose yra abiejų elementų. Sukurti vaizdai yra 1 024 x 1 024 pikselių, o tai yra šuolis virš 256 x 256 pikselių, kuriuos pristatė originalus modelis.

DALL-E 2 sukurtas remiantis CLIP – kompiuterine regėjimo sistema, kurią OpenAI taip pat paskelbė praėjusiais metais. „DALL-E 1 tiesiog perėmė mūsų GPT-3 metodą iš kalbos ir pritaikė jį vaizdui sukurti: suglaudinome vaizdus į žodžių seką ir tiesiog išmokome nuspėti, kas bus toliau“, – sako „OpenAI“ tyrėjas Prafulla Dhariwal. GPT modelis, naudojamas daugelyje teksto AI programų. Tačiau žodžių atitikimas nebūtinai atspindėjo svarbiausias žmonių savybes, o nuspėjamasis procesas apribojo vaizdų tikroviškumą. CLIP buvo sukurta taip, kad būtų galima žiūrėti į vaizdus ir apibendrinti jų turinį taip, kaip tai darytų žmogus, o OpenAI kartojo šį procesą, kad sukurtų „unCLIP“ – apverstą versiją, kuri prasideda aprašymu ir eina link vaizdo. DALL-E 2 generuoja vaizdą naudodamas procesą, vadinamą difuzija, kurį Dhariwal apibūdina kaip pradedant nuo „taškų maišo“, o tada užpildant raštą vis daugiau detalių.

Esamas kambario vaizdas su flamingu viename kampe.

Esamas kambario vaizdas su flamingu viename kampe.

Įdomu tai, kad unCLIP dokumento projekte teigiama, kad jis iš dalies atsparus labai juokingam CLIP trūkumui: tai, kad žmonės gali apgauti modelio atpažinimo galimybes, pažymėdami vieną objektą (pvz., Granny Smith obuolį) žodžiu, nurodančiu ką nors kitą (pvz., iPod). ). Variacijų įrankis, pasak autorių, „vis tiek sukuria obuolių nuotraukas su didele tikimybe“, net jei naudojamas klaidingai pažymėtas paveikslėlis, kurio CLIP negali atpažinti kaip močiutės Smith. Ir atvirkščiai, „modelis niekada nekuria iPod nuotraukų, nepaisant labai didelės santykinės numatomos šios antraštės tikimybės“.

Visas DALL-E modelis niekada nebuvo viešai paskelbtas, tačiau kiti kūrėjai per pastaruosius metus patobulino savo įrankius, kurie imituoja kai kurias jo funkcijas. Viena iš populiariausių įprastų programų yra Wombo’s Dream mobilioji programėlė, kuri sukuria paveikslėlius, kuriuos naudotojai aprašo įvairiais meno stiliais. „OpenAI“ šiandien neišleidžia jokių naujų modelių, tačiau kūrėjai gali panaudoti savo technines išvadas, kad atnaujintų savo darbą.

DALL-E 2 rezultatas už „dubenėlį sriubos, kuri atrodo kaip pabaisa, megzta iš vilnos“.

DALL-E 2 rezultatas už „dubenėlį sriubos, kuri atrodo kaip pabaisa, megzta iš vilnos“.

OpenAI įdiegė kai kurias integruotas apsaugos priemones. Modelis buvo apmokytas naudojant duomenis, iš kurių buvo pašalinta tam tikra nepriimtina medžiaga, idealiu atveju apribodamas jo galimybes sukurti nepriimtiną turinį. Yra vandens ženklas, nurodantis dirbtinio intelekto sukurtą darbo pobūdį, nors teoriškai jį būtų galima apkarpyti. Kaip prevencinė apsaugos nuo piktnaudžiavimo funkcija, modelis taip pat negali sukurti jokių atpažįstamų veidų pagal vardą – net prašydamas kažko panašaus į Mona Liza matyt grąžintų tikrojo paveikslo veido variantą.

DALL-E 2 galės išbandyti patikrinti partneriai su tam tikromis išlygomis. Naudotojams uždrausta įkelti ar generuoti vaizdus, ​​kurie „nepriskirti G“ ir „gali padaryti žalos“, įskaitant bet ką, kas susiję su neapykantos simboliais, nuogybėmis, nepadoriais gestais arba „dideliais sąmokslais ar įvykiais, susijusiais su pagrindiniais vykstančiais geopolitiniais įvykiais“. Jie taip pat turi atskleisti AI vaidmenį kuriant vaizdus ir negali teikti sugeneruotų vaizdų kitiems žmonėms per programą ar svetainę, todėl iš pradžių nematysite DALL-E pagrįstos versijos, panašaus į Dream. Tačiau „OpenAI“ tikisi vėliau jį įtraukti į grupės API įrankių rinkinį, kad būtų galima valdyti trečiųjų šalių programas. „Tikimės, kad čia ir toliau vykdysime etapinį procesą, kad galėtume ir toliau vertinti, kaip saugiai išleisti šią technologiją“, – sako Dhariwal.

Papildomas Jameso Vincento reportažas.

Leave a Comment

Your email address will not be published.