A szövegből kép egy olyan gépi
tanulási módszer, amely képes létrehozni képeket szöveges utasítások azaz
promptok alapján. A text-to-image kombinálja a Computer Vision (CV) és a
Natural Language Processing (NLP) technológiákat. Az ilyen típusú rendszerek
általában olyan mély neurális hálózatokat használnak, amelyek képesek
megtanulni a bemeneti szöveg és a kimeneti kép közötti kapcsolatokat. Erre
épülő megoldások például a DALL-E, Midjourney vagy Stable Diffusion.