4GB VRAM ist minimum, 10GB VRAM um es vernünftig benutzen zu können, sprich irgendwas um GTX1080/RX6600 sollte für den Anfang reichen, mehr ist aber immer besser. Bild Generierung dauert 10-60sec, je nach Auflösung und Erweiterungen.
Für den Einstieg ist Automatic1111 gut und einfach, gibt auch noch alternativen wie ComfyUI die graph/flowchat haben.
Im non-FOSS Bereich ist BingChat auch einen Versuch Wert, da das gerade auf DALLE-3 geupgraded wurde, sprich sowas hier generiert das und das Sprachverständnis ist besser als StableDiffusion (siehe Frosch).