Fünf kostenlose KI-Tools, die ihr nicht kennt (vermutlich)

Wirklich praktisch: Udio (Musikgenerator), SDXL Turbo (Echtzeit-Bildberechnung), GPT4All (mit eigenen Texten chatten) und Devika (Software-Entwickler-KI-Agent).

3

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

YouTube-Video immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

03.05.2024, 16:41 Uhr

Lesezeit: 13 Min.

c't Magazin

Von

Jan-Keno Janssen

Es muss ja nicht immer ChatGPT sein: c't 3003 hat ein bisschen gewühlt und fünf interessante, kostenlose KI-Tools gefunden.

Transkript des Videos

(Hinweis: Dieses Transkript ist für Menschen gedacht, die das Video oben nicht schauen können oder wollen. Der Text gibt nicht alle Informationen der Bildspur wieder.)

Guckt mal hier, ich mache einen 3003-Song in nur 50 Sekunden! Und guckt mal hier, ich generiere Fotos in fast Echtzeit. Und guckt mal hier, ich chatte mit alten c't-PDFs. Ja, in diesem Video zeige ich euch einfach mal stumpf meine Lieblings-KI-Tools. Und ich bin mir ziemlich sicher, dass da zumindest eine, zwei dabei sind, die ihr noch nicht kennt. Bleibt dran.

[Opernsängerin:] Liebe Hackerinnen, liebe Internetsurfer, herzlich willkommen hier bei….

So, jetzt geht's aber los mit den KI-Tools.

Tool Nummer 1: Udio (Musikgenerator)

Ja, ich weiß, das ist kein Geheimtipp mehr, vielleicht nerven euch auch schon die Udio-Songs, die ihr überall hört – aber ich wollte das unbedingt hier ins Video mit reinnehmen, weil das Ding einfach absolut faszinierend ist. (Und unglaublicherweise bislang noch kostenlos.)

Man geht einfach auf udio.com, macht sich 'nen Account, gibt hier einfach den gewünschten Stil ein und, optional, auch den zu singenden oder rappenden Text und zack, fertig. Dauert ein paar Sekunden, und dann gibt's aber zu jedem Prompt gleich zu Songs zum Auswählen. Es werden immer zwei gleichzeitig generiert.

Hört mal hier, ich habe einfach so einen Gaga-Loblied-Text auf 3003 geschrieben.

Ich gucke 3003
Bei jeder Gelegenheit
Egal, ob ihr dafür
Oder dagegen seid

Und das macht Udio zum Beispiel daraus: Deutscher Country-Rock, funkig-soulig, für Swifties und Deichkindig.

Man kann sogar Standup-Comedy faken mit Udio, hier mal drei meiner halblustigen Wortspiele:

Was tun Emsländer in ihren Mojito?
Limeppen!

Was für Musik hören Einbrecher am liebsten?
Diebhaus!

Was ist das Gegenteil von ästhetisch?
Trink-Kaffee-Stuhl!

Also, ja, ich finde es echt gut irgendwie und vor allem beeindruckend, dass das nichts kostet und man im Monat 600 Songs generieren lassen kann. Aber natürlich trainieren die da gerade ihre KI mit, ich bezweifle, dass es kostenlos bleibt.

Und wenn man länger mit Udio herumspielt, fallen einem auch ein paar Problemstellen auf. Zum Beispiel klingt R'n'B auf Deutsch IMMER so wie Xavier Naidoo. Das geht tatsächlich mit dem Udio-Konkurrenten Suno besser.

Und auch bei deutschem Rap hört sich Udio immer etwas oldschool nach Fanta 4 an. So moderneren Trap-Kram, ja, das scheint Udio nicht zu können. Auch das macht Suno besser. Insgesamt hat uns Udio aber trotzdem besser gefallen, weil wir die Songs hier musikalisch besser fanden.

Und auch wenn mich Udio und Suno und Co. echt geflasht haben und ich gerne damit rumspiele, macht mich das alles schon auch irgendwie traurig. Ich produziere selbst gerne Musik und ja, war da immer auch ein bisschen stolz drauf, dass ich was machen kann, was irgendwie wie ein professionell produzierter Song klingt. Und ab sofort ist das absolut nichts Besonderes mehr, also auch, wenn ich – sagen wir mal – zum Geburtstag einer Freundin ein Lied komponiere: Dann werden vermutlich erstmal alle denken: Hat Keno ja nicht selbst gemacht, ist einfach ne KI. Also, ein eigener Song, ist jetzt halt schlagartig nichts Besonderes mehr. Bisschen sad.

Gerne eure Lieblings-Kreationen als Kommentar posten, damit YouTube das nicht löscht, am besten nur die ID hinter "songs" in der Udio-URL, also hinter dem Schrägstrich.

Tool Nummer 2: SDXL Turbo (Echtzeit-Bildberechnung)

Ja, gut, das ist jetzt vielleicht kein Tool, was man täglich für sinnvolle Dinge benutzen kann, aber ich finde, das ist zumindest ein cooler Zaubertrick, mit dem man Leute ein bisschen beeindrucken kann. Das hier nämlich SDXL Turbo, ein Bildgenerierer, der hier lokal auf meiner Grafikkarte läuft. Und Turbo ist ziemlich wörtlich zu nehmen, eine Bildberechnung dauert weniger als eine Sekunde.

Guckt mal, nach jedem eingetippten Buchstaben gibt es ein neues Bild. Sobald ich "Tomat" eingegeben habe, kommen Tomaten, ab "Tomatensalat" kommt dann, ja, Tomatensalat und ab "Tomatensalatbrot" dann halt Brot mit Tomatensalat drauf. Es gibt auch Leute, die dazu Bruschetta sagen, aber für mich ist das Tomatensalatbrot.

Also, dass das so schnell ist, liegt natürlich auch daran, dass ich eine einigermaßen schnelle Grafikkarte in meinem Rechner habe, aber das geht auch mit langsameren recht schnell. Installieren könnt ihr SDXL am einfachsten mit Pinokio, das ist eine Open-Source-Software, mit der man aktuelle KI-Tools sehr einfach starten kann. Einfach nach der Installation hier auf "Discover" gehen, und da dann "sdxl" eingeben. Draufklicken, dann "Install", dann warten und dann auf “Open Web UI”, dann öffnet sich das Ding im Browser.

Tool Nummer 3: IDM-VTON (Klamotten virtuell anprobieren)

Ich persönlich bin nicht der größte Shopping-Fan, also so Anziehsachen in 'ner engen Kabine anprobieren und so, ist nicht so meins. Deshalb finde ich dieses Tool wirklich ganz vielversprechend. Damit kann man ein Foto einer Person nehmen, also hier von mir zum Beispiel, und ein Foto eines Kleidungsstücks, zack hier. Und nach einem Klick auf “Try on”, wird das Kleidungsstück da dann mehr oder weniger realistisch virtuell angezogen. Und ja, ich finde das schon einigermaßen überzeugend, hier mit dem Minnie-Mouse-T-Shirt, also würde ich jetzt auf den ersten Blick nicht erkennen, dass das nicht echt ist. Also ist ein bisschen weird, dass die KI meint, ich hätte Tätowierungen, aber was echt gut ist: Das scheint meinen Körper zu "verstehen", also mein minimaler Wampenansatz – der wird da mit eingerechnet. Das ist jetzt übrigens das Tool IDM-VTON, das könnt ihr genauso wie SDXL Turbo mit Pinokio installieren. Übrigens hat Photoshop seit kurzem in der Betaversion auch eine Bild-Referenzfunktion, ihr könnt da also auch was markieren und dann ein Bild hochladen und sagen: Mach das da mal rein. Und ganz klar: Photoshop hält sich BEI WEITEM nicht so genau an das Referenzbild wie IDM-VTON, der bastelt da irgendwelche komplett anderen Sachen rein. Das hat Minnie Mouse echt nicht verdient.

Aber IDM-VTON ist natürlich auch noch lange nicht “perfekt”. Der macht schon viel komische Sachen. Aber mit gutem Material, klappt es echt schon ok.

Ich muss sagen, dass ich davon ausgehe, dass diese virtuelle Anzieherei über KI eine Standardfunktion von Mode-Onlineshops werden wird, weil es einfach praktisch ist. Und die Technik ist natürlich bei weitem noch nicht da, wo sie für produktiven Einsatz sein muss, aber das wird sie bald sein.

Tool Nummer 4: GPT4All (mit eigenen Texten chatten)

Genaugenommen haben wir GPT4All schon mal bei 3003 vorgestellt, das ist ein Tool, das Open-Source-Sprachmodelle lädt und man dann mit denen so ChatGPT-mäßig chatten kann – nur dass das Ganze eben lokal und nicht in der Cloud stattfindet. Ja, und GPT4all hat eine neue Funktion bekommen und zwar das sogenannte “text embedding”. Damit kann man einfach einen oder mehrere Ordner mit Texten in unterschiedlichen Formaten auf die Software werfen, ja und dann kann man damit chatten. Ich hab das mal mit drei alten PDFs des c’t Magazins versucht. Und, ja, das klappt auf jeden Fall besser als mit allen anderen Tools, mit denen ich das versucht habe. Unter anderem hatte ich das neulich mal mit Chat with RTX von Nvidia gemacht; und das ist völlig unbrauchbar mit externen Dokumenten.

Also GPT4All konnte mir einige sehr konkrete Antworten auf irgendwelche Sachen geben, die in den Heften stehen. Zum Beispiel: Wie fand c’t den ORIC-1? Was hat Nixdorf auf der Systems ‘83 vorgestellt? Die Antworten waren manchmal auf Englisch, obwohl ich immer darum gebeten habe, auf Deutsch zu antworten, aber ja, gut, Schwund ist überall. Das geht in eine interessante Richtung auf jeden Fall, und, ja, also zumindest ich will das gerne, dass ich einfach PDFs irgendwo hinwerfen kann und dann Fragen dazu stellen kann. Ein bisschen Reifezeit braucht das noch, aber dann wird das bald sehr sicher gut funktionieren.

GPT4All läuft auch Windows, Linux und MacOS und für die Embeddings müsst ihr hier auf dieses Speicher-Symbol klicken, dann auf Download, dann ein sogenanntes “Embedding Model” herunterladen, GPT4All empfiehlt Sbet, da auf Download, dann das Fenster zumachen. Dann könnt ihr einfach hier auf “Browse” gehen, den Ordner mit euren Texten auswählen und dann noch einen “Collection name” angeben. Dann auf “Add” klicken! Wenn ihr das Fenster dann zumacht, seht ihr, wie die Dokumente indiziert werden, das dauert einen Augenblick. Aber sobald das durch ist, wählt ihr euer bevorzugtes Sprachmodell aus und könnt loslegen.

Tool Nummer 5: Devika (Software-Entwickler-KI-Agent)

Ja, jetzt wird es richtig abgefahren. Devika ist die Open-Source-Version von Devin, das ist ein, ja, KI-Entwicklungs-Agent. Man gibt dort in normaler Sprache ein, was man haben will und dann spuckt es das aus. Die Dinge dürfen hier komplexer sein als zum Beispiel bei ChatGPT, und Devika kann auch selbst Dateien anlegen. Wir hatten hier bei 3003 ja mal ein Video zu AutoGPT gemacht, Devika ist quasi eine deutlich fortgeschrittenere Variante davon.

Mein erster Versuch war, ein cool animierter 3003-Schriftzug in Python, und wenn man die zweite Null klickt, sollte ein Rick-Astley-Video kommen. Beim ersten Versuch hat sich die Schrift nicht bewegt, aber beim zweiten hats geklappt. Dann wollte ich ein Snake-Spiel programmiert haben, in dem die Schlange aus 3en und 0en besteht und die Pillen aus Köpfen von Jan-Keno Janssen. Ja, es poppte dann auch direkt hoch “Hmm, ob wir dazu die Rechte haben, die Fotos zu verwenden?” Ich hätte gerne gesagt “HEY DAS BIN ICH SELBST”, aber das ging natürlich nicht. Naja, Devika hat dann ein bisschen rumprogrammiert und am Ende kam dann was raus. Was ich hier richtig krass fand: Devika hat sogar ein readme.md gemacht, also wie es auf github üblich ist. Leider funktionierte das Programm nicht, und zwar nicht mal als ich manuell ein Kenokopf-Bild hinzugefügt habe; und selbst reparieren konnte Devika das Skript auch nicht, es endete dann leider in einem Loop. Also hier muss auch noch viel Entwicklungsarbeit reingesteckt werden, aber faszinierend ist das allemal. Auch Devika kann man mit Pinokio installieren, sobald es läuft, müsst ihr hier einmal aufs Zahnrad gehen, dann auf “edit” und dann könnt ihr eure API-Keys für die Suchmaschinen und vor allem für die KI-Modelle angeben. Ihr könnt als Suchmaschine auch DuckDuckGo verwenden und ein lokales Llama3 über Ollama laufen lassen, dann braucht ihr keinerlei API-Keys.

So, hier noch eine kleine Ergänzung kurz vor Upload dieses Videos. Ich hab noch ein bisschen mit Devika experimentiert und ehrlich gesagt nichts brauchbares aus den Open-Source-Sprachmodellen mit Ollama herausbekommen -- am besten hat's dann doch mit GPT-4 Turbo funktioniert, ihr seht hier gerade die Ergebnisse meines supercoolen Snakespiels. Sieht ok aus, hat aber auch nach vielen Versuchen nicht funktioniert, dass die Schlange die Pille auch essen kann. Schreibt gerne in die Kommentare, wenn ihr was Sinnvolles aus Devika rausbekommen habt.

Ja, das waren jetzt die fünf KI-Tools, die ich im Moment am aufregendsten finde, wenn ihr noch gute Tipps habt: Gerne in die Kommentare schreiben oder sonst auch immer gerne per Mail an 3003@ct.de, ich freu mich immer über Input. Ja, tschüß, und happy KI'ing!

c't 3003 ist der YouTube-Channel von c't. Die Videos auf c’t 3003 sind eigenständige Inhalte und unabhängig von den Artikeln im c’t Magazin. Die Redakteure Jan-Keno Janssen und Lukas Rumpler sowie die Video-Producer Şahin Erengil und Pascal Schewe veröffentlichen jede Woche ein Video.