In den letzten Wochen habe ich mir die Zeit genommen, die neuesten und etablierten KI-Modelle unter die Lupe zu nehmen. Dabei stand natürlich insbesondere das neue Modell ChatGPT o1-preview im Fokus. Zur Prüfung habe ich ihm anspruchsvolle Aufgaben aus der Eidg. Höheren Fachprüfung für Expert:innen in Rechnungslegung und Controlling 2021 gestellt – mit beeindruckenden Ergebnissen!
💪✅ ChatGPT o1-preview konnte die Aufgaben zur Erstellung von Plan-Erfolgsrechnung, Plan-Bilanz und Plan-Mittelflussrechnung nahezu fehlerfrei bewältigen. Bis auf eine kleine Korrektur, hat es die Herausforderungen sehr gut gemeistert. Ein klarer Fortschritt im Vergleich zu den älteren ChatGPT-Modellen!
Nun habe ich auch dem neuen Modell Gemini 1.5 Pro 002 von Google die gleichen Prüfungsfragen gestellt. 😅 Die Resultate waren viel besser als ich gedacht habe. Beim letzten Mal als ich das Gemini-Modell getestet habe, waren die Ergebnisse wirklich sehr schlecht. Darum ist es bei mir auch für lange Zeit gar nicht mehr auf den Radar gekommen.
Bei der Plan-Erfolgsrechnung schnitt Gemini nun besser ab als erwartet, einige Positionen waren zu meinem Erstaunen wirklich richtig. Bis zum Jahr 3 war sogar der berechnete EBIT richtig. Zeigte dann jedoch Schwächen bei den Fremdkapitalzinsen und in der Plan-Bilanz speziell bei den Produktions-Anlagen und den Bankkrediten.
Im Bereich der Plan-Mittelflussrechnung traten entsprechend Folgefehler aus der Plan-ER und Plan-Bilanz auf, aber die Netto-Umlaufvermögens-Veränderung hat es tatsächlich korrekt berechnet. Also konnte es die Grundprinzipien zur Berechnung der Mittelflussrechnung doch irgendwie anwenden. Für mich waren die Werte gesamthaft aber zu Weit weg, als dass ich im Ping Pong versucht hätte, die Ergebnisse noch zu verbessern. Alles in allem würde ich sagen: ein solider Test, aber mit ca. 50-60% Richtigkeit doch auch noch schlechter als das o1-mini-Modell von ChatGPT.
➡️ Es bleibt spannend zu sehen, wie sich das andere wichtige Modell – Anthropic Sonnet 3.5 – im den kommenden Test schlagen wird. 🚀
Herzlichst, Roman Kalberer