Methoden

1. Klassische und statistische Methoden

ARIMA / SARIMA

ARIMA AutoRegressive Integrated Moving Average modelliert eine Zeitreihe anhand ihrer eigenen Vergangenheitswerte AR ihrer Differenzen I und früherer Prognosefehler MA. Dieses Verfahren eignet sich besonders für stationäre oder differenzstationäre Reihen mit klaren Autokorrelationsstrukturen.

SARIMA erweitert ARIMA um saisonale Komponenten und ist damit geeignet für Daten mit wöchentlichen monatlichen oder jährlichen Mustern.

ETS / Holt–Winters

ETS Error Trend Seasonality Modelle verbinden exponentielle Glättung mit einer expliziten Struktur für Trend und saisonale Komponenten. Holt Winters ist ein klassisches ETS Verfahren das Niveau Trend und Saison rekursiv und adaptiv aktualisiert.

Dieses Modell eignet sich besonders für kurzfristige und mittelfristige operative Prognosen bei denen aktuelle Daten stärker gewichtet werden als ältere Beobachtungen. Es lässt sich gut erklären und ist in der Praxis oft überraschend leistungsfähig.

GARCH

GARCH Generalized Autoregressive Conditional Heteroskedasticity modelliert zeitlich veränderliche Volatilität anstatt den Niveauverlauf einer Zeitreihe. Es wird vor allem im Finanzbereich eingesetzt um Risiko und Schwankungsintensität von Renditen zu prognostizieren.

Das Modell geht davon aus dass starke Ausschläge zeitlich gehäuft auftreten und dass die Volatilität selbst einem autoregressiven Prozess folgt. Die Vorhersage des Mittelwerts ist nicht seine Stärke doch sobald Volatilität und Risiko im Mittelpunkt stehen ist GARCH unverzichtbar.

Theta Methode

Die Theta Methode zerlegt eine Zeitreihe in Theta Linien die unterschiedliche Aspekte von Trend und Krümmung betonen und kombiniert anschliessend deren Prognosen. Bekannt wurde sie durch ihre starke Leistung in den M3 und M4 Prognosewettbewerben.

Die Methode ist konzeptionell einfach aber erstaunlich leistungsfähig und in vielen Anwendungsfeldern robust. Sie dient häufig als starker klassischer Referenzansatz für univariate Zeitreihenprognosen.

VAR / VARMA / VECM

Vector Autoregression VAR erweitert univariate AR Modelle auf mehrere Zeitreihen indem jede Variable von den vergangenen Werten aller Variablen im System abhängt. VARMA ergänzt bewegte Durchschnitte und erlaubt damit sowohl autoregressive als auch schockgetriebene Dynamiken in einem multivariaten Umfeld.
VECM ist eine spezielle Form für nicht stationäre aber kointegrierte Reihen und modelliert sowohl kurzfristige Dynamiken als auch langfristige Gleichgewichtsbeziehungen.

Diese Modelle werden in der Makroökonomie und im Finanzbereich breit eingesetzt wenn Rückkopplungen zwischen Variablen eine wichtige Rolle spielen und eine interpretierbare Darstellung von wechselseitigen Einflüssen erforderlich ist.

Kalman Filter und Zustandsraum Modelle

State Space Modelle beschreiben eine Zeitreihe durch verborgene Zustände die sich im Zeitverlauf entwickeln und über eine Beobachtungsgleichung zu den sichtbaren Daten führen. Der Kalman Filter ist der rekursive Algorithmus der diese verborgenen Zustände in Echtzeit für lineare gaußsche Modelle schätzt und dabei optimale Prognosen sowie Unsicherheitsschätzungen liefert.

Viele klassische Modelle wie ARIMA und exponentielle Glättung lassen sich in State Space Form darstellen. Gleichzeitig ermöglicht der Rahmen eigene Komponenten für Trend Saisonalität Zyklen und externe Einflüsse einzubauen. State Space Modelle gehen von Natur aus gut mit fehlenden Daten um und bieten grosse Flexibilität für den Aufbau strukturierter und gut interpretierbarer Prognosesysteme.

Croston Methode und Varianten SBA TSB

Die Croston Methode ist speziell für intermittierende Nachfrage entwickelt bei der viele Nullen auftreten etwa bei Ersatzteilen oder Produkten mit geringer Umschlagshäufigkeit. Sie aktualisiert getrennt die Schätzungen für die Nachfragemenge und das Intervall zwischen nicht null Nachfragen und verwendet deren Verhältnis als Prognose. Dadurch wird eine Verzerrung vermieden die bei klassischen Verfahren auf spärlichen Daten häufig entsteht.

Die Syntetos Boylan Approximation SBA korrigiert eine bekannte Verzerrung der ursprünglichen Methode. Die TSB Variante ergänzt eine explizite Glättung für die Wahrscheinlichkeit des Auftretens von Nachfrage.

Diese Verfahren gelten als etablierte Referenzansätze im Bestandsmanagement und in der Service Level Planung für Artikel mit sporadischer Nachfrage.

Markov Switching Modelle

Markov Switching Modelle erlauben es dass sich die Parameter eines Zeitreihenmodells in Abhängigkeit von einem unbeobachteten diskreten Zustand ändern der einer Markov Kette folgt. Typische Beispiele sind Modelle die zwischen Rezessions und Expansionsphasen oder zwischen niedriger und hoher Volatilität wechseln. Jeder Zustand besitzt eigene Dynamiken etwa unterschiedliche Mittelwerte oder Varianzen und das Modell schätzt sowohl die zustandsspezifischen Parameter als auch die Übergangswahrscheinlichkeiten zwischen den Zuständen.

Dieser Ansatz erfasst Strukturbrüche und nichtlineares Verhalten das in Ein Zustands Modellen verloren geht und wird in der Makroökonomie und der Analyse finanzieller Zeitreihen breit eingesetzt.

2. Hybride Modelle aus Statistik und Machine Learning

Prophet (Meta/Facebook)

Prophet ist ein additives Modell das eine Zeitreihe in Trend Saisonalität und besondere Ereignisse wie Feiertage zerlegt. Es wurde für geschäftsrelevante Zeitreihen entwickelt die ausgeprägte saisonale Muster Wachstum sowie viele Ausreisser oder fehlende Werte aufweisen.

Das Modell erkennt automatisch Trendwechselpunkte und verarbeitet mehrere Saisonalitäten wie wöchentliche und jährliche Muster. Seine wichtigste Stärke liegt in der einfachen Anwendung und guten Interpretierbarkeit und weniger darin die allerletzten Prozentpunkte an Genauigkeit herauszuholen.

Auto-ARIMA

Auto ARIMA automatisiert die Auswahl der passenden ARIMA Konfiguration p d q sowie der saisonalen Parameter anhand von Informationskriterien wie AIC oder BIC. Das Verfahren durchsucht systematisch viele Modellkandidaten und wählt jene Variante aus die Modellgüte und Einfachheit am besten ausbalanciert.

Dies erspart Anwendern mühsames manuelles Ausprobieren bei der Modellauswahl. Besonders wertvoll ist Auto ARIMA als robuster und gut skalierbarer Basisansatz in produktiven Prognosepipelines.

TBATS / BATS

BATS und TBATS sind Erweiterungen der exponentiellen Glättung die Box Cox Transformationen ARMA Fehlermodelle Trendkomponenten und trigonometrische Fourier Darstellungen der Saisonalität nutzen. Sie wurden für Zeitreihen mit mehreren und teilweise nicht ganzzahligen Saisonalitäten entwickelt etwa stündliche Daten mit täglichen und wöchentlichen Mustern.

TBATS ist besonders wirkungsvoll wenn klassische saisonale Modelle komplexe oder sehr lange saisonale Zyklen nicht angemessen erfassen. Es ist ein bevorzugtes Verfahren sobald viele überlagerte saisonale Muster vorliegen.

STL + ARIMA / ETS

Bei STL + ARIMA ETS wird die Zeitreihe zuerst mit STL Seasonal and Trend Decomposition using Loess in Trend Saison und Restkomponenten zerlegt. Der Rest wird anschliessend mit ARIMA oder ETS modelliert während Trend und Saisonalität separat prognostiziert und danach wieder zusammengeführt werden.

Dieser Ansatz bietet hohe Flexibilität da jede Komponente mit einer eigenen spezialisierten Methode behandelt werden kann. Er ist robust gegenüber Veränderungen in der Saisonalität und liefert in der Praxis oft sehr stabile Ergebnisse.

ARIMAX / Dynamische Regression

ARIMAX erweitert ARIMA um externe Variablen X wie Marketingausgaben Wetter oder Preisänderungen die direkt in das Modell eingehen. Dadurch lässt sich quantifizieren wie externe Einflussfaktoren die Zielzeitreihe prägen während Autokorrelation und Saisonalität weiterhin erfasst werden.

Dynamische Regression ist das übergeordnete Konzept bei dem eine Regression mit zeitabhängigen Strukturen in den Residuen kombiniert wird. Diese Modelle sind besonders wichtig wenn erklärende prognosen mit Ursache Wirkung Bezug benötigt werden und nicht nur rein musterbasierte Vorhersagen.

Modelle z.B. ETS und ARIMA

Ensemble Modelle kombinieren Prognosen aus mehreren Einzelmodellen wie ARIMA ETS und ML Verfahren um eine insgesamt robustere Vorhersage zu erhalten. Die Grundidee besteht darin dass verschiedene Modelle unterschiedliche Aspekte der Daten erfassen und dass eine Mittelung die Varianz sowie modelltypische Verzerrungen reduziert.

Ensembles übertreffen häufig jedes einzelne Verfahren insbesondere bei realen Daten mit viel Rauschen. Sie werden sowohl in Wettbewerben als auch in produktiven Systemen breit eingesetzt um zusätzliche Stabilität zu erzielen.

Generalized Additive Models (GAMs)

GAMs sind Regressionsmodelle bei denen der Einfluss jedes Prädiktors als glatte und möglicherweise nichtlineare Funktion modelliert wird während das Gesamtmodell additiv und gut interpretierbar bleibt. In der Zeitreihenprognose können GAMs Kalendereffekte saisonale Muster und externe Einflussfaktoren mit transparenten glatten Kurven abbilden.

Sie bilden einen Mittelweg zwischen klassischer Statistik und weniger durchschaubaren ML Verfahren. Dadurch sind sie besonders attraktiv für Bereiche in denen sowohl Flexibilität als auch Interpretierbarkeit geschätzt werden.

Gradient Boosted Hybridmodelle

Gradient Boosted Hybridmodelle nutzen Merkmale aus der klassischen Zeitreihenanalyse wie Verzögerungen gleitende Kennzahlen und saisonale Indikatoren und führen sie Boosting Algorithmen wie XGBoost oder LightGBM zu. Die Zeitreihenstruktur wird in den Merkmalen kodiert während das Boosting Verfahren nichtlineare Wechselwirkungen abbildet.

Dieser Ansatz kann die Genauigkeit deutlich steigern sobald viele externe Einflussgrössen verfügbar sind. Er ist ein pragmatischer Weg statistisches Fachwissen mit der Leistungsfähigkeit moderner ML Methoden zu verbinden.

Conformal Prediction als Ergänzung

Conformal Prediction ist kein eigenständiges Prognosemodell sondern eine Kalibrierungsschicht die auf jedes beliebige Modell aufgesetzt werden kann um gültige Prognoseintervalle zu erzeugen. Das Verfahren nutzt vergangene Residuen um die Breite der Intervalle so festzulegen dass eine gewünschte Abdeckungswahrscheinlichkeit erreicht wird.

Die Methode ist verteilungsfrei und stellt nur wenige Annahmen an das zugrunde liegende Modell. Dadurch ist sie in der Praxis sehr attraktiv für eine robuste und verlässliche Quantifizierung von Unsicherheit.

ES RNN

ES RNN ist ein hybrides Modell das Komponenten der exponentiellen Glättung mit einem rekurrenten neuronalen Netz verbindet und ursprünglich für den M4 Prognosewettbewerb entwickelt wurde. Die exponentielle Glättung aktualisiert lokale Niveau und Saisonkomponenten während das RNN komplexe Muster über viele Reihen hinweg aus gemeinsamen Darstellungen lernt.

Dieser Aufbau vereint einen starken induktiven Bias aus der klassischen Zeitreihenmodellierung mit der Flexibilität von Deep Learning. ES RNN zeigte dass solche Hybridansätze sowohl reine statistische als auch reine neuronale Verfahren auf grossen Prognosebenchmarks deutlich übertreffen können.

NeuralProphet

NeuralProphet ist eine neuronale Erweiterung von Facebook Prophet die die vertraute additive Struktur aus Trend Saisonalität und Ereigniseffekten beibehält sie jedoch um gelernte autoregressive und verzögerte Komponenten ergänzt. Auf Basis von PyTorch können neuronale Netze jene Signalanteile modellieren die für einfache lineare Komponenten schwer zugänglich sind während gleichzeitig klare Zerlegungen für die Interpretierbarkeit erhalten bleiben.

NeuralProphet unterstützt mehrere Saisonalitäten zukünftige Kovariaten und benutzerdefinierte Ereignisse und verbessert die Genauigkeit gegenüber Prophet häufig dann wenn die Daten nichtlineare oder komplexere Dynamiken aufweisen. Ziel ist ein ausgewogenes Verhältnis aus einfacher Anwendung und guter Erklärbarkeit verbunden mit der zusätzlichen Leistungsfähigkeit von Deep Learning.

3. Machine Learning Modelle

Random Forest

Random Forests sind Ensembles aus Entscheidungsbäumen die auf bootstrapierten Stichproben der Daten mit zufälligen Merkmalsauswahlen trainiert werden. In Zeitreihen arbeiten sie nicht direkt auf den Rohdaten sondern auf Merkmalen wie Verzögerungen gleitenden Durchschnitten und Kalenderindikatoren.

Sie sind robust gegenüber Rauschen erfassen nichtlineare Zusammenhänge und liefern Kennzahlen zur Merkmalswichtigkeit. Allerdings modellieren sie die zeitliche Abhängigkeit nicht von selbst daher ist eine sorgfältige Merkmalskonstruktion entscheidend.

XGBoost

XGBoost ist eine stark optimierte Gradient Boosting Bibliothek die Bäume nacheinander aufbaut um Fehler vorheriger Modelle zu korrigieren. In der Zeitreihenprognose wird es auf konstruierte Merkmale angewendet etwa Verzögerungen saisonale Indikatoren und externe Variablen.

Es erzielt häufig Spitzenleistungen in Wettbewerbsumgebungen und in Projekten nach Kaggle Art. Der wichtigste Nachteil ist eine geringere Interpretierbarkeit im Vergleich zu klassischen Modellen doch Werkzeuge wie SHAP können helfen die Vorhersagen nachvollziehbar zu machen.

LightGBM

LightGBM ist ein weiteres Gradient Boosting Framework das durch histogrammbasierte Algorithmen und eine blattorientierte Baumstruktur für hohe Geschwindigkeit und Skalierbarkeit optimiert ist. Es verarbeitet grosse Merkmalsmengen und hochfrequente Zeitreihendaten sehr effizient.

Mit geeigneter Merkmalskonstruktion kann es komplexe nichtlineare Zusammenhänge und Wechselwirkungen zwischen Variablen erfassen. In produktiven Umgebungen wird es häufig eingesetzt da es Geschwindigkeit Genauigkeit und einen moderaten Ressourcenbedarf gut kombiniert.

Support Vector Machines (SVM / SVR)

Support Vector Regression SVR nutzt Kernelverfahren um nichtlineare Beziehungen zwischen Eingangsmerkmalen und der Zielvariable zu lernen. Bei Zeitreihen bestehen die Merkmale typischerweise aus Verzögerungen Differenzen und Saisonalitätsindikatoren.

SVR kann auf mittelgrossen Datensätzen mit klaren Mustern sehr gute Ergebnisse liefern skaliert jedoch weniger gut auf sehr grosse Datenmengen. Zudem ist die Interpretation im Vergleich zu linearen oder additiven Modellen weniger eindeutig.

k-Nearest Neighbors (kNN) Forecasting

kNN Forecasting sagt zukünftige Werte anhand ähnlicher Muster aus der Vergangenheit vorher. Das Verfahren sucht historische Zeitfenster die der aktuellen Situation ähneln und nutzt deren anschliessende Werte als Prognose.

Der Ansatz ist einfach und intuitiv und kann gut funktionieren wenn sich wiederkehrende Motive in den Daten finden. Die Leistung nimmt jedoch ab sobald sich das Regime der Zeitreihe verändert oder die Dimensionalität der Merkmale sehr hoch wird.

Quantile Regression Forests / Gradient Boosting

Quantile Regression Varianten von Forests und Boosting Modellen sagen spezifische Quantile der zukünftigen Verteilung voraus anstatt einer einzelnen Mittelwertprognose. Dadurch lassen sich Prognoseintervalle und Risikomasse direkt schätzen.

Diese Methoden sind besonders nützlich wenn asymmetrische Risiken eine Rolle spielen etwa wenn eine Unterschätzung der Nachfrage deutlich kostspieliger ist als eine Überschätzung. Sie können eigenständig eingesetzt oder mit Conformal Prediction Verfahren kombiniert werden.

Regelbasierte Modelle z.B. RuleFit

Regelbasierte Modelle leiten aus Baum Ensembles menschenlesbare Regeln ab und nutzen diese anschliessend in einem linearen Modell. In Zeitreihen können Regeln Bedingungen beschreiben wie zum Beispiel wenn der Absatz in der vergangenen Woche hoch war und es Dezember ist steigt die Nachfrage voraussichtlich deutlich an.

Damit entsteht eine Verbindung zwischen flexiblen ML Verfahren und gut verständlicher Geschäftslogik. Solche Modelle sind besonders hilfreich wenn Entscheidungsträger die Entscheidungslogik in klarer Sprache nachvollziehen müssen.

Merkmalsbasierte Zeitreihen Pipelines z.B. TSFresh

Merkmalsbasierte Ansätze berechnen automatisch Hunderte oder sogar Tausende statistischer Merkmale aus Zeitreihen etwa Autokorrelation Trendstärke oder Entropie. Diese Merkmale werden anschliessend mit allgemeinen ML Modellen wie Random Forests oder Boosting Verfahren genutzt.

Dieser Ansatz ermöglicht es leistungsfähige tabellarische ML Algorithmen wiederzuverwenden und gleichzeitig vielfältige zeitreihentypische Eigenschaften abzubilden. Besonders hilfreich ist er wenn viele kurze Zeitreihen vorliegen die einheitlich klassifiziert oder prognostiziert werden sollen.

CatBoost

CatBoost ist eine Gradient Boosting Bibliothek die bei kategorialen Merkmalen besonders stark ist da sie geordnete Zielstatistiken und spezielle Regularisierungstechniken nutzt. In der Zeitreihenprognose wird CatBoost meist auf tabellarische Merkmale angewendet die aus der Reihe abgeleitet werden etwa Verzögerungen gleitende Kennzahlen Kalendervariablen und kategoriale Kennungen für Artikel oder Standorte.

CatBoost erreicht häufig eine ebenso hohe oder sogar höhere Leistung als andere Tree Boosting Bibliotheken und erfordert deutlich weniger manuelle Vorverarbeitung kategorialer Variablen. Es ist ein sehr guter Kandidat für produktionsreife Prognosemodelle sobald viele Kovariaten und komplexe Wechselwirkungen vorliegen.

4. Deep Learning und KI Modelle
4.1 Rekurrente und konvolutionale Modelle

LSTM (Long Short-Term Memory)

LSTMs sind rekurrente neuronale Netze die lange zeitliche Abhängigkeiten erfassen indem sie mit speziellen Gates den Informationsfluss steuern. Sie können komplexe nichtlineare Beziehungen mehrere Eingaben und lange historische Verläufe in Zeitreihendaten abbilden.

LSTMs werden in der Prognose breit eingesetzt insbesondere dann wenn einfache lineare Modelle komplexe Muster nicht ausreichend erfassen. Allerdings können sie langsam im Training sein und benötigen eine sorgfältige Abstimmung sowie geeignete Regularisierung.

GRU (Gated Recurrent Unit)

GRUs sind eine vereinfachte Variante von LSTMs mit weniger Gates und Parametern. Sie erreichen häufig eine ähnliche Leistung wie LSTMs trainieren jedoch schneller und lassen sich leichter abstimmen.

In der Zeitreihenprognose werden GRUs oft für multivariate Sequenzen und Aufgaben mit moderater Sequenzlänge eingesetzt. Sie sind eine gute Standardwahl wenn der Übergang von klassischen Modellen zu tiefen Sequenzmodellen erfolgt.

TCN (Temporal Convolutional Networks)

TCNs nutzen dilatierte kausale Faltungen um weitreichende zeitliche Abhängigkeiten ohne Rekurrenz zu erfassen. Da sie Sequenzen parallel verarbeiten sind sie schneller und im Training stabiler als viele RNN Varianten.

Für Prognosen können TCNs sowohl kurz als auch langfristige Muster sehr wirkungsvoll modellieren. Sie sind besonders attraktiv für gross angelegte Anwendungen bei denen die Trainingsgeschwindigkeit eine zentrale Rolle spielt.

BiTCN (Bidirectional Temporal Convolutional Network)

BiTCN erweitert TCNs durch bidirektionale Faltungen sodass während des Trainings sowohl vergangener als auch zukünftiger Kontext innerhalb eines Trainingsfensters genutzt werden kann. Dadurch lässt sich die gesamte Sequenz auswerten was die Merkmalsextraktion und Mustererkennung verbessert.

In der Vorhersagephase wird üblicherweise nur der vergangene Kontext verwendet jedoch basierend auf deutlich reichhaltigeren gelernten Darstellungen. Dies kann zu genaueren Prognosen führen besonders bei komplexen und stark verrauschten Zeitreihen.

DeepAR

DeepAR ist ein probabilistisches rekurrentes neuronales Netz das dafür entwickelt wurde viele verwandte Zeitreihen gleichzeitig zu prognostizieren. Es lernt ein globales Modell über alle Reihen hinweg was besonders hilfreich ist wenn einzelne Reihen kurz oder stark verrauscht sind.

Das Modell liefert vollständige Vorhersageverteilungen und nicht nur Punktprognosen. DeepAR wird umfangreich in gross angelegten Anwendungen im Handel und in der Lieferkettenplanung eingesetzt.

Encoder Decoder LSTMs Seq2Seq

Encoder Decoder LSTM Modelle auch Sequence to Sequence oder Seq2Seq genannt nutzen ein rekurrentes Netz um ein historisches Zeitfenster in eine latente Darstellung zu kodieren und ein zweites Netz um diese Darstellung in zukünftige Werte zu dekodieren. Diese Architektur eignet sich sehr gut für Mehrschrittprognosen da sie eine vollständige Prognosebahn erzeugen kann anstatt jeden Horizont separat vorherzusagen.

Aufmerksamkeitsmechanismen können ergänzt werden sodass der Decoder bei jedem zukünftigen Punkt die jeweils relevantesten vergangenen Zeitpunkte stärker gewichtet. Seq2Seq Modelle sind flexibel und leistungsfähig für multivariate und multi horizont Prognosen benötigen jedoch in der Regel umfangreiche Daten und eine sorgfältige Regularisierung.

4. Deep Learning und KI Modelle
4.2 Transformer Modelle

Transformer Generische Architektur

Transformer nutzen Self Attention Mechanismen um verschiedene Zeitpunkte in der Eingabesequenz unterschiedlich zu gewichten und weitreichende Abhängigkeiten ohne Rekurrenz zu erfassen. Sie verarbeiten alle Zeitschritte parallel was auf moderner Hardware sehr gut skaliert.

In Zeitreihen können Transformer lange Verlaufsfenster und heterogene Eingaben verarbeiten darunter kategoriale und kontinuierliche Kovariaten. Die wichtigsten Herausforderungen sind der hohe Datenbedarf und der beträchtliche Rechenaufwand bei sehr langen Sequenzen.

Temporal Fusion Transformer (TFT)

TFT ist eine spezialisierte Transformer Architektur für Prognosen die Attention mit rekurrenten Schichten und Variablenauswahl Netzwerken kombiniert. Sie kann statische Merkmale bekannte zukünftige Eingaben wie Feiertage und beobachtete vergangene Kovariaten in einem einheitlichen Rahmen verarbeiten.

TFT bietet zudem Interpretierbarkeit über Attention Gewichte und Variablenauswahlwerte die zeigen welche Eingaben zu welchem Zeitpunkt relevant waren. Dadurch ist die Architektur besonders attraktiv für industrielle Anwendungen in denen sowohl hohe Genauigkeit als auch gute Erklärbarkeit gefordert sind.

iTransformer

iTransformer führt eine invertierte Sichtweise auf die Darstellung von Zeitreihen ein indem Variablen häufig als Tokens behandelt werden und Attention dadurch flexibler eingesetzt werden kann. Dies kann die Leistung in multivariaten Szenarien verbessern in denen Beziehungen zwischen Variablen ebenso wichtig sind wie zeitliche Muster.

Die Architektur ist darauf ausgelegt parameter effizient zu sein und dennoch komplexe Abhängigkeiten zu erfassen. Als modernes Modell übertrifft es frühere Transformer Varianten in vielen Benchmark Datensätzen häufig deutlich.

PatchTST

PatchTST segmentiert die Zeitreihe in überlappende Patches ähnlich wie Vision Transformer Bildausschnitte verarbeiten. Jeder Patch wird eingebettet und durch Transformer Schichten verarbeitet sodass das Modell lokale und globale Muster effizient lernen kann.

Diese Patch basierte Darstellung ermöglicht es lange Kontextfenster zu nutzen ohne dass die Rechenkosten stark ansteigen. PatchTST hat in Aufgaben mit langen Prognosehorizonten sehr starke Leistungen gezeigt.

TimesNet

TimesNet bildet eindimensionale Zeitreihen in mehrere zweidimensionale Darstellungen ähnlich von Zeit Frequenz Mustern ab und verarbeitet sie mit konvolutionsähnlichen Blöcken innerhalb eines Transformer ähnlichen Rahmens. Dadurch kann das Modell periodische Muster auf verschiedenen Skalen strukturiert erfassen.

Berichten zufolge erzielt TimesNet auf vielfältigen Benchmarks für langfristige Prognosen hervorragende Ergebnisse. Besonders geeignet ist es wenn die Daten ausgeprägtes multiperiodisches Verhalten zeigen.

Informer

Informer führt probabilistische Sparse Self Attention ein um Transformer auf sehr lange Eingabesequenzen skalierbar zu machen. Das Modell richtet seine Aufmerksamkeit selektiv auf die informativsten Zeitpunkte anstatt auf alle. Dadurch sinken Speicherbedarf und Rechenaufwand deutlich ohne dass die Prognoseleistung stark leidet.

Informer wird häufig für langfristige Prognosen in Bereichen wie Energie und Verkehr eingesetzt.

Autoformer

Autoformer integriert einen Auto Correlation Mechanismus um periodische Muster und langfristige Abhängigkeiten gezielt zu modellieren. Die Eingabereihe wird in Trend und Saisonanteile zerlegt die separat verarbeitet werden. Diese Zerlegung hilft dem Modell lange Sequenzen zu bewältigen ohne die zentralen Periodizitäten aus dem Blick zu verlieren.

Autoformer richtet sich besonders auf langfristige Prognosen mit klar ausgeprägter periodischer Struktur.

FEDformer

FEDformer Frequency Enhanced Decomposed Transformer arbeitet teilweise im Frequenzraum indem die Zeitreihe in Komponenten zerlegt und Attention selektiv angewendet wird. Durch die Nutzung des Frequenzraums kann das Modell periodische und saisonale Strukturen besonders effizient erfassen.

Es kombiniert Informationen aus Zeit und Frequenzraum und erhöht dadurch die Robustheit. Diese Architektur ist besonders geeignet wenn die Daten komplexe sich überlagernde saisonale Zyklen aufweisen.

Moirai

Moirai ist ein aktuelles Foundation Modell für Zeitreihen das Transformer basierte Architekturen nutzt die für mehrskalige und mehrhorizont Prognosen optimiert sind. Es ist darauf ausgelegt auf grossen Zeitreihenkorpora vortrainiert und anschliessend für spezifische Aufgaben angepasst zu werden.

Das Modell legt Wert auf Effizienz und flexible Kontextfenster und eignet sich daher gut für den praktischen Einsatz in realen Umgebungen. Moirai verfolgt das Ziel als vielseitiges Grundgerüst für eine breite Palette von Prognoseaufgaben zu dienen.

ETSformer

ETSformer ist eine Transformer Architektur die Konzepte aus der exponentiellen Glättung und den klassischen ETS Modellen direkt in ihr Design integriert. Die Zeitreihe wird in Niveau Trend und Saisonkomponenten zerlegt die jeweils mit spezialisierten Attention Mechanismen und glättungsähnlichen Operationen modelliert werden.

Durch die Einbettung dieser induktiven Strukturen erzeugt ETSformer Prognosen die Trends und saisonale Muster zuverlässiger extrapolieren und leichter zu interpretieren sind als Vorhersagen generischer Transformer Modelle. Besonders bei langen Prognosehorizonten zeigt ETSformer starke Leistungen da stabile Trend und Saisonstrukturen hier von zentraler Bedeutung sind.

Crossformer

Crossformer ist eine Transformer Variante die speziell für multivariate Zeitreihen entwickelt wurde und den Schwerpunkt auf Abhängigkeiten zwischen Variablen legt. Die Daten werden dabei als zweidimensionale Struktur aus Variablen und Zeitsegmenten organisiert und das Modell nutzt Attention sowohl entlang der zeitlichen Dimension als auch zwischen den Variablen.

Dieses Design ermöglicht es dem Modell zu lernen wie sich verschiedene Reihen gegenseitig beeinflussen etwa wie Wettervariablen mit dem Energiebedarf zusammenhängen oder wie mehrere Sensoren in einem industriellen System interagieren. Crossformer ist besonders wirkungsvoll wenn hochdimensionale Zeitreihen sowohl zeitliche Muster als auch reiche Beziehungen zwischen den Reihen abbilden müssen.

4. Deep Learning und KI Modelle
4.3 Foundation Modelle und Mixture of Experts

TimeGPT

TimeGPT ist ein grosses Foundation Modell für Zeitreihen das auf umfangreichen Sammlungen zeitlicher Daten vortrainiert wurde. Es kann mit minimalem Fine Tuning an neue Aufgaben angepasst werden oder sogar direkt ohne weitere Anpassung für viele Prognoseaufgaben eingesetzt werden.

Das Modell soll starke Basisleistungen liefern ohne aufwendiges Modelldesign. Es steht für einen Wandel hin zu Time Series as a Service mit leistungsfähigen generischen Grundmodellen.

Chronos

Chronos ist ein tokenbasiertes vortrainiertes Zeitreihenmodell das numerische Werte als diskrete Tokens behandelt ähnlich wie Sprachmodelle. Es lernt allgemeine zeitliche Muster und probabilistisches Verhalten über viele Datensätze hinweg.

In der Anwendung kann Chronos vollständige Vorhersageverteilungen für neue Reihen mit minimaler Anpassung erzeugen. Besonders interessant ist es für probabilistische Prognosen und für Anwendungen bei denen Risikosensitivität eine zentrale Rolle spielt.

Time-LLM

Time LLM bezeichnet Architekturen die grosse Sprachmodelle mit Zeitreiheneingaben verbinden häufig über Prompt Techniken oder gelernte Adapter. Die Idee ist die Fähigkeiten von LLMs in Bezug auf Mustererkennung und Schlussfolgern für Prognosen Anomalieerkennung oder Szenarioanalysen zu nutzen.

Time LLM Systeme können Unsicherheit und Kontext in natürlicher Sprache beschreiben und machen die Ergebnisse damit für nicht technische Anwender leichter zugänglich. Es handelt sich um ein sich schnell entwickelndes Gebiet in dem sich bewährte Vorgehensweisen noch herausbilden.

TiDE (Time-series Dense Encoder)

TiDE ist eine neuronale Architektur die eine dichte Encoder Decoder Struktur nutzt oft mit vergleichsweise einfachen Bausteinen im Vergleich zu Transformern. Der Schwerpunkt liegt auf Effizienz und guter Leistung in praktischen realen Prognoseaufgaben.

TiDE Modelle können mehrere Kovariaten und lange Eingabefenster verarbeiten und bleiben dabei relativ leichtgewichtig. Dadurch sind sie für industrielle Anwendungen besonders attraktiv in denen Latenz und Ressourcenbedarf eine wichtige Rolle spielen.

Lag-Llama

Lag Llama ist ein modernes Zeitreihenmodell das von grossen Sprachmodellen inspiriert ist jedoch speziell für lag basierte zeitliche Daten optimiert wurde. Es nutzt Sequenzmodellierung über verzögerte Einbettungen um komplexe Muster und Abhängigkeiten zu erfassen.

Das Modell kann häufig über mehrere Datensätze und Aufgaben hinweg generalisieren und wirkt damit wie ein semi Foundation Modell. Seine Stärke liegt in einer flexiblen Repräsentationsbildung für unterschiedlichste Zeitreihenprobleme.

TSMixer

TSMixer überträgt die MLP Mixer Idee aus der Computer Vision auf Zeitreihen indem einfache mehrschichtige Perzeptrons genutzt werden um Informationen über die Zeit und über die Merkmalsdimension hinweg zu mischen. Dadurch entsteht eine vergleichsweise leichte Architektur mit deutlich weniger Parametern als viele Transformer Modelle.

Trotz dieser Einfachheit kann TSMixer in mehreren Benchmarks eine sehr konkurrenzfähige Leistung erzielen. Das Modell ist besonders attraktiv wenn die Vorteile von Deep Learning genutzt werden sollen ohne die Komplexität und den Ressourcenbedarf vollständiger Transformer Architekturen.

TimeMixer

TimeMixer ist eine verwandte Architektur die zeitliche Segmente oder Patches über spezialisierte Mixing Schichten miteinander verbindet. Ziel ist es sowohl lokale als auch globale Muster zu nutzen indem Informationen effizient über Segmente hinweg gemischt werden. Dadurch lassen sich die Trainingskosten reduzieren während eine hohe Prognosegenauigkeit erhalten bleibt.

TimeMixer gehört zu einer breiteren Modellfamilie die darauf abzielt aufwendige Attention Mechanismen durch effizientere Mixing Verfahren zu ersetzen.

SOFTS

SOFTS oft als selbstorganisierendes oder strukturiertes Foundation Modell für Zeitreihen beschrieben ist darauf ausgelegt sich automatisch an unterschiedliche Zeitreihenstrukturen und Regime anzupassen. Es nutzt in der Regel ein globales Vortraining und flexible Anpassungsmechanismen.

Das Ziel ist als universelles Grundmodell für vielfältige Prognose und Analyseaufgaben zu dienen. Als Foundation Modell legt SOFTS besonderen Wert auf Allgemeingültigkeit und eine unkomplizierte Plug and Play Nutzung.

RMoK Model (Recurrent Mixture of Kolmogorov Models)

RMoK kombiniert rekurrente neuronale Architekturen mit Funktionszerlegungen nach Kolmogorov Arnold Art. Das Modell versucht komplexe nichtlineare Beziehungen als Zusammensetzung einfacherer Funktionen darzustellen die in einer Mixture of Experts Struktur organisiert sind.

Dadurch kann RMoK ein breites Spektrum an Verhaltensmustern mit hoher Approximationsfähigkeit erfassen. Es bildet eine Brücke zwischen funktionaler Approximationstheorie und praktischem Sequenzmodellieren.

TimeXer

TimeXer ist ein Zeitreihenmodell das auf einem Mixture of Experts Transformer Grundgerüst basiert wobei unterschiedliche Experten auf verschiedene zeitliche Muster oder Regime spezialisiert sind. Ein Gating Mechanismus entscheidet welche Experten für eine gegebene Eingabe herangezogen werden und erhöht damit Flexibilität und Genauigkeit.

Diese Struktur kann heterogene Datensätze verarbeiten bei denen kein einzelnes Modell überall gleich gut funktioniert. Besonders nützlich ist TimeXer wenn Daten aus vielen Bereichen stammen oder ausgeprägte Regimewechsel aufweisen.

Time-MoE

Time MoE Time Mixture of Experts bezeichnet eine breitere Modellfamilie die mehrere Expertennetzwerke und eine Gating Funktion für Zeitreihenprognosen nutzt. Unterschiedliche Experten können sich etwa auf kurzfristige Dynamiken langfristige Trends oder spezifische Saisonalitäten konzentrieren.

Die Mixture Struktur ermöglicht es dem Gesamtsystem sich an vielfältige Muster anzupassen ohne dass lokale Modelle übermässig komplex werden. Time MoE Modelle können auf grosse Datensätze skalieren und bleiben durch sparsame Aktivierung der Experten auch in der Anwendung effizient.

Kolmogorov–Arnold Networks (KANs)

KANs sind neuronale Netze die vom Kolmogorov Arnold Darstellungssatz inspiriert sind der besagt dass multivariate kontinuierliche Funktionen in Summen univariater Funktionen und deren Zusammensetzungen zerlegt werden können. Anstelle klassischer linearer Schichten nutzen KANs lernbare Basisfunktionen und splineähnliche Operationen.

Für Zeitreihen können sie komplexe nichtlineare Beziehungen mit weniger Parametern und potenziell besserer Interpretierbarkeit modellieren. Sie gelten als vielversprechende Alternative zu klassischen MLPs.

KAN Experts

KAN Experts sind Mixture of Experts Architekturen bei denen jeder Experte ein Kolmogorov Arnold Network ist. Das Gating Netz entscheidet welche KAN Experten für ein bestimmtes Eingabemuster aktiviert werden. Dadurch verbindet das Modell die Ausdruckskraft von KANs mit der Flexibilität von Expertenmischungen sodass sich unterschiedliche Experten auf verschiedene zeitliche Regime spezialisieren können.

Solche Modelle zielen darauf ab hohe Leistungsfähigkeit mit strukturierten und gut interpretierbaren funktionalen Komponenten zu verbinden.

N-BEATS

N BEATS ist eine tiefe neuronale Architektur die speziell für univariate Prognosen entwickelt wurde und rückwärts sowie vorwärts gerichtete Residualblöcke nutzt. Sie lernt Trend und Saisonalitätskomponenten direkt aus den Daten ohne handgefertigte Merkmale.

Das Modell erzielte Spitzenleistungen in wichtigen Prognosewettbewerben und ist vergleichsweise einfach zu implementieren. N BEATS wird heute breit als starker Deep Learning Basisansatz für viele Zeitreihenaufgaben eingesetzt.

N-HiTS

N HiTS Neural Hierarchical Interpolation for Time Series erweitert N BEATS durch mehrstufige hierarchische Interpolation von Signalen mit unterschiedlichen Auflösungen. Das Modell ist besonders leistungsfähig bei langfristigen Prognosen bei denen verschiedene zeitliche Skalen der Reihe eine wichtige Rolle spielen.

Durch die getrennte Modellierung von nieder und hochfrequenten Komponenten auf verschiedenen Ebenen kann N HiTS sowohl die Gesamtform als auch lokale Details erfassen. In vielen langfristigen Benchmarks übertrifft es frühere Deep Learning Modelle deutlich.

DeepFactor

DeepFactor kombiniert globale neuronale Netze mit lokalen State Space Modellen um sowohl gemeinsame Muster über viele Reihen hinweg als auch das individuelle Verhalten jeder einzelnen Reihe abzubilden. Das globale Netz lernt latente Faktoren während die lokale Komponente die reihenspezifischen Dynamiken erfasst.

Dadurch entstehen flexible probabilistische Prognosen für grosse Sammlungen verwandter Zeitreihen. Besonders nützlich ist der Ansatz in Bereichen wie dem Handel in denen Tausende von Produkten gemeinsame Dynamiken aufweisen.

Intermittierende Zeitreihenmodelle Neuronale Varianten

Intermittierende Zeitreihen sind durch viele Nullen und gelegentliche nicht null Spitzen gekennzeichnet und treten häufig bei Ersatzteilen oder Nachfrage im Long Tail auf. Klassische Modelle wie die Croston Methode und ihre Varianten SBA und TSB schätzen Nachfragemenge und Ankunftsintervalle separat.

Neuronale Varianten erweitern diese Ideen durch rekurrente oder Transformer Architekturen die speziell für spärliche und schubartige Muster ausgelegt sind. Sie zielen darauf ab die Genauigkeit bei Long Tail Artikeln zu erhöhen bei denen Standardmodelle häufig schwächer abschneiden.

Synthefy Migas

Synthefy Migas ist ein leichtgewichtiges Mixture of Experts Prognosemodell das mehrere vortrainierte Time Series Foundation Modelle intelligent kombiniert. Anstatt sich auf ein einziges allgemeines Grundmodell zu stützen lernt Migas die individuellen Stärken und Verzerrungen der verschiedenen Experten und passt sie mit minimalem Fine Tuning an neue Daten an.

Dadurch erreicht das Modell starke Zero Shot Leistung und eine sehr schnelle Anpassung an bereichsspezifische Datensätze. Mit nur rund zehn Millionen Parametern erzielt Migas Spitzenwerte auf Benchmarks wie GIFT Eval und übertrifft durchgehend sowohl seine einzelnen Experten als auch klassische statistische Basisverfahren.

5. Probabilistische und unsicherheitsfokussierte Methoden

Conformal Predictions als eigenständiges Konzept

Conformal Prediction bietet einen allgemeinen Ansatz zur Konstruktion von Prognoseintervallen mit garantierter Abdeckungswahrscheinlichkeit und setzt lediglich Austauschbarkeit der Daten voraus. In Zeitreihen wird das Verfahren häufig auf Punktprognosen aufgesetzt indem aktuelle Residuen ausgewertet werden.

Die Methode kann Intervalle an veränderte Volatilität oder Regimewechsel anpassen. Ihr grösster Vorteil besteht darin dass sie modellagnostisch ist und sich gleichermaßen auf klassische ML oder Deep Learning Modelle anwenden lässt.

Gauß Prozesse Gaussian Process Regression

Gaussian Process Regression modelliert eine Verteilung über Funktionen anstatt feste Parameter und wird durch eine Mittelwertfunktion und einen Kovarianzkern definiert. In der Zeitreihenprognose können Kerne Annahmen wie glatte Trends oder periodische Saisonalität abbilden und das Modell liefert für jeden zukünftigen Zeitpunkt eine gaußsche Vorhersageverteilung.

Dadurch entstehen natürliche und konsistente Unsicherheitsschätzungen die grösser werden wenn Daten spärlich oder verrauscht sind. Gauß Prozesse sind sehr flexibel und gut interpretierbar skalieren jedoch schlecht bei langen Reihen oder grossen Datenmengen und eignen sich daher vor allem für mittelgrosse Aufgaben oder den Einsatz mit sparsamen Approximationen.

Bayessches Deep Learning MC Dropout und Deep Ensembles

Bayessche Deep Learning Ansätze erweitern neuronale Netze so dass sie Unsicherheiten schätzen und nicht nur Punktprognosen liefern. Bei Monte Carlo Dropout bleibt Dropout auch in der Vorhersagephase aktiv und es werden mehrere Vorwärtsdurchläufe ausgeführt wobei die Variation der Ausgaben als Modellunsicherheit interpretiert wird. Deep Ensembles trainieren mehrere unabhängige Netze und nutzen die Streuung ihrer Vorhersagen als Unsicherheitsmass.

Beide Techniken lassen sich mit bestehenden Architekturen einfach umsetzen und verwandeln Standardmodelle der tiefen Zeitreihenprognose in probabilistische Modelle. Ihre Intervalle profitieren jedoch häufig von zusätzlicher Kalibrierung etwa durch Conformal Prediction.

6. Frameworks Bibliotheken und Tools

Darts

Darts ist eine Python Bibliothek die eine einheitliche Schnittstelle für viele Prognosemodelle bietet von ARIMA und ETS bis hin zu N BEATS TFT PatchTST und weiteren Verfahren. Sie vereinfacht Experimente durch konsistente APIs für Training Backtesting und Ensembling.

Anwender können klassische ML und Deep Learning Ansätze schnell auf denselben Daten vergleichen. Darts ist sehr angenehm zu nutzen wenn vollständige End to End Prognose Workflows aufgebaut werden sollen.

GluonTS

GluonTS ist ein Deep Learning Toolkit für probabilistische Zeitreihenmodellierung das ursprünglich auf MXNet aufgebaut wurde und inzwischen auch über eine PyTorch Integration verfügt. Es enthält Referenzimplementierungen von Modellen wie DeepAR DeepState DeepFactor und Transformerbasierten Varianten.

Die Bibliothek legt besonderen Wert auf probabilistische Prognosen und deren Bewertung einschliesslich Vorhersageintervalle und vollständige Verteilungen. GluonTS wird vor allem in Forschung und industriellen Projekten für gross angelegte Prognoseaufgaben eingesetzt.

sktime

sktime ist ein Framework für Zeitreihenanalyse in Python das sich an scikit learn anlehnt. Es unterstützt Prognose Klassifikation und Transformation von Zeitreihen über eine einheitliche API.

Damit lassen sich klassische und ML Modelle vergleichen Pipelines erstellen und Werkzeuge aus scikit learn integrieren. Besonders wertvoll ist sktime für systematische Vergleiche und reproduzierbare Experimente.

neuralforecast

neuralforecast ist eine Bibliothek die sich auf moderne Deep Learning Modelle für Prognosen konzentriert darunter N BEATS N HiTS PatchTST TimesNet TFT und weitere Verfahren. Sie bietet effiziente Implementierungen die für GPUs und grosse Datensätze optimiert sind.

Die Bibliothek fügt sich gut in gängige Python Data Science Umgebungen ein und enthält Hilfsfunktionen für Bewertung und Hyperparameter Abstimmung. Sie eignet sich besonders für Anwender die moderne Deep Learning Modelle nutzen möchten ohne sie selbst neu entwickeln zu müssen.

StatsForecast

StatsForecast ist eine Python Bibliothek die für schnelle und skalierbare klassische Prognoseverfahren wie ARIMA ETS Theta und Croston Varianten optimiert ist. Sie nutzt effizienten kompilierten Code und Parallelisierung um Modelle auf grossen Sammlungen von Reihen zu trainieren und eignet sich daher sehr gut für industrielle Umgebungen mit Tausenden oder Millionen von Zeitreihen.

Die Bibliothek bietet automatische Modellauswahl und Prognoseintervalle und wird häufig genutzt um starke statistische Basislinien oder vollständige produktive Prognosesysteme aufzubauen. Sie integriert sich gut mit modernen Deep Learning Werkzeugen sodass hybride Pipelines aus klassischen und neuronalen Modellen problemlos möglich sind.

PyTorch Forecasting

PyTorch Forecasting ist eine High Level Bibliothek auf Basis von PyTorch Lightning die das Training fortgeschrittener Deep Learning Modelle für Zeitreihen vereinfacht darunter Temporal Fusion Transformer DeepAR und allgemeine Seq2Seq Architekturen. Sie bietet komfortable Datenabstraktionen sowie automatische Verarbeitung von Kovariaten und Zeitindizes und stellt integrierte Werkzeuge für Backtesting und Hyperparameter Abstimmung bereit.

Die Bibliothek enthält zudem Interpretationshilfen etwa zur Visualisierung von Attention Gewichten oder Merkmalswichtigkeiten im TFT. Sie reduziert den technischen Aufwand in Deep Forecasting Projekten deutlich und unterstützt Anwender dabei schnell von Rohdaten zu trainierten Modellen zu gelangen.

Kats

Kats ist ein vielseitiges Toolkit für Zeitreihenanalyse das von Meta veröffentlicht wurde. Es vereint Prognosemodelle Verfahren zur Anomalie und Strukturbrucherkennung Methoden zur Merkmalsextraktion sowie Simulationstools unter einer gemeinsamen Schnittstelle.

Für Prognosen bietet Kats Wrapper für Modelle wie Prophet ARIMA und verschiedene Ensemble Strategien sowie Integrationen mit NeuralProphet. Besonders nützlich ist das Toolkit in explorativen Arbeitsphasen in denen unterschiedliche Ansätze schnell ausprobiert und Prognosen mit Diagnosen wie Strukturbrucherkennung oder merkmalsbasierter Analyse kombiniert werden müssen.

Orbit

Orbit ist ein Python Paket von Uber für bayessche Zeitreihenmodellierung und Prognosen. Der Schwerpunkt liegt auf strukturellen Modellen wie lokalem und globalem Trend Saisonalität und Regressionskomponenten die mit bayesschen Inferenzverfahren wie Stan oder Pyro geschätzt werden.

Orbit bietet einfache Schnittstellen um vollständige posterior prädiktive Verteilungen zu erhalten wodurch glaubwürdige Intervalle und Analysen im Stil von Causal Impact möglich werden. Das Paket eignet sich besonders für Anwendungen bei denen Interpretierbarkeit und eine ehrliche Quantifizierung von Unsicherheit ebenso wichtig sind wie die Genauigkeit der Punktprognosen.

Von klassischen Modellen zu KI Eine Übersicht der Prognose-methoden