Risk Management / 9 min read
Krypto-Handelsstrategie backtesten: Selbstbetrug vermeiden
Was Backtesting wirklich misst, Overfitting-Fallen, In-Sample vs. Out-of-Sample und warum Expectancy und Max Drawdown wichtiger sind als die Win-Rate.
Das Backtesting einer Krypto-Handelsstrategie fühlt sich wie Wissenschaft an. Man speist historische Kursdaten in ein System ein, beobachtet, wie die Equity-Kurve ansteigt, und überredet sich selbst, eine echte Edge gefunden zu haben. In den meisten Fällen hat man nichts weiter gefunden als eine Kurve, die die Vergangenheit gut abbildet. Diese Unterscheidung — zwischen dem Aufdecken einer echten Edge und dem Konstruieren eines schmeichelhaften Backtests — ist eine der wichtigsten Trennlinien im systematischen Handel, und Krypto macht es ungewöhnlich gefährlich, hier einen Fehler zu begehen.
Beginnen wir damit, was ein Backtest eigentlich ist. Man wendet einen festen Regelkatalog auf historische Daten an und misst, was passiert wäre, hätte man diese Regeln im betreffenden Zeitraum gehandelt. Ein Backtest sagt genau eine Sache aus: wie sich diese Regeln auf diesem spezifischen Datensatz unter den Bedingungen verhalten haben, die in diesem Zeitfenster herrschten. Er sagt nichts darüber aus, was als Nächstes geschehen wird. Das klingt offensichtlich, doch Trader verwechseln einen gut abschneidenden Backtest regelmäßig mit einem Beleg für künftige Profitabilität. Die Lücke zwischen diesen beiden Dingen ist der Ort, an dem die meisten systematischen Handelsstrategien scheitern.
Die Unterscheidung zwischen In-Sample und Out-of-Sample ist der Punkt, an dem Disziplin im Prozess erstmals sichtbar wird. In-Sample-Daten sind das historische Zeitfenster, das zur Entwicklung und Optimierung der Regeln genutzt wird. Out-of-Sample sind Daten, die vollständig getrennt gehalten und erst einmal angefasst werden — nach Abschluss der Entwicklung, als abschließender Test, ob die Regeln über den Zeitraum hinaus generalisieren, auf den sie zugeschnitten wurden. Der typische Fehler besteht darin, alle verfügbaren Daten zu optimieren und das Ergebnis als Backtest zu bezeichnen. Was man tatsächlich getan hat: den Parametersatz gefunden, der die Vergangenheit am besten beschreibt — eine Beschreibungsmaschine, keine Prognosemaschine. Ein sauberer Prozess nutzt In-Sample-Daten für den Aufbau, sperrt 30 bis 40 Prozent der historischen Daten weg und testet auf diesem reservierten Fenster erst, nachdem alle Parameterentscheidungen eingefroren sind. Wenn die Out-of-Sample-Performance gegenüber der In-Sample-Performance drastisch einbricht, liegt Overfitting vor.
Overfitting, oder Curve-Fitting, ist die zentrale Pathologie der systematischen Strategieentwicklung. Es entsteht, wenn man dem Modell genug Freiheitsgrade einräumt — genug Parameter, genug Bedingungen, genug Filter —, sodass die Strategie im Wesentlichen die Trainingsdaten auswendig lernt, anstatt ein strukturelles Marktverhalten zu erkennen. Eine Strategie mit zwölf Parametern, die über sieben Jahre stündlicher Bitcoin-Daten optimiert wurde, ist mit hoher Wahrscheinlichkeit überangepasst, selbst wenn der Backtest hervorragend aussieht. Der Test für Overfitting ist nicht die Equity-Kurve. Es ist die Frage, ob die Logik der Strategie einer identifizierbaren, wiederholbaren Marktdynamik entspricht, für die es einen Grund gibt, fortzubestehen. Lässt sich nicht in einem Satz erklären, warum sich Käufer und Verkäufer auf diese Weise konsistent verhalten sollten, ist die Edge wahrscheinlich ein statistisches Artefakt des Optimierungsprozesses.
Anforderungen an den Stichprobenumfang werden im Krypto-Bereich unterschätzt, teils weil Trader mehrjährige Datenreihen als grundsätzlich ausreichend betrachten. Das sind sie nicht, wenn die Strategie selten handelt. Eine Strategie, die 30 Trades pro Jahr über drei Jahre generiert, liefert 90 Trades im Backtest. Statistische Signifikanz für die Erkennung einer Edge erfordert typischerweise mindestens 200 bis 400 Trades, abhängig von der Variabilität der Ergebnisse. Bei 90 Trades erzeugt eine Monte-Carlo-Simulation derselben Renditeverteilung Equity-Kurven, die von katastrophal bis außergewöhnlich reichen — allesamt konsistent mit demselben zugrunde liegenden Erwartungswert. Die Trefferquote und das durchschnittliche R aus 90 Trades sagen nahezu nichts Verlässliches aus. Handelsfrequenz multipliziert mit dem Betrachtungshorizont bestimmt, ob der Stichprobenumfang aussagekräftig ist — nicht die Zeit allein.
Look-Ahead-Bias verdient im Krypto-Kontext besondere Aufmerksamkeit, da er sich leichter versehentlich einschleicht als bei Aktien. In klassischen Backtesting-Frameworks bedeutet Look-Ahead-Bias typischerweise die Verwendung eines zukünftigen Kurses oder eines zukünftigen Indikatorwerts zur Signalerzeugung. Im Krypto-Bereich tritt er in subtileren Formen auf. Die Verwendung von Tagesschlusskursen zur Simulation von Intraday-Einstiegen setzt voraus, dass man den Schlusskurs kannte, bevor er eingetreten ist. Die Verwendung von Orderbuchdaten, die nachträglich aggregiert wurden, führt Zustände ein, die in Echtzeit nicht verfügbar waren. Viele Krypto-Datenanbieter rekonstruieren OHLCV-Kerzen aus Handelsdaten, und die Methodik zur Behandlung dünn gehandelter Perioden oder Börsenausfälle führt zu Inkonsistenzen, die Ergebnisse systematisch verzerren können. Gehen Sie davon aus, dass Ihre Daten Probleme aufweisen, bis Sie die Quellmethodik sorgfältig überprüft haben.
Krypto stellt strukturelle Herausforderungen dar, die das Backtesting wesentlich schwieriger machen als bei Aktien. Die Liquidität bei den meisten Altcoins ist dünn genug, dass die simulierten Ausführungen bei den getesteten Positionsgrößen in der Realität nicht erzielbar gewesen wären. Eine Strategie, die 2024 auf Binance 0,5 BTC pro Trade ausführt, mag problemlos testbar sein. Dieselbe Strategie, die auf einem Mid-Cap-Altcoin mit äquivalentem Dollarvolumen getestet wird, simuliert Ausführungen, die den Markt erheblich gegen die eigene Position bewegt hätten. Börsenausfälle — insbesondere auf Futures-Plattformen in hochvolatilen Phasen — erzeugen Ausführungslücken, die kein Backtest replizieren kann. Funding-Rate-Regime bei Perpetuals verschieben sich über Marktzyklen hinweg erheblich, und eine Strategie, die Finanzierungskosten ignoriert, kann im Backtest profitabel erscheinen, während sie im Live-Handel Verluste erzeugt. Die Gebührenmodellierung muss granular sein — Maker versus Taker, Staffelstrukturen und der tatsächlich realisierte Slippage jenseits der ausgewiesenen Gebühr —, andernfalls ist der Backtest per Definition zu optimistisch.
Forward-Testing ist die Brücke zwischen historischer Validierung und dem Einsatz von Kapital im Live-Handel. Nachdem eine Strategie die In-Sample-Optimierung und das Out-of-Sample-Testing bestanden hat, handelt man sie unter realen Marktbedingungen mit minimaler Positionsgröße — oder in Papierform, wenngleich echte Ausführung mehr lehrt — und verfolgt, ob die Live-Performance der statistischen Verteilung entspricht, die der Backtest prognostiziert hat. Die entscheidende Frage ist nicht, ob die Strategie während des Forward-Test-Fensters Gewinne erzielt. Es ist die Frage, ob die Trade-für-Trade-Merkmale — durchschnittlicher Gewinn, durchschnittlicher Verlust, Varianz der Ergebnisse — konsistent mit dem sind, was der Backtest vorhergesagt hat. Signifikante Abweichungen bedeuten entweder, dass der Backtest fehlerhaft war, oder dass sich die Marktbedingungen so verändert haben, dass die Edge ihre Gültigkeit verloren hat.
Die relevanten Kennzahlen sind nicht jene, über die die meisten Trader berichten. Die Trefferquote ist nahezu bedeutungslos ohne das dazugehörige Auszahlungsverhältnis. Eine Trefferquote von 35 Prozent mit einem durchschnittlichen Gewinner von 3R ist eine bessere Edge als eine Trefferquote von 65 Prozent mit einem durchschnittlichen Gewinner von 0,8R. Der Erwartungswert — der durchschnittlich verdiente Betrag pro riskierter Einheit, berechnet als (Trefferquote multipliziert mit dem durchschnittlichen Gewinn) minus (Verlustquote multipliziert mit dem durchschnittlichen Verlust) — ist die wichtigste Kennzahl überhaupt. Eine Sharpe Ratio über 1,0 zeigt an, dass die Renditen gemessen an der Volatilität angemessen sind. Maximaler Drawdown und Recovery Factor — Nettogewinn dividiert durch maximalen Drawdown — zeigen, ob die Strategie die unvermeidlichen Verlustserienn übersteht. Eine Strategie mit hohem Erwartungswert, aber einem Recovery Factor unter 2,0 erfordert ein Kapitalmanagement-Niveau, das die meisten Trader in der Praxis nicht aufrechterhalten werden.
Das handlungsorientierte Vorgehen ist folgendes: Entwicklung ausschließlich auf In-Sample-Daten, Einfrieren aller Parameter, einmaliger Lauf auf Out-of-Sample-Daten, Anforderung von mindestens 300 Trades im kombinierten Sample, Überprüfung der Methodik der Datenquelle, konservative Modellierung von Gebühren und Slippage — und kein Forward-Testing, bevor das Out-of-Sample-Ergebnis akzeptabel ist. Ist es beim ersten Durchlauf nicht akzeptabel, ist die richtige Reaktion nicht, so lange neu zu optimieren, bis es besteht. Diese Neuoptimierung hebt die Unterscheidung zwischen In-Sample und Out-of-Sample vollständig auf. Erst messen — dann entscheiden, ob die Edge real ist.
Research-Kontext
So nutzt du Krypto-Handelsstrategie backtesten: Selbstbetrug vermeiden
Dieses Material verbindet sich mit backtest crypto strategy, crypto backtesting, overfitting trading, trading strategy testing. Im BlackHole-Framework steht zuerst der Kontext, danach die Bestätigung und erst dann die Frage, ob die Ausführungsqualität stark genug ist.
Kontext
Beginne mit Marktregime, Liquiditätslage und der umgebenden Struktur.
Bestätigung
Trenne frühes Interesse von Evidenz, die das Szenario wirklich stützt.
Ausführung
Übersetze die Idee in Risiko, Timing und einen klaren Entscheidungsprozess.
BH Terminal Workflow
Verwandle Research in einen strukturierten Entscheidungsprozess.
Nutze die öffentlichen Tools, um Risiko vor dem Einstieg zu definieren, oder beantrage Early Access zum privaten BlackHole-Ökosystem.
Verwandte Analysen