Risk Management / 9 min read
Backtesting de estrategia cripto sin engañarse
Qué mide realmente el backtesting, trampas del overfitting, in-sample vs out-of-sample y por qué la expectativa y el drawdown máximo importan más que el win rate.
Hacer un backtest de una estrategia de trading de criptomonedas parece una ciencia. Se alimenta un sistema con datos históricos de precios, se observa cómo la curva de capital asciende y uno se convence de haber encontrado una ventaja. La mayoría de las veces, no se ha encontrado nada, salvo una curva que se ajusta al pasado. Esta distinción —entre descubrir una ventaja real y fabricar un backtest favorable— es una de las separaciones más importantes en el trading sistemático, y las criptomonedas hacen que equivocarse en esto sea especialmente peligroso.
Comencemos por entender qué es realmente un backtest. Se aplica un conjunto fijo de reglas a datos históricos y se mide qué habría ocurrido si se hubieran operado esas reglas durante ese período. Revela una sola cosa: cómo se comportaron esas reglas en ese conjunto de datos específico, bajo las condiciones que existían durante esa ventana temporal. No dice nada sobre lo que ocurrirá después. Parece obvio, pero los traders confunden sistemáticamente un backtest con buen rendimiento con evidencia de rentabilidad futura. La brecha entre ambas cosas es donde la mayoría de las estrategias de trading sistemático van a morir.
La distinción entre datos dentro de la muestra y fuera de la muestra es donde la disciplina se manifiesta por primera vez en el proceso. Los datos dentro de la muestra son la ventana histórica que se utiliza para desarrollar y optimizar las reglas. Los datos fuera de la muestra son los que se mantienen completamente separados y se utilizan solo una vez, tras finalizar el desarrollo, como prueba final de si las reglas funcionan más allá del período en que fueron diseñadas. El error típico es optimizar con todos los datos disponibles y llamar al resultado un backtest. Lo que realmente se ha hecho es encontrar el conjunto de parámetros que mejor describía el pasado: un motor de descripción, no de predicción. Un proceso riguroso emplea los datos dentro de la muestra para la construcción, reserva entre el 30 y el 40 por ciento de los datos históricos de forma aislada, y los utiliza como prueba solo después de que todas las decisiones sobre parámetros están congeladas. Si el rendimiento fuera de la muestra se deteriora drásticamente respecto al rendimiento dentro de la muestra, hay sobreajuste.
El sobreajuste, o ajuste de curva, es la patología central del desarrollo de estrategias sistemáticas. Ocurre cuando se añaden suficientes grados de libertad al modelo —suficientes parámetros, suficientes condiciones, suficientes filtros— hasta que la estrategia básicamente memoriza los datos de entrenamiento en lugar de aprender un comportamiento estructural del mercado. Una estrategia con doce parámetros optimizada sobre siete años de datos horarios de Bitcoin casi con certeza está sobreajustada, aunque el backtest parezca excelente. La prueba del sobreajuste no es la curva de capital. Es si la lógica de la estrategia corresponde a una dinámica de mercado identificable y repetible que tenga razones para persistir. Si no se puede explicar en una sola frase por qué compradores y vendedores deberían comportarse así de forma consistente, la ventaja probablemente es un artefacto estadístico del proceso de optimización.
Los requisitos de tamaño muestral están subestimados en el ámbito de las criptomonedas, en parte porque los traders consideran que años de datos son inherentemente suficientes. No lo son si la estrategia opera con poca frecuencia. Una estrategia que genera 30 operaciones por año durante tres años produce 90 operaciones en el backtest. La significancia estadística para la detección de ventajas requiere típicamente un mínimo de 200 a 400 operaciones, según la variabilidad de los resultados. Con 90 operaciones, una simulación Monte Carlo de la misma distribución de rendimientos generará curvas de capital que van desde catastróficas hasta excepcionales, todas consistentes con la misma expectativa subyacente. La tasa de aciertos y el R promedio que se observan en 90 operaciones dicen casi nada confiable. La frecuencia de operaciones multiplicada por el horizonte temporal determina si la muestra es significativa, no el tiempo por sí solo.
El sesgo de anticipación en las criptomonedas merece atención específica porque es más fácil introducirlo accidentalmente que en los mercados de renta variable. En los marcos de backtesting tradicionales, el sesgo de anticipación típicamente significa utilizar un precio futuro o un valor futuro de un indicador para generar una señal. En las criptomonedas, aparece en formas más sutiles. Utilizar precios de cierre diarios para simular entradas intradía supone que se conocía el cierre antes de que ocurriera. Utilizar datos del libro de órdenes que fueron agregados a posteriori introduce información que no estaba disponible en tiempo real. Muchos proveedores de datos de criptomonedas reconstruyen velas OHLCV a partir de datos de operaciones, y la metodología para manejar períodos con escasa liquidez o interrupciones de plataformas introduce inconsistencias que pueden distorsionar los resultados de forma sistemática. Se debe asumir que los datos tienen problemas hasta haber verificado cuidadosamente la metodología de la fuente.
Las criptomonedas presentan desafíos estructurales que hacen que el backtesting sea materialmente más difícil que en renta variable. La liquidez en la mayoría de las altcoins es tan reducida que las ejecuciones simuladas no habrían sido alcanzables a los tamaños que se están probando. Una estrategia que ejecuta 0,5 BTC por operación en Binance en 2024 puede estar siendo probada correctamente. La misma estrategia probada en una altcoin de capitalización media con un tamaño equivalente en dólares está simulando ejecuciones que habrían movido el mercado en su contra de forma significativa. Las interrupciones de plataformas, particularmente en las de futuros durante períodos de alta volatilidad, crean brechas en la ejecución que ningún backtest puede replicar. Los regímenes de tasas de financiación en los perpetuos cambian drásticamente a lo largo de los ciclos de mercado, y una estrategia que ignora los costos de financiación puede parecer rentable mientras pierde dinero en operaciones en vivo. El modelado de comisiones debe ser granular —maker frente a taker, estructuras escalonadas y el slippage realizado más allá de la comisión cotizada— o el backtest será optimista por definición.
El forward testing es el puente entre la validación histórica y el despliegue de capital real. Después de que una estrategia supera la optimización dentro de la muestra y la prueba fuera de la muestra, se opera en condiciones de mercado reales con un tamaño mínimo —o en modo simulado, aunque la ejecución real enseña más— y se verifica si el rendimiento en vivo coincide con la distribución estadística predicha por el backtest. La pregunta clave no es si la estrategia genera ganancias durante la ventana del forward test. Es si las características operación por operación —ganancia promedio, pérdida promedio, varianza en los resultados— son consistentes con lo que predijo el backtest. Una divergencia significativa significa que el backtest tenía defectos o que las condiciones de mercado han cambiado de una manera que invalida la ventaja.
Las métricas que importan no son las que la mayoría de los traders reportan. La tasa de aciertos carece de sentido casi por completo sin el ratio de beneficio asociado. Una tasa de aciertos del 35 por ciento con un ganador promedio de 3R es una mejor ventaja que una tasa de aciertos del 65 por ciento con un ganador promedio de 0,8R. La expectativa —el importe promedio ganado por unidad arriesgada, calculado como (tasa de aciertos multiplicada por la ganancia promedio) menos (tasa de fallos multiplicada por la pérdida promedio)— es el número más importante. Un ratio de Sharpe superior a 1,0 indica que los rendimientos son adecuados en relación con la volatilidad. El drawdown máximo y el factor de recuperación —beneficio neto dividido entre el drawdown máximo— revelan si la estrategia sobrevive a las inevitables rachas de pérdidas. Una estrategia con alta expectativa pero un factor de recuperación inferior a 2,0 requiere una disciplina en la gestión del capital que la mayoría de los traders no podrá sostener en la práctica.
El marco de acción es este: construir únicamente con datos dentro de la muestra, congelar todos los parámetros, ejecutar una sola vez con los datos fuera de la muestra, exigir al menos 300 operaciones en la muestra combinada, verificar la metodología de la fuente de datos, modelar comisiones y slippage de forma conservadora, y no iniciar el forward testing hasta que el resultado fuera de la muestra sea aceptable. Si en la primera ejecución no es aceptable, la respuesta correcta no es reoptimizar hasta que pase. Esa reoptimización colapsa por completo la distinción entre dentro y fuera de la muestra. Medir primero, y luego decidir si la ventaja es real.
Contexto de investigación
Cómo usar Backtesting de estrategia cripto sin engañarse
Este material se relaciona con backtest crypto strategy, crypto backtesting, overfitting trading, trading strategy testing. En el marco BlackHole, primero se lee el contexto, después se espera confirmación y solo entonces se evalúa si la calidad de ejecución es suficiente.
Contexto
Empieza por el régimen de mercado, la ubicación de la liquidez y la estructura cercana.
Confirmación
Distingue el interés temprano de la evidencia que realmente apoya el escenario.
Ejecución
Convierte la idea en riesgo, timing y un proceso de decisión claro.
Flujo BH Terminal
Convierte la investigación en un proceso de decisión estructurado.
Usa las herramientas públicas para definir el riesgo antes de entrar, o solicita acceso anticipado al ecosistema privado BlackHole.
Análisis relacionados