Claude Code es uno de los agentes que PaellaDoc ejecuta por tarea. Lo que no dejo de repetirme: «se compiló» no es lo mismo que «es correcto», así que dejo que un control independiente evalúe los criterios en lugar de confiar en que el compilado en verde basta.
¿Cómo estás integrando Claude Code? ¿Con tu propia suscripción, un repositorio o varios? ¿Se rompió algo?
Comparación completa: PaellaDoc vs Claude Code: Running and Verifying the Agent · PAELLADOC
Claude Code es mi motor más usado dentro de PaellaDoc, así que esto no es una crítica. Escribe código tan bien como cualquiera de los que tengo.
La razón por la que existe PaellaDoc es el momento justo después. El agente escribe el código y también ejecuta su propia comprobación, y «se ha compilado» pasa silenciosamente a ser «está hecho». Medí con qué frecuencia eso era mentira: en 210 ejecuciones, el resultado que superó la compilación era realmente incorrecto alrededor del 40% de las veces, e incluso el modelo de frontera más potente, al máximo esfuerzo, metía un error real en una tarea difícil dos de cada tres veces, de forma distinta en cada ejecución.
No quería ser la única barrera entre eso y el despliegue. Así que la puerta de control ejecuta criterios que el agente no escribió y no puede editar. Claude Code hace el trabajo; la puerta decide si de verdad está hecho. ¿Cómo estáis detectando vosotros los que salen en verde pero están rotos?