Usar Codex dentro de PaellaDoc: ¿qué tal vuestra experiencia?

La misma idea que en los otros hilos sobre motores: Codex escribe el código, PaellaDoc da el visto bueno ejecutando tus criterios de aceptación en lugar de confiar en que el build pase.

¿Alguien está usando Codex de esta manera? ¿Qué tal les funciona en comparación con usarlo directamente?

Comparación completa: PaellaDoc vs Codex: Running and Verifying OpenAI's Coding Agent · PAELLADOC

Codex es uno de los motores que alterno en PaellaDoc. En una tarea difícil, lo derivo a Claude, Codex y un par más, y veo quién la resuelve de verdad, en lugar de casarme con un solo proveedor.

La razón por la que ninguno puede autocertificarse, Codex incluido: en mi benchmark, incluso los modelos de frontera, a esfuerzo máximo, introducían un bug real en la tarea difícil unas dos terceras partes de las veces, y no de la misma manera dos veces, así que no puedes predecirlo. Una compilación que pasa es una señal débil que viene de la misma cosa que escribió el código.

La sorpresa fue que un modelo más barato, con la puerta de criterios delante, igualó a un modelo de frontera ejecutándose en bruto. Ese es precisamente el punto de la puerta para mí: me permite elegir el motor por coste y privacidad, no por fe. ¿Alguien más enruta entre motores así?