Capa de Memoria para Agentes
Mem0, Zep, Cognee y los patrones para que los agentes recuerden entre sesiones — sin meter todo en el prompt.
Qué incluye este pack
Este pack reúne los siete recursos de capa de memoria que aparecen en cada agente que necesita recordar cosas entre sesiones sin volver a pegarlas en el prompt cada vez. Tres son las librerías canónicas. Cuatro son plantillas de patrones que las envuelven — patrones que Anthropic y OpenAI sacan en sus guías de agentes long-running.
| # | Recurso | Tipo | Qué te da |
|---|---|---|---|
| 1 | Mem0 | librería | Auto-extracción y update de hechos del usuario, API drop-in |
| 2 | Zep | servicio | Grafo de conocimiento temporal, memoria a largo plazo |
| 3 | Cognee | librería | Pipeline híbrido grafo + vector |
| 4 | Patrón resumen episódico | plantilla | Comprime sesiones largas en memorias resumen |
| 5 | Bloc de notas working-memory | plantilla | Estado inter-paso sin inflar el prompt |
| 6 | Extractor de hechos de usuario | plantilla | Saca hechos estables del chat al store |
| 7 | Recall cross-sesión | plantilla | "¿Qué decidimos la semana pasada?" |
Por qué importa
La configuración default de Claude / GPT-4 / Gemini tiene cero memoria. Cada conversación arranca de cero. La mayoría de apps fingen memoria metiendo turnos previos en el system prompt — funciona un rato, luego tu context window explota, tu factura se triplica y el modelo pierde el hilo. Las capas de memoria resuelven esto guardando hechos fuera del prompt e inyectando solo los relevantes por turno.
Las tres librerías hacen apuestas distintas:
- Mem0 es la más fácil. Una llamada
mem0.add(messages, user_id=...)y la librería extrae lo que vale la pena recordar. Mejor para apps tipo chatbot con identidad clara. - Zep es la opción de producción. Corre como servicio, te da grafo de conocimiento temporal (memorias con timestamps y relaciones), soporta multi-tenant. Mejor cuando necesitas audit trails o memoria compartida en una organización.
- Cognee es la apuesta graph-native. Modela memoria como grafo de conocimiento desde día uno — útil si tu dominio es research, código, o cualquier cosa con relaciones de entidad fuertes.
Los cuatro patrones no son librerías — son plantillas de prompt y adaptadores pequeños que funcionan con cualquiera de las tres. Son la diferencia entre "instalé Mem0" y "la memoria de verdad funciona en mi app".
Instala en un comando
# Instala el pack completo
tokrepo install pack/agent-memory-layer
# O instala una librería a la vez
tokrepo install mem0
tokrepo install zep
tokrepo install cognee
TokRepo CLI normaliza la colocación de archivos: subagentes Claude Code en .claude/agents/, reglas Cursor en .cursor/rules/, AGENTS.md para Codex CLI. La instalación de librería es pip/npm — TokRepo solo las cablea en la config de tu herramienta IA para que el agente sepa que la capa de memoria existe.
Errores comunes
- No guardes todo. El coste de memoria escala con lo que escribes, no con lo que recuperas. Usa un extractor de hechos (patrón #6) para filtrar — solo hechos durables sobre el usuario/proyecto van a memoria a largo plazo.
- No te saltes el sesgo de recencia. El recall vectorial puro trae memorias semánticamente similares pero rancias. El grafo temporal de Zep y la actualización in-place de Mem0 lo arreglan; si lo haces tú, pondera por recencia o seguirás recuperando contexto de hace 6 meses.
- No compartas user IDs entre tenants. Las tres librerías soportan namespaces por usuario. Úsalos. La fuga de memoria entre usuarios es un incidente mucho peor que no tener memoria.
- Presupuesta tokens del recall. Incluso con capa de memoria, puedes reventar el context window con
top_k=50. Empieza entop_k=5y sube solo si falta recall. - Reconcilia conflictos. Si el usuario dice "soy vegetariano" en marzo y "soy vegano" en mayo, necesitas estrategia de update. Mem0 lo hace solo; Zep te da la superficie de conflicto; Cognee te lo deja a ti.
Conceptos erróneos comunes
"RAG y memoria son lo mismo." No. RAG recupera de un corpus estático (docs, codebase). Memoria escribe nuevas entradas según lo que dijo el usuario/agente y las recupera después. RAG es solo lectura; memoria es lectura-escritura. Los patrones del pack rag-pipelines son distintos a este a propósito.
"Puedo usar el historial de conversación sin más." Para una sesión de 5 turnos, claro. Para una app donde el mismo usuario vuelve la próxima semana, no — tendrías que meter todos los turnos previos en el prompt para siempre. La memoria extrae los hechos y descarta el chat.
"Mem0 vs Zep es decisión difícil." La mayoría empieza con Mem0 porque son 5 minutos de setup, luego gradúa a Zep cuando necesita multi-tenant o audit. Los dos son lo bastante parecidos como para que migrar sea un fin de semana, no un trimestre.
7 recursos listos para instalar
Preguntas frecuentes
¿Mem0 es gratis?
La librería OSS Mem0 es MIT y gratis para auto-host. También tienen un cloud gestionado con pricing por uso si no quieres correr el embedding/vector store tú. Zep tiene el mismo modelo OSS + cloud. Cognee es totalmente OSS sin opción gestionada a mediados 2026 — lo corres tú.
¿Funcionará en Cursor / Codex CLI / Windsurf?
Las librerías son a nivel lenguaje (Python / Node), así que funcionan con cualquier framework agente, no solo Claude Code. El TokRepo CLI instala los archivos de config correctos por herramienta. Usuarios de Codex CLI deberían emparejar la capa de memoria con instrucciones AGENTS.md; usuarios de Cursor lo embeben en el set de reglas.
¿Cómo se compara Mem0 con Zep?
Mem0 es library-first — importas y llamas .add()/.search() inline. Zep es service-first — corres un server (Docker), él posee el grafo, tu app llama la API. Mem0 gana en tiempo-a-primera-memoria; Zep gana en multi-tenant, audit y modelado de relaciones explícito. Mem0 para prototipos, Zep cuando tengas soporte ops.
¿Cuál es la diferencia con el pack RAG Pipelines?
RAG recupera de un corpus fijo (tus docs, tu codebase). Memoria escribe nuevos hechos mientras el agente corre y los recupera después. RAG es solo lectura; memoria es lectura-escritura y acumula. La mayoría de agentes en producción necesitan ambos: RAG para conocimiento estático, memoria para lo específico del usuario.
¿Cuándo NO debería añadir capa de memoria?
Cuando las sesiones son stateless y cortas — tareas one-shot como 'resume este PDF' no se benefician y la capa añade latencia. También salta para lookup puramente factual (usa RAG). Las capas de memoria valen su coste cuando el mismo usuario vuelve, el agente es multi-paso, o ambos.
12 packs · 80+ recursos seleccionados
Explora todos los packs curados en la página principal
Volver a todos los packs