Skip to content

[FEAT] Añadir Semantic Chunker para ingestión masiva de datos #809

Description

@github-actions

Descripción

Actualmente PhotonicDhtAdapter intenta procesar todo el bloque de texto entregado en un solo vector. Para soportar indexación masiva (como repositorios completos o bases de datos como CVE.org), necesitamos un motor de fragmentación (Chunking Engine).

Tareas

  • Crear un módulo SemanticChunker en synapse-infra o synapse-core.
  • Implementar lógica para recibir un stream grande y dividirlo en segmentos procesables y semánticos (ej. cada X líneas, o por saltos estructurales de código/JSON).
  • Conectar el Chunker con el PhotonicDhtAdapter: cada fragmento debe ser vectorizado de forma independiente y emitido a la DHT con un ID secuencial o referencial.
  • Asegurarse de que el uso de memoria sea eficiente bajo cargas pesadas.

Metadata

Metadata

Assignees

No one assigned

    Labels

    enhancementNew feature or requestjulesAssigned to Google Jules

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions