Files
obikmer/TODO.md
T
Eric Coissac c5bcb7b8fa feat: introduce layered MPHF indexing and partition metadata
Refactors obikindex and obikpartitionner to delegate index construction to a new layered MPHF implementation. Adds resume-safe building with abundance filtering and count persistence, while introducing a PartitionMeta struct for JSON configuration persistence. Updates OKIError to wrap layer-specific errors, replaces single-path extraction with full path collection and logging, and registers new internal dependencies across the workspace.
2026-05-21 13:31:37 +02:00

2.1 KiB

Chose à vérifier suite à la commande index

  • il faudrait lister les fichier qui vont être indexés
  • partition.meta ne devrait plus exister
  • les spectrums globaux devrait etre identifier par génome
    • regrouper dans un sous-dossier spectrums à la racine de l'index avec un nom basé sur le génome
  • les spectrum patiels ont-ils vocation à être conserver ?
  • l'étape de déreplication dure quasiment autant de temps que le comptage mais ne laisse aucune trace de progression à l'utilisateur

commandes à ajouter

  • merge : pour construire un index à partir d'index existants

    • deux modes : count et presence/absence. count exige que tous les index mergés soient déjà en mode count. mode presence/absence par defaut. Si passage de mode count à mode presence/absence, par defaut presence = count >= 1. Possibilité de spécifier un seuil personnalisé.
  • filter : produit un nouvel index filtré à partir d'un index existant en verifiant que les kmer présents dans le nouvel index respectent les critères de filtrage spécifiés

    • quorum de presence en fraction-(min/max) du nombre de génomes, en nombre-(min/max) de génomes, si mode count la présence peut être défini par un seuil personnalisé minimum et maximum
  • aggregate : aggrege toutes les colonnes d'une matrice d'index en une seule colonne.

  • query : scan un fichier de sequences et retourne pour chaque sequence quels kmer sont présents dans l'index et dans quel genomes

  • distance : calcule la matrice de distance entre les genomes

    • proposer une option pour chaque distance à calculer
    • un possibité de récuperer la matrice des kmer communs
    • un possibité de calculer l'arbre nj
    • les matrices sont sauvegardées en CSV
    • les arbres NJ sont sauvegardés en Newick avec les longeurs de branche
  • dump : une table csv de l'index avec les kmer et les genomes associés en mode count ou presence/absence avec une option pour forcer le mode presence/absence meme si l'index est en mode count. Par defaut, le mode count est utilisé pour les index en mode count et le mode presence/absence pour les index en mode presence/absence.

  • status : affiche le statut de l'index