obikmer/TODO.md at 9e1d6f2f25615428e1f8af50ae848609516eda62

Files

T

Eric Coissac 9e1d6f2f25 feat: implement partition-based merge command for k-mer indices

Implements a new `merge` command that aggregates k-mer counts and presence/absence matrices from multiple source indices using a parallelized, partition-based algorithm. Adds CLI progress bars and execution timing across the bootstrap, spectrum rebuild, and merge phases. Updates logging to report the aggregate genome count and introduces a bounds check in the perfect hash layer to safely return `None` for unknown k-mers, preventing out-of-bounds access in downstream operations.

2026-05-21 14:55:38 +02:00

1.8 KiB

Raw Blame History

Chose à vérifier suite à la commande index

il faudrait lister les fichier qui vont être indexés
partition.meta ne devrait plus exister
les spectrums globaux devrait etre identifier par génome
- regrouper dans un sous-dossier spectrums à la racine de l'index avec un nom basé sur le génome
les spectrum patiels ont-ils vocation à être conserver ?
l'étape de déreplication dure quasiment autant de temps que le comptage mais ne laisse aucune trace de progression à l'utilisateur

commandes à ajouter

filter : produit un nouvel index filtré à partir d'un index existant en verifiant que les kmer présents dans le nouvel index respectent les critères de filtrage spécifiés
- quorum de presence en fraction-(min/max) du nombre de génomes, en nombre-(min/max) de génomes, si mode count la présence peut être défini par un seuil personnalisé minimum et maximum
aggregate : aggrege toutes les colonnes d'une matrice d'index en une seule colonne.
query : scan un fichier de sequences et retourne pour chaque sequence quels kmer sont présents dans l'index et dans quel genomes
distance : calcule la matrice de distance entre les genomes
- proposer une option pour chaque distance à calculer
- un possibité de récuperer la matrice des kmer communs
- un possibité de calculer l'arbre nj
- les matrices sont sauvegardées en CSV
- les arbres NJ sont sauvegardés en Newick avec les longeurs de branche
dump : une table csv de l'index avec les kmer et les genomes associés en mode count ou presence/absence avec une option pour forcer le mode presence/absence meme si l'index est en mode count. Par defaut, le mode count est utilisé pour les index en mode count et le mode presence/absence pour les index en mode presence/absence.
status : affiche le statut de l'index

1.8 KiB Raw Blame History

Chose à vérifier suite à la commande index

commandes à ajouter

1.8 KiB

Raw Blame History