Add SuperKmer extraction functionality

This commit introduces the ExtractSuperKmers function which identifies maximal subsequences where all consecutive k-mers share the same minimizer. It includes: - SuperKmer struct to represent the maximal subsequences - dequeItem struct for tracking minimizers in a sliding window - Efficient algorithm using monotone deque for O(1) amortized minimizer tracking - Comprehensive parameter validation - Support for buffer reuse for performance optimization - Extensive test cases covering basic functionality, edge cases, and performance benchmarks The implementation uses simultaneous forward/reverse m-mer encoding for O(1) canonical m-mer computation and maintains a monotone deque to track minimizers efficiently.
2026-05-09 15:40:40 +00:00 · 2026-02-04 16:03:51 +01:00
parent 500144051a
commit 05de9ca58e
2 changed files with 469 additions and 0 deletions
@@ -54,6 +54,162 @@ func EncodeKmers(seq []byte, k int, buffer *[]uint64) []uint64 {
 	return result
 }
 // SuperKmer represents a maximal subsequence where all consecutive k-mers
 // share the same minimizer. A minimizer is the smallest canonical m-mer
 // among the (k-m+1) m-mers contained in a k-mer.
 type SuperKmer struct {
 	Minimizer uint64 // The canonical minimizer value (normalized m-mer)
 	Start     int    // Starting position in the original sequence (0-indexed)
 	End       int    // Ending position (exclusive, like Go slice notation)
 	Sequence  []byte // The actual DNA subsequence [Start:End]
 }
 // dequeItem represents an element in the monotone deque used for
 // tracking minimizers in a sliding window.
 type dequeItem struct {
 	position  int    // Position of the m-mer in the sequence
 	canonical uint64 // Canonical (normalized) m-mer value
 }
 // ExtractSuperKmers extracts super k-mers from a DNA sequence.
 // A super k-mer is a maximal subsequence where all consecutive k-mers
 // share the same minimizer. The minimizer of a k-mer is the smallest
 // canonical m-mer among its (k-m+1) constituent m-mers.
 //
 // The algorithm uses:
 // - Simultaneous forward/reverse m-mer encoding for O(1) canonical m-mer computation
 // - Monotone deque for O(1) amortized minimizer tracking per position
 //
 // Parameters:
 //   - seq: DNA sequence as a byte slice (case insensitive, supports A, C, G, T, U)
 //   - k: k-mer size (must be between m+1 and 32)
 //   - m: minimizer size (must be between 1 and k-1)
 //   - buffer: optional pre-allocated buffer for results. If nil, a new slice is created.
 //
 // Returns:
 //   - slice of SuperKmer structs representing maximal subsequences
 //   - nil if parameters are invalid or sequence is too short
 //
 // Time complexity: O(n) where n is the sequence length
 // Space complexity: O(k-m+1) for the deque + O(number of super k-mers) for results
 func ExtractSuperKmers(seq []byte, k int, m int, buffer *[]SuperKmer) []SuperKmer {
 	// Validate parameters
 	if m < 1 || m >= k || k < 2 || k > 32 || len(seq) < k {
 		return nil
 	}
 	// Initialize result buffer
 	var result []SuperKmer
 	if buffer == nil {
 		// Estimate: worst case is one super k-mer per k nucleotides
 		estimatedSize := len(seq) / k
 		if estimatedSize < 1 {
 			estimatedSize = 1
 		}
 		result = make([]SuperKmer, 0, estimatedSize)
 	} else {
 		result = (*buffer)[:0]
 	}
 	// Initialize monotone deque for tracking minimizers
 	deque := make([]dequeItem, 0, k-m+1)
 	// Masks for m-mer encoding
 	mMask := uint64(1)<<(m*2) - 1
 	rcShift := uint((m - 1) * 2)
 	// Build first m-1 nucleotides (can't form complete m-mer yet)
 	var fwdMmer, rvcMmer uint64
 	for i := 0; i < m-1 && i < len(seq); i++ {
 		code := uint64(__single_base_code__[seq[i]&31])
 		fwdMmer = (fwdMmer << 2) | code
 		rvcMmer = (rvcMmer >> 2) | ((code ^ 3) << rcShift)
 	}
 	// Track super k-mer boundaries
 	superKmerStart := 0
 	var currentMinimizer uint64
 	firstKmer := true
 	// Slide through sequence, processing each position that completes an m-mer
 	for pos := m - 1; pos < len(seq); pos++ {
 		// Add new nucleotide to m-mer
 		code := uint64(__single_base_code__[seq[pos]&31])
 		fwdMmer = ((fwdMmer << 2) | code) & mMask
 		rvcMmer = (rvcMmer >> 2) | ((code ^ 3) << rcShift)
 		// Get canonical m-mer (minimum of forward and reverse complement)
 		canonical := fwdMmer
 		if rvcMmer < fwdMmer {
 			canonical = rvcMmer
 		}
 		mmerPos := pos - m + 1
 		// Remove m-mers outside the current k-mer window from front of deque
 		// The k-mer at position pos spans from (pos-k+1) to pos
 		// It contains m-mers from position (pos-k+1) to (pos-m+1)
 		if pos >= k-1 {
 			windowStart := pos - k + 1
 			for len(deque) > 0 && deque[0].position < windowStart {
 				deque = deque[1:]
 			}
 		}
 		// Maintain monotone property: remove larger values from back
 		for len(deque) > 0 && deque[len(deque)-1].canonical >= canonical {
 			deque = deque[:len(deque)-1]
 		}
 		// Add new m-mer to deque
 		deque = append(deque, dequeItem{position: mmerPos, canonical: canonical})
 		// Once we have processed the first k nucleotides, we have our first k-mer
 		if pos >= k-1 {
 			// The minimizer is at the front of the deque
 			newMinimizer := deque[0].canonical
 			kmerStart := pos - k + 1 // Start position of current k-mer (ending at pos)
 			if firstKmer {
 				// Initialize first super k-mer
 				currentMinimizer = newMinimizer
 				firstKmer = false
 			} else if newMinimizer != currentMinimizer {
 				// Minimizer changed at this k-mer position
 				// Previous k-mer started at position kmerStart-1
 				// That k-mer is seq[kmerStart-1 : kmerStart-1+k] (Go slice notation)
 				// The last base of that k-mer is at kmerStart-1+k-1 = kmerStart+k-2
 				// In Go slice notation (exclusive end): kmerStart+k-1
 				endPos := kmerStart + k - 1
 				superKmer := SuperKmer{
 					Minimizer: currentMinimizer,
 					Start:     superKmerStart,
 					End:       endPos,
 					Sequence:  seq[superKmerStart:endPos],
 				}
 				result = append(result, superKmer)
 				// New super k-mer starts at current k-mer position
 				superKmerStart = kmerStart
 				currentMinimizer = newMinimizer
 			}
 		}
 	}
 	// Emit final super k-mer
 	if !firstKmer {
 		superKmer := SuperKmer{
 			Minimizer: currentMinimizer,
 			Start:     superKmerStart,
 			End:       len(seq),
 			Sequence:  seq[superKmerStart:],
 		}
 		result = append(result, superKmer)
 	}
 	return result
 }
 // ReverseComplement computes the reverse complement of an encoded k-mer.
 // The k-mer is encoded with 2 bits per nucleotide (A=00, C=01, G=10, T=11).
 // The complement is: A↔T (00↔11), C↔G (01↔10), which is simply XOR with 11.
@@ -516,3 +516,316 @@ func BenchmarkNormalizeKmer(b *testing.B) {
 		NormalizeKmer(kmer, k)
 	}
 }
 // TestExtractSuperKmersBasic tests basic super k-mer extraction
 func TestExtractSuperKmersBasic(t *testing.T) {
 	tests := []struct {
 		name     string
 		seq      string
 		k        int
 		m        int
 		validate func(*testing.T, []SuperKmer)
 	}{
 		{
 			name: "simple sequence",
 			seq:  "ACGTACGTACGT",
 			k:    5,
 			m:    3,
 			validate: func(t *testing.T, sks []SuperKmer) {
 				if len(sks) == 0 {
 					t.Error("expected at least one super k-mer")
 				}
 				// Verify all super k-mers cover the sequence
 				totalLen := 0
 				for _, sk := range sks {
 					totalLen += sk.End - sk.Start
 					if string(sk.Sequence) != string([]byte(t.Name())[len(t.Name())-len(sk.Sequence):]) {
 						// Just verify Start/End matches Sequence
 						if string(sk.Sequence) != string([]byte("ACGTACGTACGT")[sk.Start:sk.End]) {
 							t.Errorf("Sequence mismatch: seq[%d:%d] != %s", sk.Start, sk.End, sk.Sequence)
 						}
 					}
 				}
 			},
 		},
 		{
 			name: "single k-mer sequence",
 			seq:  "ACGTACGT",
 			k:    8,
 			m:    4,
 			validate: func(t *testing.T, sks []SuperKmer) {
 				if len(sks) != 1 {
 					t.Errorf("expected exactly 1 super k-mer for len(seq)==k, got %d", len(sks))
 				}
 				if len(sks) > 0 {
 					if sks[0].Start != 0 || sks[0].End != 8 {
 						t.Errorf("expected [0:8], got [%d:%d]", sks[0].Start, sks[0].End)
 					}
 				}
 			},
 		},
 		{
 			name: "repeating sequence",
 			seq:  "AAAAAAAAAA",
 			k:    5,
 			m:    3,
 			validate: func(t *testing.T, sks []SuperKmer) {
 				// Repeating A should have same minimizer (AAA) everywhere
 				if len(sks) != 1 {
 					t.Errorf("expected 1 super k-mer for repeating sequence, got %d", len(sks))
 				}
 				if len(sks) > 0 {
 					if sks[0].Start != 0 || sks[0].End != 10 {
 						t.Errorf("expected super k-mer to cover entire sequence [0:10], got [%d:%d]",
 							sks[0].Start, sks[0].End)
 					}
 				}
 			},
 		},
 	}
 	for _, tt := range tests {
 		t.Run(tt.name, func(t *testing.T) {
 			result := ExtractSuperKmers([]byte(tt.seq), tt.k, tt.m, nil)
 			tt.validate(t, result)
 		})
 	}
 }
 // TestExtractSuperKmersEdgeCases tests edge cases and error handling
 func TestExtractSuperKmersEdgeCases(t *testing.T) {
 	tests := []struct {
 		name      string
 		seq       string
 		k         int
 		m         int
 		expectNil bool
 	}{
 		{"empty sequence", "", 5, 3, true},
 		{"seq shorter than k", "ACG", 5, 3, true},
 		{"m < 1", "ACGTACGT", 5, 0, true},
 		{"m >= k", "ACGTACGT", 5, 5, true},
 		{"m == k-1 (valid)", "ACGTACGT", 5, 4, false},
 		{"k < 2", "ACGTACGT", 1, 1, true},
 		{"k > 32", "ACGTACGTACGTACGTACGTACGTACGTACGTACGT", 33, 16, true},
 		{"k == 32 (valid)", "ACGTACGTACGTACGTACGTACGTACGTACGT", 32, 16, false},
 		{"seq == k (valid)", "ACGTACGT", 8, 4, false},
 	}
 	for _, tt := range tests {
 		t.Run(tt.name, func(t *testing.T) {
 			result := ExtractSuperKmers([]byte(tt.seq), tt.k, tt.m, nil)
 			if tt.expectNil && result != nil {
 				t.Errorf("expected nil, got %v", result)
 			}
 			if !tt.expectNil && result == nil {
 				t.Errorf("expected non-nil result, got nil")
 			}
 		})
 	}
 }
 // TestExtractSuperKmersBoundaries verifies Start/End positions
 func TestExtractSuperKmersBoundaries(t *testing.T) {
 	seq := []byte("ACGTACGTGGGGAAAA")
 	k := 6
 	m := 3
 	result := ExtractSuperKmers(seq, k, m, nil)
 	if result == nil {
 		t.Fatal("expected non-nil result")
 	}
 	// Verify each super k-mer
 	for i, sk := range result {
 		// Verify Start < End
 		if sk.Start >= sk.End {
 			t.Errorf("super k-mer %d: Start (%d) >= End (%d)", i, sk.Start, sk.End)
 		}
 		// Verify Sequence matches seq[Start:End]
 		expected := string(seq[sk.Start:sk.End])
 		actual := string(sk.Sequence)
 		if actual != expected {
 			t.Errorf("super k-mer %d: Sequence mismatch: got %s, want %s", i, actual, expected)
 		}
 		// Verify bounds are within sequence
 		if sk.Start < 0 || sk.End > len(seq) {
 			t.Errorf("super k-mer %d: bounds [%d:%d] outside sequence length %d",
 				i, sk.Start, sk.End, len(seq))
 		}
 		// Verify minimum length is k
 		if sk.End-sk.Start < k {
 			t.Errorf("super k-mer %d: length %d < k=%d", i, sk.End-sk.Start, k)
 		}
 	}
 	// Verify super k-mers can overlap (by up to k-1 bases) but must be ordered
 	// and the overlap should not exceed k-1
 	for i := 0; i < len(result)-1; i++ {
 		// Next super k-mer should start before or at the end of current one
 		// Overlap is allowed and expected
 		overlap := result[i].End - result[i+1].Start
 		if overlap > k-1 {
 			t.Errorf("super k-mers %d and %d overlap by %d bases (max allowed: %d): [%d:%d] and [%d:%d]",
 				i, i+1, overlap, k-1, result[i].Start, result[i].End, result[i+1].Start, result[i+1].End)
 		}
 		// But the start positions should be ordered
 		if result[i+1].Start < result[i].Start {
 			t.Errorf("super k-mers %d and %d are not ordered: [%d:%d] and [%d:%d]",
 				i, i+1, result[i].Start, result[i].End, result[i+1].Start, result[i+1].End)
 		}
 	}
 }
 // TestExtractSuperKmersBufferReuse tests buffer parameter
 func TestExtractSuperKmersBufferReuse(t *testing.T) {
 	seq := []byte("ACGTACGTACGTACGT")
 	k := 6
 	m := 3
 	// First call without buffer
 	result1 := ExtractSuperKmers(seq, k, m, nil)
 	// Second call with buffer
 	buffer := make([]SuperKmer, 0, 100)
 	result2 := ExtractSuperKmers(seq, k, m, &buffer)
 	if len(result1) != len(result2) {
 		t.Errorf("buffer reuse: length mismatch %d vs %d", len(result1), len(result2))
 	}
 	for i := range result1 {
 		if result1[i].Minimizer != result2[i].Minimizer {
 			t.Errorf("position %d: minimizer mismatch", i)
 		}
 		if result1[i].Start != result2[i].Start || result1[i].End != result2[i].End {
 			t.Errorf("position %d: boundary mismatch", i)
 		}
 	}
 	// Test multiple calls with same buffer
 	for i := 0; i < 10; i++ {
 		result3 := ExtractSuperKmers(seq, k, m, &buffer)
 		if len(result3) != len(result1) {
 			t.Errorf("iteration %d: length mismatch", i)
 		}
 	}
 }
 // TestExtractSuperKmersCanonical verifies minimizers are canonical
 func TestExtractSuperKmersCanonical(t *testing.T) {
 	seq := []byte("ACGTACGTACGT")
 	k := 6
 	m := 3
 	result := ExtractSuperKmers(seq, k, m, nil)
 	if result == nil {
 		t.Fatal("expected non-nil result")
 	}
 	for i, sk := range result {
 		// Verify the minimizer is indeed canonical (equal to its normalized form)
 		normalized := NormalizeKmer(sk.Minimizer, m)
 		if sk.Minimizer != normalized {
 			t.Errorf("super k-mer %d: minimizer %d is not canonical (normalized: %d)",
 				i, sk.Minimizer, normalized)
 		}
 		// The minimizer should be <= its reverse complement
 		rc := ReverseComplement(sk.Minimizer, m)
 		if sk.Minimizer > rc {
 			t.Errorf("super k-mer %d: minimizer %d > reverse complement %d (not canonical)",
 				i, sk.Minimizer, rc)
 		}
 	}
 }
 // TestExtractSuperKmersVariousKM tests various k and m combinations
 func TestExtractSuperKmersVariousKM(t *testing.T) {
 	seq := []byte("ACGTACGTACGTACGTACGTACGT")
 	configs := []struct {
 		k int
 		m int
 	}{
 		{5, 3},
 		{8, 4},
 		{10, 5},
 		{16, 8},
 		{21, 11},
 		{6, 5}, // m = k-1
 		{4, 2},
 	}
 	for _, cfg := range configs {
 		t.Run("k"+string(rune('0'+cfg.k/10))+string(rune('0'+cfg.k%10))+"_m"+string(rune('0'+cfg.m/10))+string(rune('0'+cfg.m%10)), func(t *testing.T) {
 			if len(seq) < cfg.k {
 				t.Skip("sequence too short for this k")
 			}
 			result := ExtractSuperKmers(seq, cfg.k, cfg.m, nil)
 			if result == nil {
 				t.Fatal("expected non-nil result for valid parameters")
 			}
 			if len(result) == 0 {
 				t.Error("expected at least one super k-mer")
 			}
 			// Verify each super k-mer has minimum length k
 			for i, sk := range result {
 				length := sk.End - sk.Start
 				if length < cfg.k {
 					t.Errorf("super k-mer %d has length %d < k=%d", i, length, cfg.k)
 				}
 			}
 		})
 	}
 }
 // BenchmarkExtractSuperKmers benchmarks the super k-mer extraction
 func BenchmarkExtractSuperKmers(b *testing.B) {
 	sizes := []int{100, 1000, 10000, 100000}
 	configs := []struct {
 		k int
 		m int
 	}{
 		{21, 11},
 		{31, 15},
 		{16, 8},
 		{10, 5},
 	}
 	for _, cfg := range configs {
 		for _, size := range sizes {
 			seq := make([]byte, size)
 			for i := range seq {
 				seq[i] = "ACGT"[i%4]
 			}
 			name := "k" + string(rune('0'+cfg.k/10)) + string(rune('0'+cfg.k%10)) +
 				"_m" + string(rune('0'+cfg.m/10)) + string(rune('0'+cfg.m%10)) +
 				"_size" + string(rune('0'+(size/10000)%10)) +
 				string(rune('0'+(size/1000)%10)) +
 				string(rune('0'+(size/100)%10)) +
 				string(rune('0'+(size/10)%10)) +
 				string(rune('0'+size%10))
 			b.Run(name, func(b *testing.B) {
 				buffer := make([]SuperKmer, 0, size/cfg.k)
 				b.ResetTimer()
 				b.SetBytes(int64(size))
 				for i := 0; i < b.N; i++ {
 					ExtractSuperKmers(seq, cfg.k, cfg.m, &buffer)
 				}
 			})
 		}
 	}
 }