LeetCode 最长重复子串的更换问题

时间:2024-04-12 20:27:06

在这里插入图片描述

LeetCode 最长重复子串的更换问题

在处理字符串问题时,我们经常会遇到一些具有挑战性的问题,比如今天的这个问题:给定一个字符串 s 和一个整数 k,我们的任务是找到可以通过最多更换 k 个字符来形成的最长重复子串的长度。

我的解决方案可能不是最快速、最有效或最简单的,但我希望通过这个过程深入理解相关的算法。

这个问题要求我们找到可以更换最多 k 个字符来形成重复子串的最长字符串。简单来说,就是允许我们改变字符串中的 k 个字符,使其变成另一个字符,从而创建一个重复的模式。

一种直观的方法是从长度为1的子串开始尝试,并逐步增加子串的长度,直到找到第一个不符合要求的子串。如果子串的长度为 n 且符合要求,那么长度为 n-1 的子串也必然符合要求。但是,这种方法的时间复杂度较高。

有没有更快的方法呢?我们注意到,通过连续检查长度为1、2、3等的子串,我们实际上是在按顺序检查子串的长度。这样的排序顺序让我们有机会使用二分搜索来加快搜索过程。

在这种情况下,我们如何应用二分搜索呢?首先,我们需要确定子串有效性的特征。问题的本质是找到一个子串,其中最常见的字符频率与子串长度之间的差值小于或等于 k。这个差值表示除了最常见字符之外的字符数量。如果这个差值小于或等于 k,我们就可以把这些字符全部更换为最常见的字符,从而形成一个只包含相同字符的子串。

假设子串的长度为 l,最常见的字符频率为 maxFreq。如果长度为 l 的子串有效,那么 l - maxFreq <= k 必然成立。如果长度为 l 的子串有效,那么长度小于 l 的所有子串也都有效。这就意味着,如果找到一个有效的长度 l,所有长度小于 l 的子串也都是有效的。

但是,如果长度为 l 的子串无效,即 l - maxFreq > k,我们能对长度为 l+1 的子串说什么呢?显然,l + 1 - maxFreq > l - maxFreq > k,这意味着如果长度为 l 的子串无效,那么所有长度大于 l 的子串也都无效。

借助这些信息,我们如何应用二分搜索呢?二分搜索通过设置两个边界 lohi 来定义搜索空间。搜索空间是所有可能的候选解的集合。我们将中间的元素与目标值进行比较,以确定目标值是在搜索空间的前半部分还是后半部分。基于这个比较,我们调整 lohi 来缩小搜索空间。这个过程一直持续到搜索空间中只剩下一个元素为止,这个元素就是我们要找的答案。

回到我们的问题,我们使用 lohi 来定义搜索空间的两端:lo 表示到目前为止已知的最长有效子串的长度,hi 表示一个比搜索空间更高的值。我们之所以称这两个事实为不变,是因为我们需要在每一轮搜索后维护它们。

为了缩小搜索空间,我们遵循以下步骤:

  1. 找到中点。
  2. 如果我们找到一个长度等于中点值的有效子串,那么所有长度小于中点的子串也都是有效的,但不能是最长的子串。我们知道的最长子串的长度是中点值。为了在保持不变的情况下缩小搜索空间,我们将 lo 移动到 mid。现在,lo 仍然指向到目前为止已知的最长有效子串的长度,而 hi 保持不变。
  3. 如果我们找不到长度等于中点值的有效子串,那么所有更长的子串也都无效。因此,最长子串的长度应该小于中点值。我们将搜索空间缩小到从 lomid - 1,通过将 hi 移动到 mid。现在 hi 指针比搜索空间高一个单位,而 lo 保持不变。
  4. 我们继续步骤2和3,直到 lohi 相邻。在这种情况下,lo 指向到目前为止已知的最长有效子串的长度,而 hi 指向一个比搜索空间更高的值。因此,搜索空间中只剩下一个值 lo,这可能是最长子串的长度。这就是我们要找的答案。

以下是实现这个算法的JavaScript代码:

function characterReplacement(s: string, k: number): number {
    let lo = k, hi = s.length + 1;

    while(lo < hi - 1) {
        const mid = Math.floor((lo + hi)/2);
        if(isValidLength(mid)) {
            lo = mid;
        }
        else {
            hi = mid;
        }
    }

    return lo;

    function isValidLength(l:number):boolean {
        const hashTB:Record<string, number> = {};

        let start = 0, maxFreq = 0;

        for(let end = 0; end < s.length; end++) {
            if(!hashTB[s[end]]) hashTB[s[end]] = 1;
            else hashTB[s[end]]++;
            if(end - start + 1 > l) {
                hashTB[s[start]]--;
                start++;
            }
            if(maxFreq < hashTB[s[end]]) {
                maxFreq = hashTB[s[end]];
            }
            if(l - maxFreq <= k) return true;
        }

        return false;
    }
}

这段代码通过二分搜索和有效性验证函数 isValidLength 来确定最长重复子串的长度。这个过程不仅提高了解决问题的效率,还加深了我们对算法和数据结构的理解。