#34661. n-gram串频统计
n-gram串频统计
暂无测试数据。
在文本分析中常用到 $\text{n-gram}$ 串频统计方法,即,统计相邻的 $n$ 个单元(如单词、汉字、或者字符)在整个文本中出现的频率。假设有一个字符串,请以字符为单位,按 $\text{n-gram}$ 方法统计每个长度为 $n$ 的子串出现的频度,并输出最高频度以及频度最高的子串。所给的字符串只包含大小写字母,长度不多于 $500$ 个字符,且 $1 < n < 5$。
如果有多个子串频度最高,则根据其在序列中第一次出现的次序依次输出,每行输出一个,如果最高频度不大于 $1$,则输出 "NO"
。
输入格式
第一行为 $n$;
第二行为字符串。
输出格式
输出最高频度以及频度最高的所有子串。若最高频度不大于 $1$,只输出一行"NO"
。
提示
样例中,所有的 $\text{3-gram}$ 是:abc
,bcd
,cde
,def
,efa
,fab
,abc
,bcd
。最后面的cd
不足以形成 $\text{3-gram}$,则不考虑。这样,abc
和bcd
都出现了 $2$ 次,其余的只出现了 $1$ 次。
3
abcdefabcd
2
abc
bcd