困难
技术面试0 次浏览

给定一个包含海量关键词的日志文件(假设文件大小为100GB),如何高效地统计每个关键词出现的频率?请详细描述你的解决方案,包括如何处理内存限制和优化I/O性能。

字节跳动后端工程师
大数据算法优化

答题要点

使用MapReduce或分片处理。将大文件拆分为小文件,逐块读取并统计局部频率,最后合并结果。考虑使用哈希分片或外部排序来优化性能。