中等
技术面试0 次浏览

在商汤科技的项目中,经常需要处理大规模的数据集。请编写一段Python代码,实现对一个包含图像文件路径和标签的CSV文件进行随机划分,将其分为训练集和测试集,比例为8:2。

商汤科技数据分析师
Python编程数据划分CSV文件处理

答题要点

推荐答题框架:按照功能模块进行编写,先读取CSV文件,再进行随机划分,最后保存划分结果。关键要点:1. 读取CSV文件:使用Python的pandas库读取CSV文件。2. 随机划分:使用sklearn库的train_test_split函数进行随机划分。3. 保存结果:将划分后的训练集和测试集保存为新的CSV文件。示例代码思路:首先用pandas读取CSV文件,然后调用train_test_split函数,设置划分比例为8:2。最后将划分结果保存为新的CSV文件。代码示例:python import pandas as pd from sklearn.model_selection import train_test_split data = pd.read_csv('data.csv') train, test = train_test_split(data, test_size=0.2) train.to_csv('train.csv', index=False) test.to_csv('test.csv', index=False)