本文介绍: 我这边有个需求,是要求汇总一个文件夹所有的excel文件, 其中有.xls和 .xlsx文件,同时还excel文件中的数据可能还不一致,会有表头数据不一样需要一起汇总。首先先遍历文件夹读取Excel文件使用os库来遍历包含文件夹的主文件夹,并读取所有的Excel文件。然后合并数据使用pandasconcat函数将所有数据合并一个总的数据帧,并处理不同表头的情况。假设表头位于第一行最后呢 ,保存总表:将合并后的数据保存一个新的Excel文件。

我这边有个需求,是要求汇总一个文件夹所有的excel文件, 其中有.xls和 .xlsx文件,同时还excel文件中的数据可能还不一致,会有表头数据不一样需要一起汇总

首先先遍历文件夹读取Excel文件: 使用os库来遍历包含文件夹的主文件夹,并读取所有的Excel文件。

import os

main_folder = '文件夹路径'
all_data = []

for root, dirs, files in os.walk(main_folder):
    for file in files:
        if file.endswith(".xlsx"):  # 只处理Excel文件,可以根据需要修改扩展
            file_path = os.path.join(root, file)
            df = pd.read_excel(file_path, skiprows=2)  # 跳过前两行无用数据
            all_data.append(df)
        elif file.endswith(".xls"):
            file_path = os.path.join(root, file)
            df = pd.read_excel(file_path, skiprows=2, engine='xlrd')
            all_data.append(df)

然后是合并数据: 使用pandasconcat函数将所有数据帧合并为一个总的数据帧,并处理不同表头的情况。假设表头位于第一行

combined_df = pd.concat(all_data, ignore_index=True)

# 处理不同表头的情况
combined_df = combined_df.fillna('')  # 将NaN值填充为空字符串

最后呢 ,保存总表:将合并后的数据保存一个新的Excel文件

 combined_df.to_excel('保存excel文件路径', index=False)

出现的问题

在这里插入图片描述
上图错误我用断点调试去看数据, 发现里面出现了一个错误的文件路径。 是以~$ 开头的一个excel文件。但是真实环境中是没有这个excel文件,去查了一下资料
如下解释
在Windows系统中,当一个Excel文件(.xlsx 或 .xls)正在被某个用户编辑时,Excel会创建一个临时文件,文件名以 ~$ 开头,然后是原始文件的名称。这个临时文件用于跟踪编辑进程,以防止多个用户同时编辑相同的文件时发生冲突

所以在os.walk遍历文件夹时,它会包括所有文件,包括这些临时文件。这些临时文件通常不应被处理读取,因为它们是Excel编辑过程中的中间文件。

解决方案

要在遍历文件夹时排除这些临时文件,您可以加一条件检查文件名,如果文件名以 ~$ 开头,则跳过该文件,
循环中多加一判断就好了。

if not file.startswith("~$"):

原文地址:https://blog.csdn.net/weixin_42556357/article/details/132804653

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任

如若转载,请注明出处:http://www.7code.cn/show_23112.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注