pandas读取一个文件夹下所有excel文件

本文介绍: 我这边有个需求，是要求汇总一个文件夹所有的excel 文件，其中有.x ls和 .xlsx 文件，同时还excel 文件中的数据可能还不一致，会有表头数据不一样需要一起汇总。首先先遍历子文件夹并读取Excel文件：使用 os库来遍历包含子文件夹的主文件夹，并读取所有的Excel文件。然后是合并数据：使用 pandas的concat 函数将所有数据帧合并为一个总的数据帧，并处理不同表头的情况。假设表头位于第一行。最后呢，保存总表：将合并后的数据保存到一个新的Excel文件。

我这边有个需求，是要求汇总一个文件夹所有的excel文件，其中有.xls和 .xlsx文件，同时还excel文件中的数据可能还不一致，会有表头数据不一样需要一起汇总。

首先先遍历子文件夹并读取Excel文件：使用 os库来遍历包含子文件夹的主文件夹，并读取所有的Excel文件。

import os

main_folder = '文件夹路径'
all_data = []

for root, dirs, files in os.walk(main_folder):
    for file in files:
        if file.endswith(".xlsx"):  # 只处理Excel文件，可以根据需要修改扩展名
            file_path = os.path.join(root, file)
            df = pd.read_excel(file_path, skiprows=2)  # 跳过前两行无用数据
            all_data.append(df)
        elif file.endswith(".xls"):
            file_path = os.path.join(root, file)
            df = pd.read_excel(file_path, skiprows=2, engine='xlrd')
            all_data.append(df)

然后是合并数据：使用 pandas的concat 函数将所有数据帧合并为一个总的数据帧，并处理不同表头的情况。假设表头位于第一行。

combined_df = pd.concat(all_data, ignore_index=True)

# 处理不同表头的情况
combined_df = combined_df.fillna('')  # 将NaN值填充为空字符串

最后呢，保存总表：将合并后的数据保存到一个新的Excel文件

 combined_df.to_excel('保存的excel文件路径', index=False)

出现的问题

在这里插入图片描述
上图错误，我用断点调试去看数据，发现里面出现了一个错误的文件路径。是以~$ 开头的一个excel文件。但是真实环境中是没有这个excel文件，去查了一下资料
 如下解释：
在Win dows 系统中，当一个Excel文件（.xlsx 或 .xls）正在被某个用户编辑时，Excel会创建一个临时文件，文件名以 ~$ 开头，然后是原始文件的名称。这个临时文件用于跟踪编辑进程，以防止多个用户同时编辑相同的文件时发生冲突。