how-to-convert

如何将 XLSX 转换为 CSV（避免头疼的编码问题）

2026-05-17 8 min read

为什么 XLSX 转 CSV 总是出错

它们看起来如此相似。XLSX 和 CSV 不都是数据表格吗？没错，但它们的底层完全是两码事。XLSX 文件是一个复杂的包——一个包含多个工作表、富文本单元格格式、公式甚至图像的 XML 文档的 zip 压缩包。而 CSV 只是纯文本。行以换行符结束，列由逗号之类的字符分割。当你试图把 XLSX 这种丰富的结构“压平”成纯文本时，简直是自找麻烦。最头疼的问题来自编码不匹配。如果你的电子表格包含任何特殊字符——比如 é 或 ñ 这样的重音字母、€ 这样的货币符号，或者非拉丁文字——那么输出的 CSV 文件就必须使用正确的字符编码，而这个编码几乎永远是 UTF-8。许多工具默认使用像 Windows-1252 这样的旧编码，这会把那些特殊字符弄成乱码问号。一个像“José García”这样的客户名会变成“Jos? Garc?a”，然后你的 CRM 导入就直接失败了。分隔符冲突是另一个典型问题。如果你的 CSV 使用逗号来分隔列，那么当某个单元格本身就包含逗号时，比如地址“14 Oak Street, Suite 200”，会发生什么？一个规范的 CSV 写入程序会用双引号把这个值包起来。但如果数据本身就包含双引号，那它们必须通过双写来进行转义（'He said "hello"' 会变成 '"He said ""hello"""'）。在开始转换之前，了解这些坑埋在哪里，能为你省下好几个小时的痛苦调试时间。

编码决策：UTF-8、带 BOM 的 UTF-8，还是其他？

在转换任何东西之前，先做一个关键决定：你的目标系统需要什么编码？搞定这一点，你就能绕开绝大多数的转换问题。对于几乎所有现代系统来说，答案就是 UTF-8。就是这样，没有之一。数据库、Python 脚本、Web API——它们都期望并能完美处理 UTF-8。如果你要把 CSV 用 `pd.read_csv()` 导入 pandas，UTF-8 是默认选项，直接就能用。PostgreSQL 的 `COPY` 命令或 MySQL 的 `LOAD DATA INFILE` 在你指定 `CHARACTER SET utf8mb4` 时也是同理。然后是带 BOM（字节顺序标记）的 UTF-8。这个变体在文件开头添加了三个看不见的字节（0xEF, 0xBB, 0xBF）。它为什么存在？为了帮助微软的 Excel。在 Windows 上，除非看到这个 BOM，否则 Excel 常常会假设一个 CSV 文件是用 Windows-1252 编码的，从而搞乱所有特殊字符。所以，规则很简单：如果会有人直接用 Excel 打开这个 CSV，就用带 BOM 的 UTF-8。如果是一个脚本或程序来读取它，就用普通的 UTF-8，因为那个 BOM 可能会让很多解析器出错。像 Windows-1252（或 ANSI）和 ISO-8859-1（Latin-1）这样的旧编码都是老古董了。它们只支持西欧字符，会损坏任何来自其他语言的数据。你可能会在一些遗留系统中遇到它们，但绝不应该在新的工作流中选择它们。 CocoConvert 的 [XLSX 到 CSV 转换器](/convert/xlsx-to-csv) 让你在一开始就能选择编码，这是一个许多免费工具不知为何给省略了的关键功能。只需为系统选择 UTF-8，为 Excel 选择带 BOM 的 UTF-8。

分步指南：使用 CocoConvert 将 XLSX 转换为 CSV

过程很简单，但细节决定成败。这里的几个设置将直接决定你最终输出文件的成败。 1. 前往 [CocoConvert 的 XLSX 转 CSV 页面](/convert/xlsx-to-csv)并上传你的文件。无需账户即可处理最大 50 MB 的文件，更大的文件只需免费注册。如果你的 XLSX 是个真正的庞然大物——一些企业导出的文件可能有几百兆——你就需要使用像 LibreOffice Calc 这样的桌面工具或脚本了，我们稍后会讲到。 2. 选择要导出的工作表。一个 XLSX 文件可以包含许多工作表，但一个 CSV 只能表示一个。CocoConvert 会在下拉菜单中列出你文件中的所有工作表。如果你需要导出所有工作表，你必须一次转换一个。 3. 选择你的分隔符。逗号是标准选择，但如果你的数据里充满了逗号（比如自由文本描述或地址），那它就是个糟糕的选择。在欧洲，分号是一个常见且通常更安全的选择。如果你的文本里既有逗号又有分号，那么制表符分隔（TSV）是另一个绝佳选项。 4. 设置编码。规矩你已经懂了：程序化使用选 UTF-8，如果文件是给别人用 Excel 打开的，就选带 BOM 的 UTF-8。 5. 决定如何处理公式。CocoConvert 导出的是单元格计算后的*值*，而不是公式本身。一个包含 `=SUM(A1:A10)` 并显示为 `4500` 的单元格，在 CSV 中会变成 `4500`。99% 的情况下，这正是你想要的。如果你真的需要公式文本，那你一开始就不应该转换成 CSV。 6. 下载并验证。**不要用 Excel 打开 CSV 来检查。** 相信我。先用一个专业的文本编辑器打开它，比如 Windows 上的 Notepad++ 或 Mac 上的 BBEdit。这些工具会向你展示原始文本，并让你确认编码是否正确。找到一个包含特殊字符的行，确保它们看起来没问题，然后再去考虑把它导入你的目标系统。

在 Excel 和 LibreOffice 中操作（当你需要本地控制时）

有时候你必须在本地进行转换。也许文件包含不能上传的敏感数据，或者它是个 200 MB 的庞然大物，在线工具处理不了。Excel 和 LibreOffice 都能完成这项工作，但各有各的脾气。在 Microsoft Excel (Office 365 / Excel 2019+) 中：打开你的 XLSX，导航到文件 → 另存为，在“保存类型”下拉菜单中，选择“CSV UTF-8 (逗号分隔) (*.csv)”。这个选项是微软*终于*在 Excel 2016 中加入的，它能正确地以带 BOM 的 UTF-8 编码保存。小心不要选择普通的“CSV (逗号分隔)”选项；它会用古老的 Windows-1252 编码保存，这个坑坑了无数开发者。Excel 会警告你只有活动工作表会被保存。点击确定，然后对其他需要的工作表重复此操作。在 LibreOffice Calc (一个超赞的、免费的、跨平台的工具) 中：打开文件，进入文件 → 保存副本...（使用“另存为”会改变你当前的文件）。选择“文本 CSV (.csv)”作为格式，并确认你想要“保持当前格式”。这会弹出一个强大的对话框，里面有明确的选项。你可以设置字段分隔符、文本分隔符（保留为双引号），最重要的是，可以设置字符集。选择“Unicode (UTF-8)”。LibreOffice 能正确地生成一个不带 BOM 的普通 UTF-8 文件，非常适合程序化使用。这两种工具的局限性在于：它们都不能让你控制 null、空单元格或布尔值的表示方式。如果你的下游流程需要用空字符串表示 null 而不是直接留空，或者期望用 `1`/`0` 而不是 `TRUE`/`FALSE`，那你就没辙了。你只能稍后用脚本对 CSV 进行清理，或者从一开始就使用更强大的工具。

使用 Python 编写脚本转换（适用于可重复的工作流）

当你需要一遍又一遍地转换同一种 XLSX 文件时——比如每周从会计系统导出的报告——手动点击简直是出错的温床。一个简单的 Python 脚本更快、更可靠，而且几秒钟就能运行完。首先，你需要 `openpyxl` 和 `pandas` 这两个库。用 `pip install openpyxl pandas` 来安装它们。然后，代码惊人地简洁： ```python import pandas as pd df = pd.read_excel('report.xlsx', sheet_name='Sales Data', engine='openpyxl') df.to_csv('report.csv', index=False, encoding='utf-8') ``` `sheet_name` 参数可以是工作表的名称字符串，也可以是它从零开始的索引号。别忘了 `index=False`；它能防止 pandas 把自己的行号写入第一列，那绝对会让大多数导入工具懵掉。对于 `encoding` 参数，`'utf-8'` 会创建一个标准的、不带 BOM 的 UTF-8 文件。如果你知道输出文件会直接给 Excel 用户，就用 `'utf-8-sig'` 来包含 BOM。 Pandas 在处理日期方面也很智能，它会把日期解析成 `datetime64` 对象，并以大多数数据库都喜欢的 ISO 8601 格式（`YYYY-MM-DD HH:MM:SS`）写入。如果你的目标系统很挑剔，需要像 `MM/DD/YYYY` 这样的格式，只需在 `to_csv()` 调用中添加 `date_format='%m/%d/%Y'` 参数即可。对于超大文件（50,000+ 行），`openpyxl` 会将整个文件加载到内存中，所以 `pd.read_excel()` 可能会很慢。写入也可能成为瓶颈。如果你遇到了内存限制，可以分块写入 CSV。如果你在处理古老的 `.xls` 文件，`xlrd` 引擎会更快，但对于现代的 `.xlsx` 文件，还是坚持用 `openpyxl`。如果你有多个工作表要导出，`pd.read_excel('report.xlsx', sheet_name=None)` 是个救星。它会返回一个字典，其中键是工作表名称，值是对应的 DataFrame。然后你就可以遍历这个字典，把每个工作表保存到各自的 CSV 文件中——这是自动化导出整个工作簿的完美方式。

在数据入库前验证你的 CSV 文件

一个 CSV 文件在预览时可能看起来完美无瑕，但仍然可能让你的数据库导入任务彻底崩溃。任何一个眼睁睁看着导入作业在 20 分钟后默默失败的人，都懂那种痛。几个简单的验证步骤可以及早发现这些小毛病。首先，检查行数。如果你的 XLSX 有 12,847 行数据和一个表头，你的 CSV 文件就应该正好有 12,848 行。在 Linux 或 macOS 上，`wc -l report.csv` 马上就能告诉你结果。如果数字对不上，很可能是某个单元格包含了换行符——这在“备注”字段中很常见，用户只是随手按了回车。一个合格的 CSV 写入程序应该能正确地引用它，但这是一个常见的失败点。接下来，抽查你的特殊字符。在原始 XLSX 文件中找一个带有重音符号、货币符号或非拉丁文字的行。现在用一个能显示文件编码的文本编辑器（VS Code 和 Notepad++ 都可以）打开 CSV 文件。确认编码是你选择的那个，并且字符渲染正确。测试分隔符。如果你用了逗号，就在原始文本中搜索那些不在引号内的逗号。在 Linux 上用一个快速的 `grep` 命令（`grep -P '(?<!\" ),[^\"\\n]*(?<!\" ),' report.csv`）可以帮助找到可能漏掉引用的行，不过你可能需要根据你的具体数据微调这个正则表达式。最后，验证几列的数据类型。如果某一列应该全是整数，检查一下。在 Python 中，你可以加载 CSV 并检查 `pd.read_csv('report.csv')['order_id'].dtype`。它应该显示 `int64`。如果显示的是 `object`，那就有问题了——可能是一个混进来的文本字符、一个你没注意到的 `#N/A` 错误，或者一个溜进数字单元格的货币符号。花五分钟做这些检查，能为你省下好几个小时调试数据加载失败问题的时间。

常见的边缘情况和坦诚的局限性

即使使用了正确的工具，XLSX 的某些功能也根本无法干净利落地映射到 CSV 这个简单的世界里。以下是一些常见的陷阱。合并单元格：Excel 的合并单元格是一个视觉上的花招。当你转换为 CSV 时，只有合并区域左上角单元格的值会保留下来；其他单元格会变空。明确说吧：这个问题没有干净的自动化解决方案。你必须在转换*之前*在 Excel 中取消合并单元格（全选，格式 → 单元格 → 对齐，取消勾选“合并单元格”），然后手动填上那些现在变空的单元格。多行表头：我们经常看到有两三行表头的报告——一个主类别，一个子类别，然后才是真正的列名。CSV 解析器是为单行表头设计的。这又是一个需要手动清理的活儿；你必须在 XLSX 中简化表头，或者在 CSV 文件变得可用之前，从文件中删除多余的行。公式错误：如果 Excel 中的某个单元格显示 `#REF!`、`#DIV/0!` 或 `#VALUE!`，那么这个确切的文本就会被写入你的 CSV 文件。这些字符串会污染任何数字列，并在导入期间导致类型错误。先在 Excel 中把它们清理干净，要么修复源数据，要么用 `IFERROR()` 函数包装公式。非常大的文件：CocoConvert 很大方，免费用户可处理高达 50 MB 的文件，有账户的用户可处理 200 MB。对于任何更大的文件，在线工具都不太现实。切换到 Python/pandas 方法，或者使用 LibreOffice 的命令行工具 (`libreoffice --headless --convert-to csv filename.xlsx`)。受密码保护的 XLSX 文件：没有任何在线工具，包括 CocoConvert，能够打开受密码保护的文件。你必须自己在 Excel 中移除密码（文件 → 信息 → 保护工作簿 → 用密码进行加密），保存文件，然后再上传。图像和图表：这些都会被悄无声息地丢弃。它们在 CSV 格式中根本不存在。如果你的工作表主要是一个图表带一个小数据表，那么图表会消失得无影无踪，只留下文本。这不是错误，只是 CSV 格式的一个根本限制。

Ready to convert?

Try it now — fast, secure, and private.

Convert Now →

← Browse all articles