批量修改txt（或其他）文件编码为utf-8

csx · 发表于 2022-10-14 19:04

这两天敲代码批量处理txt文件时一直出现报错：

UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xbc in position 2: invalid start byte
通过查找资料最终确定原因有两个：
（1）txt文件的编码方式不是utf-8，这需要特别写一个程序，将所有的txt文件的编码方式都改为utf-8
（2）代码的编码方式不是utf-8，在程序文件加一段代码即可：# -- coding: utf-8 --
批量修改txt文件编码为utf-8的代码如下：

[Python] 纯文本查看 复制代码

# 批量修改txt的编码方式为utf-8
# 注意，该.py文件需放在txt文件所在文件夹里运行才可以

import os
from chardet import detect
fileSuffix = 'txt'
fns = []
filedir = os.path.join(os.path.abspath('.'), "")
    # os.path.abspath() 获取指定文件或目录的绝对路径
file_name = os.listdir(os.path.join(os.path.abspath('.'), ""))
    # os.listdir() 用于返回一个由文件名和目录名组成的列表，即返回当前路径（文件夹）下所有文件的绝对路径列表
for fn in file_name:
    if fn.endswith(fileSuffix):
        # endswith() 判断字符串是否以指定后缀结尾
        fns.append(os.path.join(filedir, fn))
for fn in fns:
    with open(fn, 'rb+') as fp:
        content = fp.read()
        if len(content)==0:
            continue
        else:
            codeType = detect(content)['encoding']
            content = content.decode(codeType, "ignore").encode("utf8")
            fp.seek(0)
            fp.write(content)
            print(fn, "：已修改为utf8编码")

账号		自动登录	找回密码
密码			立即注册

批量修改txt（或其他）文件编码为utf-8

浏览过的版块

论坛元老

灌水之王