这两天敲代码批量处理txt文件时一直出现报错:
UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xbc in position 2: invalid start byte
通过查找资料最终确定原因有两个:
(1)txt文件的编码方式不是utf-8,这需要特别写一个程序,将所有的txt文件的编码方式都改为utf-8
(2)代码的编码方式不是utf-8,在程序文件加一段代码即可:# -- coding: utf-8 --
批量修改txt文件编码为utf-8的代码如下:
[Python] 纯文本查看 复制代码 # 批量修改txt的编码方式为utf-8
# 注意,该.py文件需放在txt文件所在文件夹里运行才可以
import os
from chardet import detect
fileSuffix = 'txt'
fns = []
filedir = os.path.join(os.path.abspath('.'), "")
# os.path.abspath() 获取指定文件或目录的绝对路径
file_name = os.listdir(os.path.join(os.path.abspath('.'), ""))
# os.listdir() 用于返回一个由文件名和目录名组成的列表,即返回当前路径(文件夹)下所有文件的绝对路径列表
for fn in file_name:
if fn.endswith(fileSuffix):
# endswith() 判断字符串是否以指定后缀结尾
fns.append(os.path.join(filedir, fn))
for fn in fns:
with open(fn, 'rb+') as fp:
content = fp.read()
if len(content)==0:
continue
else:
codeType = detect(content)['encoding']
content = content.decode(codeType, "ignore").encode("utf8")
fp.seek(0)
fp.write(content)
print(fn, ":已修改为utf8编码")
|