找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 文档 工具 设计
查看: 150|回复: 0

python 获取指定目录下 html文件里的 title 并写入txt文件

[复制链接]

35

主题

26

回帖

645

积分

永久SVIP

国家级抬杠运动员

附加身份标识
精华
0
热心
2
听众
1
威望
38
贡献
163
违规
0
书币
4159
注册时间
2020-4-22

支持勋章

QQ
发表于 2022-10-6 05:09 | 显示全部楼层 |阅读模式
本帖最后由 我爱你哦 于 2022-10-6 05:10 编辑

一个文件夹下有几百个html


想获取里面 html 文档的 title

并且写入txt  同时写入对应的html文件名(包含路径)

代码如下:
[Python] 纯文本查看 复制代码
import os
import re

wpath = 'G:\\word\\cdsy\\www\\a'   #指明文件夹路径  G:/word/cdsy/www/a

def get_file_all(path, filetype):
    files = []
    for file in os.listdir(path):
        if file.endswith(filetype):
            temp_path = os.path.join(path, file)
            files.append(temp_path)
    return files

logtxt = open('G:/work/work20221006.txt', 'a+')

print(get_file_all(wpath, '.html')[0])
i = 0
for i in range(len(get_file_all(wpath, '.html'))):
    fh = open(get_file_all(wpath, '.html')[i], "r", encoding='utf-8')
    hf = fh.read()
    tit = re.findall(r'<title>(.+?)</title>', hf, re.S)
    logtxt.write(str(tit) + '---' + str(get_file_all(wpath, '.html')[i]) + '\n')
    fh.close()
logtxt.close()


每次见你穿短裤打领带,还穿个拖鞋,下次再这样穿不要从我家门口过了!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则 需要先绑定手机号


免责声明:
本站所发布的第三方软件及资源(包括但不仅限于文字/图片/音频/视频等仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢某程序或某个资源,请支持正版软件及版权方利益,注册或购买,得到更好的正版服务。如有侵权请邮件与我们联系处理。

Mail To: admin@cdsy.xyz

QQ|Archiver|手机版|小黑屋|城东书院 ( 湘ICP备19021508号-1|湘公网安备 43102202000103号 )

GMT+8, 2024-11-21 20:26 , Processed in 0.051541 second(s), 28 queries .

Powered by Discuz! CDSY.XYZ

Copyright © 2019-2023, Tencent Cloud.

快速回复 返回顶部 返回列表