python流程管理,Python程序开发流程
1.[代码][Python]代码
#author:lenglingx@gmail.com
#日期:2014年12月8日
#编码:utf-8
导入操作系统
导入系统
进口是
导入urllib.request
导入urllib.parse
从html.parser导入解析器
类MyHTMLParser(HTMLParser):
网页解析生成一个解析器的类,然后利用这个类,
把给定的一个网址中所需要的地址解析并保存在该类中,
然后利用该类的的地址,下载图片。
def __init__(self):
HTMLParser .__init__(self)
self.links=[]
及格
def handle_starttag(self,tag,attrs):
#打印(遇到开始标记:,标记)
if tag==img :
s=[]
对于属性中的(变量,值):
s。追加(值)
#print(ss:,s)
自我。链接。附加
s=[]
及格
def handle_endtag(self,tag):
#打印(遇到了结束标记:,标记)
及格
def handle_data(self,data):
#打印(遇到一些数据:,数据)
及格
定义geturl(url):
打开给定的网页,并返回网页的内容,
python3中来来是以字节码形式返回的,
可以根据网页编码判定编码为gb2312,是商业版的子集,
以字符串形式返回。
req=urllib.request.urlopen(url)
req=req.read()
return req.decode(gbk )
def continsrc(src):
根据网页的内容,找到我们所需要的内容,
这里主要是有两个需要关注的内容,一个是画标签,另一个是博通资讯标签。
inta=src.find(
)#打印(inta)所找的第一个位置点
intb=src.find(
)#打印(intb)所找的第二个位置点
content=src[inta:intb]
返回内容
定义页面网址(url):
这个是把上面的许多功能放在一个函数库里,方便操作。
作用是给定一个url,自动去解析地址,并自动下载保存图片。
src=geturl(url)
content=continsrc(src)
parser=MyHTMLParser()
parser.feed(内容)
parser.close()
alinks=parser.links
对于范围内的我(len(alinks)):
打印(文件名:,alinks[i][0],文件url:“,alinks[i][1])
URL库。请求。URL检索(alinks[I][1],alinks[i][0]).jpg’)
打印(好!)
if __name__==__main__ :
打印(-)
# URL= http://www。美姿图。com/a/4647。 html
URL= http://www。美姿图。com/a/4674。 html
src=geturl(url)
content=continsrc(src)
打印(内容)
parser=MyHTMLParser()
parser.feed(内容)
parser.close()
打印(-)
打印(parser.links)
a=解析器。链接
b=len(a)
打印(镜头(一))
对于范围(二)中的我:
打印(文件名:,a[i][0],文件url:“,a[i][1])
URL库。请求。URL retrieve(a[I][1],a[i][0]).jpg’)
打印(==============================)
pageinurl( http://www。美姿图。com/a/4647。html’)
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。