用Python爬取百度搜索结果

来源：千锋教育

发布人：xqq

时间： 2023-11-08 22:16:04

一、前言

众所周知，百度上直接搜索关键字会出来一大堆东西，时常还会伴随有广告出现，不小心就点进去了，还得花时间退出来，有些费劲。

最近群里有个小伙伴提出一个需求，需要获取百度上关于粮食的相关讲话文章标题和链接。正好小编最近在学习爬虫，就想着拿这个需求来练练手。我们都知道，对Python来说，有大量可用的库，实现起来并不难，动手吧。

二、项目目标

爬取百度上关键字为“粮食”的搜索结果，并保存，提交给客户，用于进一步分析我国粮食政策。

三、项目准备

软件：PyCharm

需要的库：json，requests，etree

四、项目分析

1)如何进行关键词搜索?

利用response库，直接Get网址获得搜索结果。

2)如何获取标题和链接?

利用etree对原代码进行规范梳理后，通过Xpath定位到文章标题和href，获取标题和文章链接。

3)如何保存搜索结果?

新建txt文件，对搜索结果循环写入，保存即可。

五、项目实现

1、第一步导入需要的库

importjson

importrequests

fromlxmlimportetree

2、第二步用requests进行请求搜索

headers={

"User-Agent":"Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/88.0.4324.104Safari/537.36"

}

response=requests.get('https://www.baidu.com/s?wd=粮食&lm=1',headers=headers)

3、第三步对获取的源代码进行整理分析，通过Xpath定位需要的资源

r=response.text

html=etree.HTML(r,etree.HTMLParser())

r1=html.xpath('//h3')

r2=html.xpath('//*[@class="c-abstract"]')

r3=html.xpath('//*[@class="t"]/a/@href')

4、第四步把有用资源循环读取保存

foriinrange(10):

r11=r1[i].xpath('string(.)')

r22=r2[i].xpath('string(.)')

r33=r3[i]

withopen('ok.txt','a',encoding='utf-8')asc:

c.write(json.dumps(r11,ensure_ascii=False)+'\n')

c.write(json.dumps(r22,ensure_ascii=False)+'\n')

c.write(json.dumps(r33,ensure_ascii=False)+'\n')

print(r11,end='\n')

print('------------------------')

print(r22,end='\n')

print(r33)

以上内容为大家介绍了用Python爬取百度搜索结果，希望对大家有所帮助，如果想要了解更多Python相关知识，请关注 IT培训机构:千锋教育。http://www.mobiletrain.org/

声明：本站稿件版权均属千锋教育所有，未经许可不得擅自转载。

Python 中 Logging 模块使用详情

对数组使用Python For循环

猜你喜欢LIKE

陆神

原去哪儿网高级架构师

北京大学计算机系毕业

HTML5学科教研总监

千锋威哥

OCP认证专家

15年以上开发经验

Java学科首席技术官

宋宋

原阿里后端架构师

北京邮电大学硕士

Python学科首席技术官

卢老师

北京大学博士后

北京科技大学博士

人工智能学科总监

索尔

原阿里后端架构师

浙工大计算机系毕业

Java学科高级讲师

jackfrued

曾任职华为成都研究所

计算机应用技术博士

Python学科教学主管

快速通道 更多>>

课程介绍
点击获取大纲
就业前景
查看就业薪资
学习费用
了解课程价格
优惠活动
领取优惠券
学习资源
领3000G教程
师资团队
了解师资团队
实战项目
获取项目源码
开班地区
查看来校路线

网友热搜更多>>

IT行业年龄有限制吗女生学IT Java薪资待遇零基础Web培训 Python就业如何学UI设计大数据学习路线 java培训学费软件测试培训转行学Linux 网络安全基础知识网络营销培训 unity培训 30岁还能学it吗大数据技术学什么 python培训费