首页 理论教育Python程序设计实验结果及需求

Python程序设计实验结果及需求

【摘要】:具体操作步骤如下:1.在Windows操作系统的“开始”菜单中选择“Python 3.9\IDLE”命令,启动IDLE。完整代码如下:6.按组合键保存程序文件,将文件名命名为test1.py。代码中只有print( )函数输出的数据才会显示在交互环境中。图1-13IDLE交互环境中程序运行结果8.按组合键,打开Windows运行对话框,如图1-14所示。图1-15在Windows命令提示符窗口执行Python程序1.收获2.需要改进之处

【实验目的】

1.熟悉爬虫的工作流程。

2.掌握数据爬取方式。

【实验内容】

用一个完整的实例完成爬虫的工作流程。选择某大学的学校要闻来爬取,其网址为http://www.wdu.edu.cn/xwzx/xxyw/,如图10-15所示。

图10-15 某大学学校要闻

具体操作步骤如下:

(1)使用requests模块对该网页进行爬取。示例代码如下:

查看源代码可知,该网页编码为gb2312,因此在requests中设置编码为gb2312。爬取结果如图10-16所示。

图10-16 目录页爬取结果

(2)通过目录页获取新闻详情页链接。这里使用10.3节介绍的BeautifulSoup提取链接。示例代码如下:

(www.chuimin.cn)

此处继续用图10-16所示获取的目录页html查找所有class为wbz_title的div块,然后获取其中的链接。将最后的链接进行一些处理后放进list,如图10-17所示。

图10-17 从首页中获取详情页链接

(3)从链接进入详情页,获取详情页中的新闻。示例代码如下:

图10-18所示是从详情页中获取的新闻截图。

图10-18 获取新闻详情页

至此,已经基本完成任务。

【实验总结】

1.收获

2.需要改进之处