Python数据抓取（2） —简单网络爬虫的撰写

编辑：来源: 时间: 2018-01-29 18:36 阅读: 次大中小

@数据分析-jacky

全称：Document Object Model Tree，它是一组API，可以跟网页的元素进行互动，使用BeautifulSoup就可以把网页变成一个DOM TREE，我们就可以根据DOM TREE的节点进行操作

@数据分析-jacky

上图的举例，最外面结构是html，是最上层的节点，下面一层是body，里面包含h1和a两个链接，这些就组成了DOM TREE的架构，我们就可以根据这个架构下的某些节点进行互动，我们可以取得h1里面的词，也可以取得a里面的词，这时候我们就可以把数据顺利提取出来；

@数据分析-jacky

这里会显示警告信息，警告信息告诉我们这段代码没有使用到我们的剖析器，这时python会预测一个剖析器给我们，如果我们要避免这种警告的产生，我们可以在代码中指明

@数据分析-jacky

如何进一步把上面的文字解开？加上[0],可以去掉中括号，加.text可以把里面的文字取出来

print(header[0].text)

@数据分析-jacky

大数据培训、人工智能培训、Python培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训，就选光环大数据！光环大数据，聘请专业的大数据领域知名讲师，确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术，将前沿技能融入教学中，确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式，指导学生更快的掌握技能知识，成就上万个高薪就业学子。更多问题咨询，欢迎点击------>>>>在线客服！

当前位置

Python数据抓取（2） —简单网络爬虫的撰写

你可能也喜欢这些

在线客服咨询

热点阅读

网友最爱

在线客服咨询