博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
scrapy 的 selector 练习
阅读量:6627 次
发布时间:2019-06-25

本文共 1171 字,大约阅读时间需要 3 分钟。

网页结构

连接:

scrapy shell http://doc.scrapy.org/en/latest/_static/selectors-sample1.html

Play:

注意xapthcss两种方式的区别与联系

# selectorresponse.selector.xpath('//title/text()').extract()response.selector.css('title::text').extract()# response的selector的xpath与css太常用了,所以提供了简捷写法:# 文本一response.xpath('//title/text()').extract()response.css('title::text').extract()# 文本 包括子节点sel.xpath("//a[1]//text()").extract()# 文本 包括子节点sel.xpath("string(//a[1])").extract()# 属性response.xpath('//img/@src').extract()response.css('img::attr(src)').extract()# 混合response.css('img').xpath('@src').extract()response.xpath('//img').css('::attr(src)').extract()# 精确response.xpath('//div[@id="images"]/a/text()').extract()response.css('div[id=images] a::text').extract()# 模糊response.xpath('//div[contains(@id, "image")]/a/text()').extract()response.css('div[id*=image] a::text').extract()# 正则response.xpath('//a[contains(@href, "image")]/text()').re(r'Name:\s*(.*)')本文转自罗兵博客园博客,原文链接:http://www.cnblogs.com/hhh5460/p/5817574.html,如需转载请自行联系原作者
你可能感兴趣的文章
jxl导入Excel 切割List 并使用MyBatis批量插入数据库
查看>>
小程序开发总结
查看>>
Tomcat监听器设计思路
查看>>
管理ORACLE实例
查看>>
Confluence 6 MySQL 数据库设置准备
查看>>
Ruby 中 0/0.0 = NaN
查看>>
局域网访问Apache服务器
查看>>
JavaScript 闭包
查看>>
Spark算子:RDD行动Action操作(3)–aggregate、fold、lookup
查看>>
java获取当前时间前一周、前一月、前一年的时间
查看>>
话说WEB开发之页面重绘和回流
查看>>
using标识使用
查看>>
T264接口说明
查看>>
SELinux介绍
查看>>
visual C++ 用 TextOut 输出单个字符
查看>>
Rsyslog实现Nginx日志统一收集
查看>>
开源数字媒体资产管理系统:Razuna
查看>>
linux文本处理三剑客之grep家族及其相应的正则表达式使用详解
查看>>
Java中的IO操作(一)
查看>>
Python---装饰器
查看>>