分类 Python 下的文章 - Lan小站-嗯，不错！

2020-02-26

2020年02月26日
774 阅读
0 评论
0 点赞

2020-02-24

Python爬虫：Xpath语法笔记一、选取节点常用的路径表达式：表达式描述实例nodename选取nodename节点的所有子节点xpath(‘//div’)选取了div节点的所有子节点/从根节点选取xpath(‘/div’)从根节点上选取div节点//选取所有的当前节点，不考虑他们的位置xpath(‘//div’)选取所有的div节点.选取当前节点xpath(‘./div’)选取当前节点下的div节点..选取当前节点的父节点xpath(‘..’)回到上一个节点@选取属性xpath（’//@calss’）选取所有的class属性二、谓语谓语被嵌在方括号内，用来查找某个特定的节点或包含某个制定的值的节点实例：表达式结果xpath(‘/body/div[1]’)选取body下的第一个div节点xpath(‘/body/div[last()]’)选取body下最后一个div节点xpath(‘/body/div[last()-1]’)选取body下倒数第二个div节点xpath(‘/body/div[positon()<3]’)选取body下前两个div节点xpath(‘/body/div[@class]’)选取body下带有class属性的div节点xpath(‘/body/div[@class=”main”]’)选取body下class属性为main的div节点xpath(‘/body/div[price>35.00]’)选取body下price元素值大于35的div节点三、通配符Xpath通过通配符来选取未知的XML元素表达式结果xpath（’/div/*’）选取div下的所有子节点xpath(‘/div[@*]’)选取所有带属性的div节点四、取多个路径使用“|”运算符可以选取多个路径表达式结果xpath(‘//div|//table’)选取所有的div和table节点五、Xpath轴轴可以定义相对于当前节点的节点集轴名称表达式描述ancestorxpath(‘./ancestor::*’)选取当前节点的所有先辈节点（父、祖父）ancestor-or-selfxpath(‘./ancestor-or-self::*’)选取当前节点的所有先辈节点以及节点本身attributexpath(‘./attribute::*’)选取当前节点的所有属性childxpath(‘./child::*’)返回当前节点的所有子节点descendantxpath(‘./descendant::*’)返回当前节点的所有后代节点（子节点、孙节点）followingxpath(‘./following::*’)选取文档中当前节点结束标签后的所有节点following-sibingxpath(‘./following-sibing::*’)选取当前节点之后的兄弟节点parentxpath(‘./parent::*’)选取当前节点的父节点precedingxpath(‘./preceding::*’)选取文档中当前节点开始标签前的所有节点 preceding-siblingxpath(‘./preceding-sibling::*’)选取当前节点之前的兄弟节点selfxpath(‘./self::*’)选取当前节点六、功能函数使用功能函数能够更好的进行模糊搜索函数用法解释starts-withxpath(‘//div[starts-with(@id,”ma”)]‘)选取id值以ma开头的div节点containsxpath(‘//div[contains(@id,”ma”)]‘)选取id值包含ma的div节点andxpath(‘//div[contains(@id,”ma”) and contains(@id,”in”)]‘)选取id值包含ma和in的div节点text()xpath(‘//div[contains(text(),”ma”)]‘)选取节点文本包含ma的div节点scrapy xpath文档：http://doc.scrapy.org/en/0.14/topics/selectors.html选取未知节点XPath 通配符可用来选取未知的 XML 元素。通配符描述*匹配任何元素节点。@*匹配任何属性节点。node()匹配任何类型的节点。在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：路径表达式结果/bookstore/*选取 bookstore 元素的所有子元素。//*选取文档中的所有元素。//title[@*]选取所有带有属性的 title 元素。选取若干路径通过在路径表达式中使用"|"运算符，您可以选取若干个路径。在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：路径表达式结果//book/title | //book/price选取 book 元素的所有 title 和 price 元素。//title | //price选取文档中的所有 title 和 price 元素。/bookstore/book/title | //price选取属于 bookstore 元素的 book 元素的所有 title 元素，以及文档中所有的 price 元素。

2020年02月24日
1,120 阅读
0 评论
0 点赞

2020-02-23

python爬虫之xpath的基本使用要先将源码etreehtml = requests.get(=url=headers).text html = etree.HTML(html) html = etree.tostring(html=).decode() html.xpath('/html/body/div/ul/li/a[@href="link2.html"]/text()')或将html.text转换为选择器对象import parsel html = parsel.Selector(html_str) url = html.xpath('//div').extract()

2020年02月23日
890 阅读
0 评论
0 点赞

2020-02-23

python打包指令 pyinstaller -F Main.py表 1 PyInstaller 支持的常用选项-h，--help查看该模块的帮助信息-F，-onefile产生单个的可执行文件-D，--onedir产生一个目录（包含多个文件）作为可执行程序-a，--ascii不包含 Unicode 字符集支持-d，--debug产生 debug 版本的可执行文件-w，--windowed，--noconsolc指定程序运行时不显示命令行窗口（仅对 Windows 有效）-c，--nowindowed，--console指定使用命令行窗口运行程序（仅对 Windows 有效）-o DIR，--out=DIR指定 spec 文件的生成目录。如果没有指定，则默认使用当前目录来生成 spec 文件-p DIR，--path=DIR设置 Python 导入模块的路径（和设置 PYTHONPATH 环境变量的作用相似）。也可使用路径分隔符（Windows 使用分号，Linux 使用冒号）来分隔多个路径-n NAME，--name=NAME指定项目（产生的 spec）名字。如果省略该选项，那么第一个脚本的主文件名将作为 spec 的名字

2020年02月23日
891 阅读
0 评论
0 点赞