Linux-LVM
参考文献
如何扩大ubuntu的ubuntu–vg-ubuntu–lv空间
解决 Linux /dev/mapper/ubuntu–vg-ubuntu–lv 磁盘空间不足的问题
LVM——让Linux磁盘空间的弹性管理
LVM
LVM(Logical Volume Manager)逻辑卷管理是在Linux2.4内核以上实现的磁盘管理技术
相关名词解释
Physical Volume(PV)
物理卷,将实际的磁盘分区(partition)系统识别码(system ID)修改为8e后,在通过pvcreate指令转化为LVM最底层的物理卷,作为后续空间管理的基础.
Volume Group(VG)
卷组,将数个PV进行整合,即形成了VG,在32位的操作系统中,LV的大小与PE的大小有关;在64位的操作系统中,LV几乎没有容量限制.
Physical Extent(PE)
物理区块,他是LVM中的最小存储单元.PE类似于文件系统中的block.
Logical Volume(LV)
逻辑卷,由VG划分而来,LV的大小与PE的大小及PE的数量有关,Size(LV)= Cou ...
Python-Selenium
参考文献
Selenium
基本用法
初始化浏览器对象
访问页面
查找节点
查找单个节点
查找多个节点
节点交互
动作链
获取节点信息
获取属性
获取文本值
获取ID,位置,标签名和大小
切换Frame
延时等待
隐式等待
显示等待
前进和后退
选项卡管理
异常处理
反屏蔽
无头模式
Python-XPath
参考文献
Python3网络爬虫开发实战第二版
XPath 菜鸟教程
XPath
术语
在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点.XML 文档是被作为节点树来对待的.树的根被称为文档节点或者根节点.
轴(Axes)
轴可定义相对于当前节点的节点集.
轴名称
结果
ancestor
选取当前节点的所有先辈(父、祖父等)
ancestor-or-self
选取当前节点的所有先辈(父、祖父等)以及当前节点本身.
attribute
选取当前节点的所有属性.
child
选取当前节点的所有子元素.
descendant
选取当前节点的所有后代元素(子、孙等)
descendant-or-self
选取当前节点的所有后代元素(子、孙等)以及当前节点本身.
following
选取文档中当前节点的结束标签之后的所有节点.
following-sibling
选取当前节点之后的所有兄弟节点
namespace
选取当前节点的所有命名空间节点.
parent
选取当前节点的父节点.
...
知识点-交换机
参考文献
聊聊什么是“以太网交换机”?
交换机定义
**交换机(Switch)意为“开关”,是一种用于电(光)信号转发的网络设备.**它可以为接入交换机的任意两个网络节点提供独享的电信号通路.从广义上来分析,在通信系统里对于信息交换功能实现的设备,就是交换机.最常见的交换机是以太网交换机.其他常见的还有电话语音交换机、光纤交换机等.
**交换式集线器又称为以太网交换机、二层交换机(表明此交换机工作在数据链路层),或直接简称为交换机.**交换是按照通信两端传输信息的需要,用人工或设备自动完成的方法,把要传输的信息送到符合要求的相应路由上的技术的统称
交换机分类
按照OSI划分
二层交换机:基于MAC地址工作的第二层交换机最为普遍,用于网络接入层和汇聚层.
三层交换机:基于P地址和协议进行交换的第三层交换机应用于网络的核心层,也少量应用于汇聚层.部分第三层交换机也同时具有第四层交换功能,可以根据数据帧的协议端口信息进行目标端口判断.
四层交换机:它是一种功能,它决定传输不仅仅依据MAC地址(第二层网桥)或源/目标P地址(第三层路由),而且依据TCP/UDP(第四层)应用端口号.第 ...
Python-爬虫
参考文献
爬虫
爬虫实际上是用浏览器访问的方式模拟了访问网站的过程,整个过程包括三个阶段:打开网页、提取数据和保存数据
在 Python 中,这三个阶段都有对应的工具可以使用。
在“打开网页”这一步骤中,可以使用 Requests 访问页面,得到服务器返回给我们的数据,这里包括 HTML 页面以及 JSON 数据。
在“提取数据”这一步骤中,主要用到了两个工具。针对 HTML 页面,可以使用 XPath 进行元素定位,提取数据;针对 JSON 数据,可以使用 JSON 进行解析。
在最后一步“保存数据”中,我们可以使用 Pandas 保存数据,最后导出 CSV 文件。
Requests访问页面
Requests 是 Python HTTP 的客户端库,编写爬虫的时候都会用到,编写起来也很简单。它有两种访问方式:Get 和 Post。这两者最直观的区别就是:Get 把参数包含在 url 中,而 Post 通过 request body 来传递参数.
123r = requests.get('http://www.douban.com') ...
Python-pandas
参考文献
像Excel一样使用python进行数据分析
pandas
Series
Series 是个定长的字典序列.说是定长是因为在存储的时候,相当于两个 ndarray,这也是和字典结构最大的不同.因为在字典的结构里,元素的个数是不固定的.
Series有两个基本属性:index 和 values.在 Series 结构中,index 默认是 0,1,2,……递增的整数序列,当然也可以自己来指定索引,比如 index=[‘a’, ‘b’, ‘c’, ‘d’].
123456789101112import pandas as pdfrom pandas import Series, DataFramex1 = Series([1, 2, 3, 4])x2 = Series(data=[1, 2, 3, 4], index=['a', 'b', 'c', 'd'])print(x1)print(x2)# 采用字典形式创建Seriesd = {'a': 1, ' ...
Python-数据分析
参考文献
极客时间 数据分析实战45讲 陈旸
数据分析
数据分析分成三个重要的组成部分
数据采集
数据挖掘
数据可视化
数据挖掘
数据挖掘的过程
商业理解: 数据挖掘不是我们的目的,我们的目的是更好地帮助业务,所以第一步我们要从商业的角度理解项目需求,在这个基础上,再对数据挖掘的目标进行定义.
数据理解: 尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证等.这有助于你对收集的数据有个初步的认知.
数据准备: 开始收集数据,并对数据进行清洗、数据集成等操作,完成数据挖掘前的准备工作.
模型建立: 选择和应用各种数据挖掘模型,并进行优化,以便得到更好的分类结果.
模型评估: 对模型进行评价,并检查构建模型的每个步骤,确认模型是否实现了预定的商业目标.
上线发布: 模型的作用是从数据中找到金矿,也就是我们所说的“知识”,获得的知识需要转化成用户可以使用的方式,呈现的形式可以是一份报告,也可以是实现一个比较复杂的、可重复的数据挖掘过程.数据挖掘结果如果是日常运营的一部分,那么后续的监控和维护就会变得重要.
数据挖掘的十大算法
分类算法: C4.5,朴素贝叶斯 ...