当前位置:首页 > 知识库 > 正文内容

火车采集器常用正则表达式(高铁采集器正则表达式)

6个月前 (11-01)知识库532

匹配标题中所有的标点符号

[^\w\s\。\?\!\.\?\!]


匹配所有带&字面字符,[a-z]匹配大小写

&[a-z]+;


匹配手机号码带国际区号的、不带国际区号的、带"-"分隔符的等等

(\+?86)?1[3-9]\d{1,2}-?\d{4}-?\d{4}


匹配国内的座机号码

^((0\d{2,3})-)?(\d{7,8})(-(\d{3,}))?$


匹配400和800电话,不带"-"分隔和带"-"分隔

(400|800)[\-]?\d{3}[\-]?\d{4}


匹配所有域名网址,带http不带http,带https不带https,带www不带www,带ftp不带ftp,带-不带-

\b((http|https|ftp)://)?(www.)?([a-zA-Z0-9]+.)+[a-zA-Z0-9]{2,8}(/\S*)?\b


匹配所有类似于①,⑴,㈠,这样的带圈数字

[\u2460-\u2473\u3251-\u325f\u2474-\u247e]


匹配年,月,日,时,分,秒,

\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2} 


匹配年,月,日

\d{4}-\d{2}-\d{2}


匹配时,分,秒

\d{2}:\d{2}:\d{2}


匹配所有带@的邮箱

\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b


更加强大的匹配邮箱的正则表达式

(?:[a-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+/=?^_`{|}~-]+)*|"(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21\x23-\x5b\x5d-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])*")@(?:(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?|\[(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?|[a-z0-9-]*[a-z0-9]:(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21-\x5a\x53-\x7f]|\\[\x01-\x09\x0b\x0c\x0e-\x7f])+)\])


匹配QQ号码切第一位不能是0

\b[1-9]\d{4,10}\b


匹配微信号,微信号是由字母,下划线,减号,数字组成。这个正则表达式会删除域名网址。

\b[a-zA-Z0-9_-]+\b


匹配中国邮政编码

[0-9]\d{5}(?!\d)


匹配IPv4地址

\d+\.\d+\.\d+\.\d+


匹配IPv6地址

^([0-9a-fA-F]{1,4}:){7}[0-9a-fA-F]{1,4}$

以上的正则表达式同时使用多条的时候可能会出现冲突


匹配<p></p>标签,当p标签大于或等于2时候删除,主要用于删除多余的p标签用于文章排版,表达式中的数字随意修改。

(?:<p><\/p>){2,}


匹配<p>标签中附带的属性,在文章排版时遇到各种p标签附带的属性,如id信息,class信息,style等信息,可以使下面的正则表达式,

<p[^>]*>

使用时需要注意,在替代表达式中填写<p>否则默认是删除。

还有另一种方法使用火车采集器(高铁采集器)的内容替换/排除也可以实现,将排除替换<p(*)><p>也可以。


匹配所有的非字母数字字符和空白字符

[^\w\s]


例如:

1、匹配手机号,电话号,邮政编码,QQ号等,会出现冲突问题;

2、邮箱、域名url,微信号等,会出现冲突问题。


具体的使用方法自行研究。

扫描二维码推送至手机访问。

版权声明:本文由康斯网发布,如需转载请注明出处。

本文链接:https://www.ksnet.vip/knowledge/29.html

“火车采集器常用正则表达式(高铁采集器正则表达式)” 的相关文章

PbootCMS网站优化方法及URL获取技巧

PbootCMS网站优化方法及URL获取技巧

PbootCMS网站优化时或者是某些开发情况下需要输出当前网站的完整Url可以采用以下方法调用,都是比较不错的,可以单个是单独使用也可以组合使用,只要思想不滑坡,办法总比困难多,PbootCMS就是这样的一套程序,目前就是更新的时候会出现新的问题,需要不断学习和完善。在进行PbootCMS网站优化时...

修改百度代码为延迟加载,不影响网站加载速度。

修改百度代码为延迟加载,不影响网站加载速度。

有时候百度网站统计代码会影响我们的网站加载速度,尤其是当服务器或虚拟主机带宽小的情况下更是苦不堪言。所以今天对百度网站统计代码下手了,以下是效果截图。首先创建了一个名为loadBaiduStatistics的函数,该函数用于加载百度统计代码。在函数中,创建了一个新的<script>元素,...

网站图片使用懒加载用于提高网站的访问速度

网站图片使用懒加载用于提高网站的访问速度

代码使用方法也及其简单默认的图片在代码中输出的格式是<img src="" alt="">只需要将代码中的src=""修改为data-src=""即可。使用的时候多尝试,在banner或者是Logo出尽量不要...

如何优化企业网站加载速度和节省CDN流量

如何优化企业网站加载速度和节省CDN流量

随着网站规模和内容的不断增长,许多企业面临着一个共同的问题:网站加载速度慢,同时还需要节省CDN流量以提高用户体验。这种情况下,优化企业网站的加载速度和节省CDN流量成为了一项重要的任务。需要解决服务器原因导致的网站加载慢的问题。为了提高网站的响应速度,考虑使用高性能服务器或者云服务。可以确保网站能...

各大银行的SWIFT/BIC代码

各大银行的SWIFT/BIC代码

SWIFT/BIC代码是由Society for Worldwide Interbank Financial Telecommunication(全球银行间金融电信协会,简称SWIFT)定义的一种标准格式的银行标识符代码(Bank Identifier Codes,简称BIC)。SWIFT代码也被称...