去掉html标签,移除html中的元素
如何解决写爬虫IP受阻的问题?立即使用。
本教程运行环境:windows7系统,java10版本10,Dell G3电脑。
公共静态字符串stripHtml(字符串内容){
//p段用换行符代替。
content=content . replace all( p . *?, \ r \ n );
//brbr/替换为换行符。
content=content . replace all( br \ \ s */?, \ r \ n );
//把其他人之间的事情处理掉
content=content.replaceAll(\\。*?, );
//恢复HTML
//content=html decoder . decode(content);
返回内容;
}扩展资料:
replaceAll()方法用给定的参数替换匹配给定正则表达式的字符串的所有子字符串。
语法
公共字符串替换all的参数(string regex,string replacement)
Regex -匹配该字符串的正则表达式。
替换-用于替换每个匹配项的字符串。
返回值
成功返回替换字符串,如果失败,则返回原始字符串。
相关免费学习推荐:java基础教程以上是如何使用java去除html标签的细节。更多请关注我们的其他相关文章!
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。