用 preg_match('/<[\w]1*>/i', $item) 可快速识别含 HTML 标签的数组元素,需先 is_string() 过滤非字符串项,并配合 array_filter 批量筛选,注意处理 < 实体编码及避免跨标签误匹配。> ↩

如何用 preg_match 快速识别含 HTML 标签的数组元素
PHP 数组里混入带 HTML 标签的字符串很常见,比如从富文本编辑器或 CMS 导出的数据。直接用 strip_tags() 会删内容,而筛选需求是「只留下有标签的项」——这时别想复杂,正则最直接。
核心逻辑:匹配任意成对或自闭合的 HTML 标签(如 <div>、<br/>、<p class="x">),只要字符串中出现一次就算命中。
preg_match('/<[a-zA-Z][^>]*>/i', $item)是轻量可靠的判断式,比全量解析快得多,且不依赖 DOM 扩展- 注意不要用
/<.*?>/s—— 它会跨行误匹配注释或 JS 字符串里的<,导致假阳性 - 如果数组元素可能为空或为非字符串(如
null、int),先用is_string($item)过滤,避免警告
用 array_filter + 匿名函数批量筛选
一次性处理整个数组,推荐用 array_filter 配合内联判断,代码干净且可读性强。
$htmlItems = array_filter($data, function($item) {
return is_string($item) && preg_match('/<[a-zA-Z][^>]*>/i', $item);
});
几个关键点:
- 返回的是新数组,键名保留原样(若需重索引,外层套
array_values()) - 不建议在回调里用
htmlspecialchars()或strip_tags()做预处理——它们会改变原始内容,干扰标签检测 - 若要排除 XML 命名空间标签(如
<svg:rect>),正则可加强为'/<(?![?!\/])[a-zA-Z][^>]*>/i'
遇到 < 实体编码怎么办?
有些数据里 HTML 标签被转义成 <div>,此时 preg_match 默认无法识别。不能盲目 html_entity_decode(),因为可能把本意就是显示符号的 < 错解成标签。
- 先检查是否真为实体编码:
strpos($item, '<') !== false - 仅当确认是「本该是 HTML 但被错误转义」时,才做解码:
html_entity_decode($item, ENT_NOQUOTES, 'UTF-8') - 解码后立即再进正则检测,避免污染原始数组
- 更稳妥的做法是统一清洗流程:入库前就约定好编码规则,而不是在筛选时补救
性能敏感场景下避免重复正则编译
如果这个筛选逻辑高频调用(比如在循环中处理上千条记录),每次 preg_match 都会重新编译正则,开销可测。
- 把正则模式提取为常量:
define('HTML_TAG_PATTERN', '/<[a-zA-Z][^>]*>/i'); - 或使用 PCRE JIT 编译(PHP 7.2+):
preg_match(HTML_TAG_PATTERN, $item)会被自动优化 - 极端情况可改用
strpbrk($item, '<')快速初筛,再对含<的项做正则精判——但要注意<可能出现在 JS/CDATA 中,需二次验证
真正麻烦的不是怎么写,而是数据来源是否可信:用户输入、第三方 API、旧系统导出……每种场景下「什么是合法 HTML 标签」的定义都不同,得按实际边界来调正则,而不是套一个万能表达式。