首页 > 网络编程 > PHP编程 > php技巧 > PHP HTML标签过滤

PHP中HTML标签过滤的5种有效方法

2025-10-13 08:50:04 作者：lskblog

在Web开发中,跨站脚本攻击（XSS）是最常见的安全威胁之一,本文将详细介绍PHP中5种有效的HTML标签过滤方法,帮助开发者构建更安全的Web应用,需要的朋友可以参考下

什么是XSS攻击？

XSS（Cross-Site Scripting）攻击是指攻击者在网页中插入恶意脚本，当其他用户浏览该页面时，恶意脚本会被执行，从而盗取用户信息、会话令牌或进行其他恶意操作。

方法一：htmlspecialchars() - 最常用的转义方法

htmlspecialchars() 是PHP中最基本的XSS防护函数，它将特殊字符转换为HTML实体：

<?php
$input = '<script>alert("XSS攻击")</script><p>正常内容</p>';
$safe_output = htmlspecialchars($input, ENT_QUOTES, 'UTF-8');
echo $safe_output;
// 输出：&lt;script&gt;alert(&quot;XSS攻击&quot;)&lt;/script&gt;&lt;p&gt;正常内容&lt;/p&gt;

参数详解：

ENT_QUOTES：转换双引号和单引号
UTF-8：指定字符编码，防止编码绕过攻击

适用场景： 纯文本输出，不需要保留任何HTML格式

方法二：strip_tags() - 彻底移除HTML标签

如果你确定不需要任何HTML标签，使用strip_tags()可以彻底移除它们：

<?php
$input = '<script>alert("XSS")</script><p>正文内容</p><b>加粗文本</b>';
$safe_output = strip_tags($input);
echo $safe_output;
// 输出：alert("XSS")正文内容加粗文本

选择性保留标签：

<?php
$input = '<script>alert("XSS")</script><p>正文</p><b>加粗</b><i>斜体</i>';
$safe_output = strip_tags($input, '<p><b>'); // 只保留<p>和<b>标签
echo $safe_output;
// 输出：<p>正文</p><b>加粗</b>斜体

优点： 简单直接，性能好
缺点： 无法过滤标签内的属性

方法三：filter_var() - 使用PHP过滤器扩展

PHP过滤器扩展提供了更规范的过滤方式：

<?php
$input = '<script>alert("XSS")</script><p>正常内容</p>';
$safe_output = filter_var($input, FILTER_SANITIZE_STRING);
echo $safe_output;
// 输出：alert("XSS")正常内容

// 专门用于过滤HTML
$html_output = filter_var($input, FILTER_SANITIZE_FULL_SPECIAL_CHARS);

方法四：HTMLPurifier - 企业级解决方案

对于需要保留安全HTML内容的场景，HTMLPurifier是最佳选择：

安装方法：

composer require ezyang/htmlpurifier

使用示例：

<?php
require_once 'vendor/autoload.php';

$config = HTMLPurifier_Config::createDefault();
// 自定义配置
$config->set('HTML.Allowed', 'p,br,strong,em,ul,ol,li,a[href]');
$config->set('AutoFormat.RemoveEmpty', true);

$purifier = new HTMLPurifier($config);

$input = '<script>alert("XSS")</script><p class="test">安全内容</p><a href="http://example.com" rel="external nofollow"  rel="external nofollow" >链接</a>';
$safe_output = $purifier->purify($input);
echo $safe_output;
// 输出：<p>安全内容</p><a href="http://example.com" rel="external nofollow"  rel="external nofollow" >链接</a>

优势：

遵循HTML标准
支持细粒度配置
能过滤危险的标签属性
社区活跃，持续更新

方法五：自定义过滤函数

针对特定需求，可以创建自定义过滤函数：

<?php
function advanced_xss_clean($data) {
    if (empty($data)) return '';
    
    // 递归处理数组
    if (is_array($data)) {
        return array_map('advanced_xss_clean', $data);
    }
    
    // 移除NULL字节
    $data = str_replace(chr(0), '', $data);
    
    // 转换特殊字符
    $data = htmlspecialchars($data, ENT_QUOTES | ENT_HTML5, 'UTF-8', true);
    
    // 移除危险的JavaScript模式
    $patterns = [
        '/javascript:/i',
        '/vbscript:/i',
        '/on\w+\s*=/i',    // 移除onclick等事件属性
        '/expression\s*\(/i' // 移除CSS表达式
    ];
    
    foreach ($patterns as $pattern) {
        $data = preg_replace($pattern, '', $data);
    }
    
    return $data;
}

// 使用示例
$input = '<img src="javascript:alert(1)" onclick="malicious()">';
echo advanced_xss_clean($input);
?>

实战：根据不同场景选择防护策略

场景1：用户评论（允许有限HTML）

<?php
function filter_comment($content) {
    $allowed_tags = '<p><br><strong><em><ul><ol><li><a>';
    $content = strip_tags($content, $allowed_tags);
    
    // 进一步使用HTMLPurifier进行严格过滤
    require_once 'HTMLPurifier.auto.php';
    $purifier = new HTMLPurifier();
    return $purifier->purify($content);
}
?>

场景2：显示用户名（纯文本）

<?php
function filter_username($username) {
    return htmlspecialchars(trim($username), ENT_QUOTES, 'UTF-8');
}
?>

场景3：URL参数

<?php
function filter_url($url) {
    $url = filter_var($url, FILTER_SANITIZE_URL);
    if (filter_var($url, FILTER_VALIDATE_URL)) {
        return htmlspecialchars($url, ENT_QUOTES, 'UTF-8');
    }
    return '';
}
?>

完整的安全防护示例

<?php
class SecurityHelper {
    
    public static function xss_clean($data, $context = 'text') {
        if (empty($data)) return $data;
        
        if (is_array($data)) {
            return array_map([self::class, 'xss_clean'], $data);
        }
        
        switch ($context) {
            case 'html':
                // 使用HTMLPurifier处理富文本
                return self::purify_html($data);
                
            case 'attribute':
                // 用于HTML属性
                return self::escape_attribute($data);
                
            case 'text':
            default:
                // 纯文本转义
                return htmlspecialchars($data, ENT_QUOTES, 'UTF-8');
        }
    }
    
    private static function purify_html($html) {
        require_once 'HTMLPurifier.auto.php';
        $config = HTMLPurifier_Config::createDefault();
        $config->set('HTML.Allowed', 'p,br,strong,em,ul,ol,li,a[href|title]');
        $purifier = new HTMLPurifier($config);
        return $purifier->purify($html);
    }
    
    private static function escape_attribute($data) {
        return htmlspecialchars($data, ENT_QUOTES, 'UTF-8', false);
    }
}

// 使用示例
$user_input = [
    'username' => '<script>alert("xss")</script>',
    'comment' => '<p>正常评论</p><script>恶意代码</script>',
    'website' => 'javascript:alert(1)'
];

$cleaned_data = SecurityHelper::xss_clean($user_input);
print_r($cleaned_data);
?>

防御深度建议

输入验证：在接收数据时进行严格验证
输出转义：根据输出上下文进行适当的转义
内容安全策略(CSP)：设置HTTP头

header("Content-Security-Policy: default-src 'self'");

HttpOnly Cookie：防止Cookie被JavaScript读取
框架安全特性：优先使用框架提供的安全方法

总结

XSS防护是一个多层次的过程，需要根据具体场景选择合适的过滤策略：

纯文本输出：使用 htmlspecialchars()
完全移除HTML：使用 strip_tags()
保留安全HTML：使用 HTMLPurifier
企业级应用：结合多种方法，建立完整防护体系

记住：永远不要信任用户输入，在显示任何用户提供的数据之前，都要进行适当的过滤和转义。

到此这篇关于PHP中HTML标签过滤的5种有效方法的文章就介绍到这了,更多相关PHP HTML标签过滤内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！