文章导读

PHP：从字符串数组中移除 Unicode 不间断空格 (u00a0)

作者 2025年8月27日 15

本文档旨在指导开发者如何使用 php 从字符串数组中移除 Unicode 不间断空格字符（u00a0）。通过示例代码和详细解释，您将学会如何正确识别并过滤掉这些特殊字符，确保数据清洗的准确性和高效性。

在处理从 html 解析或其他来源获取的字符串数据时，经常会遇到 Unicode 不间断空格字符（u00a0）。这些字符在视觉上与普通空格相似，但其编码不同，导致使用常规的字符串比较方法无法正确识别和移除。以下介绍几种有效的方法来解决这个问题。

理解 Unicode 不间断空格

Unicode 不间断空格（No-break Space, NBSP）的 Unicode 码点是 U+00A0。在 UTF-8 编码中，它通常表示为 C2 A0。了解这一点对于正确处理该字符至关重要。

立即学习“PHP免费学习笔记（深入）”；

解决方案：使用 Unicode 转义序列

PHP 允许使用 Unicode 转义序列来表示 Unicode 字符。通过使用 u{00a0}，可以确保正确地匹配和过滤掉不间断空格。

<?php  $words = ["u{00a0}", "foo", "u{00a0}", "bar"]; $output = [];  foreach ($words as $word) {     if ($word != "u{00a0}") {         $output[] = $word;     } }  var_dump($output); // 输出: array(2) { [0]=> string(3) "foo" [1]=> string(3) "bar" }  ?>

在这个例子中，u{00a0} 确保了与 Unicode 不间断空格的正确比较。

解决方案：使用 chr() 函数

另一种方法是使用 chr(0xC2).chr(0xA0) 来表示 UTF-8 编码的不间断空格。

<?php  $words = [chr(0xC2).chr(0xA0), 'foo', chr(0xC2).chr(0xA0), 'bar']; $output = [];  foreach ($words as $word) {     if ($word != chr(0xC2).chr(0xA0)) {         $output[] = $word;     } }  var_dump($output); // 输出: array(2) { [0]=> string(3) "foo" [1]=> string(3) "bar" }  ?>

在实际应用中的示例

以下是修改后的 getContent() 函数，使用 u{00a0} 来过滤不间断空格：

function getContent($xPath) {     $query = "//div[@class='WordSection1']";     $elements = $xPath->query($query);      if (!is_null($elements)) {         $content = array();         foreach ($elements as $element){             $nodes = $element->childNodes;             foreach ($nodes as $node) {                 if ($node->nodeValue != "u{00a0}") {                     $content[] = $node->nodeValue;                 }             }         }         return $content;     } }

注意事项

确保你的 PHP 文件使用 UTF-8 编码，以避免字符编码问题。
在比较字符串之前，可以考虑使用 trim() 函数去除字符串两端的空格，包括普通空格和不间断空格。
如果数据源可能包含其他类型的空格或空白字符，可以考虑使用正则表达式进行更复杂的清洗。

总结

处理 Unicode 不间断空格需要特别的注意，因为它们与普通空格在编码上有所不同。通过使用 Unicode 转义序列（u{00a0}）或 chr() 函数，可以有效地识别并移除这些字符。在实际应用中，根据数据源的特点选择合适的方法，并注意字符编码问题，可以确保数据清洗的准确性和可靠性。

以上就是PHP：从

评论（已关闭）

评论已关闭

Hello! 欢迎来到悠悠畅享网！

PHP：从字符串数组中移除 Unicode 不间断空格 (u00a0)

评论（已关闭）