用PHP读取和编写XML DOM

网络整理 - 08-16

有许多技术可用于用PHP读取和编写XML。本文提供了三种方法读取XML：使用DOM库、使用SAX解析器和使用正则表达式。还介绍了使用DOM和PHP文本模板编写XML。

用PHP读取和编写可扩展标记语言（XML）看起来可能有点恐怖。实际上，XML和它的所有相关技术可能是恐怖的，但是用PHP读取和编写XML不一定是项恐怖的任务。首先，需要学习一点关于XML的知识——它是什么，用它做什么。然后，需要学习如何用PHP读取和编写XML，而有许多种方式可以做这件事。

本文提供了XML的简短入门，然后解释如何用PHP读取和编写XML。

什么是XML？

XML是一种数据存储格式。它没有定义保存什么数据，也没有定义数据的格式。XML只是定义了标记和这些标记的属性。格式良好的XML标记看起来像这样：

＜name＞JackHerrington＜/name＞

这个＜name＞标记包含一些文本：JackHerrington。

不包含文本的XML标记看起来像这样：

＜powerUp/＞

用XML对某件事进行编写的方式不止一种。例如，这个标记形成的输出与前一个标记相同：

＜powerUp＞＜/powerUp＞

也可以向XML标记添加属性。例如，这个＜name＞标记包含first和last属性：

＜namefirst="Jack"last="Herrington"/＞

也可以用XML对特殊字符进行编码。例如，&符号可以像这样编码：

包含标记和属性的XML文件如果像示例一样格式化，就是格式良好的，这意味着标记是对称的，字符的编码正确。清单1是一份格式良好的XML的示例。

清单1.XML图书列表示例

＜books＞＜book＞＜author＞JackHerrington＜/author＞＜title＞PHPHacks＜/title＞＜publisher＞O'Reilly＜/publisher＞＜/book＞＜book＞＜author＞JackHerrington＜/author＞＜title＞PodcastingHacks＜/title＞＜publisher＞O'Reilly＜/publisher＞＜/book＞＜/books＞
清单1中的XML包含一个图书列表。父标记＜books＞包含一组＜book＞标记，每个＜book＞标记又包含＜author＞、＜title＞和＜publisher＞标记。

当XML文档的标记结构和内容得到外部模式文件的验证后，XML文档就是正确的。模式文件可以用不同的格式指定。对于本文来说，所需要的只是格式良好的XML。

如果觉得XML看起来很像超文本标记语言（HTML），那么就对了。XML和HTML都是基于标记的语言，它们有许多相似之处。但是，要着重指出的是：虽然XML文档可能是格式良好的HTML，但不是所有的HTML文档都是格式良好的XML。换行标记（br）是XML和HTML之间区别的一个好例子。这个换行标记是格式良好的HTML，但不是格式良好的XML：

＜p＞Thisisaparagraph＜br＞
Withalinebreak＜/p＞

这个换行标记是格式良好的XML和HTML：

＜p＞Thisisaparagraph＜br/＞
Withalinebreak＜/p＞

如果要把HTML编写成同样是格式良好的XML，请遵循W3C委员会的可扩展超文本标记语言（XHTML）标准（参见参考资料）。所有现代的浏览器都能呈现XHTML。而且，还可以用XML工具读取XHTML并找出文档中的数据，这比解析HTML容易得多。

使用DOM库读取XML

读取格式良好的XML文件最容易的方式是使用编译成某些PHP安装的文档对象模型（DOM）库。DOM库把整个XML文档读入内存，并用节点树表示它，如图1所示。

图1.图书XML的XMLDOM树

树顶部的books节点有两个book子标记。在每本书中，有author、publisher和title几个节点。author、publisher和title节点分别有包含文本的文本子节点。

读取图书XML文件并用DOM显示内容的代码如清单2所示。

清单2.用DOM读取图书XML

＜?php$doc=newDOMDocument();$doc-＞load('books.xml');$books=$doc-＞getElementsByTagName("book");foreach($booksas$book){$authors=$book-＞getElementsByTagName("author");$author=$authors-＞item(0)-＞nodeValue;$publishers=$book-＞getElementsByTagName("publisher");$publisher=$publishers-＞item(0)-＞nodeValue;$titles=$book-＞getElementsByTagName("title");$title=$titles-＞item(0)-＞nodeValue;echo"$title-$author-$publisher\n";}?＞
脚本首先创建一个newDOMdocument对象，用load方法把图书XML装入这个对象。之后，脚本用getElementsByName方法得到指定名称下的所有元素的列表。

在book节点的循环中，脚本用getElementsByName方法获得author、publisher和title标记的nodeValue。nodeValue是节点中的文本。脚本然后显示这些值。

可以在命令行上像这样运行PHP脚本：

%phpe1.php
PHPHacks-JackHerrington-O'Reilly
PodcastingHacks-JackHerrington-O'Reilly
%

可以看到，每个图书块输出一行。这是一个良好的开始。但是，如果不能访问XMLDOM库该怎么办？

用SAX解析器读取XML

读取XML的另一种方法是使用XMLSimpleAPI（SAX）解析器。PHP的大多数安装都包含SAX解析器。SAX解析器运行在回调模型上。每次打开或关闭一个标记时，或者每次解析器看到文本时，就用节点或文本的信息回调用户定义的函数。