|
把数据转换成XML格式的好处 (1) 我们常常会碰到需要处理以各种格式(从以逗号或者制表符做分隔符的文件到更负载的格式)保存或者传输的数据的情况,对每一种格式你都需要对应的解析器(parser)。这一缺点减缓了开发进度,而且可能会导致错误的发生。一个解决方案就是把常用格式的数据转化成XML文档,然后对它进行保存、处理或者转换成其它格式。
一个实例
现在已经有好多种实现在软件内部或者软件之间进行数据保存、导出、导入以及传输功能的数据格式。最常见的是定界格式(delimited format),如逗号或者制表符分隔数据格式以及定长数据格式。假设我们有一个地址簿程序,该程序提供把数据导出成逗号分隔以及固定长度这两种格式的功能。
在逗号分隔格式中,用逗号来分隔同一个数据记录中的不同字段,如20030717sge01.htm&index=1" target=_target>清单A所示。而在固定长度数据格式中,记录的每一个字段都应该有一个标准长度。清单B给出了一个固定长度格式的地址簿。
创建XML文档
现在,让我们解析输入数据并把它转换成XML文档。XML文档(即Java.sun.com/j2se/1.4.1/doCS/api/org/w3c/dom/class-use/Document.html" target=_target>org.w3c.dom.Document)是全部文档对象模型(DOM)的原始数据类型,并且它提供了对文档数据的访问。
你可以用执行buildDocument(InputStream is)方法来创建与你的数据对应的文档,如代码清单C所示。该方法逐行读取输入数据流,并根据给定格进行来逐行分析。
如果你想解析分界格式数据,你需要创建构造函数为PlainTextToXmlFormatter(String[ ] colName,String delim)的类的实例,其分界符可以是任何字符串。在固定长度格式的情况下,你应该使用第二种构造函数PlainTextToXmlFormatter(String[ ] colName,int[ ] colLen),它的一个参数为字段长度数组。在我们所给的地址簿例子中,各字段的长度分别为10、10、30以及10个字符。参数colName是保存了目标数据记录的名字的数组,在我们给出的这个例子中,名字分别为名(firstName)、姓(lastName)、email以及电话号码(phone)。
把数据行转换为数据符号的实际解析过程也就是执行getStringArray(String read,String delim)或者parseFixedLengthMessage(String read,int[ ] colLen)方法的过程。其返回值是一个String型数组,这个数组是上述两个方法把给定输入进行分解而得来的。如果数据格式不对,就会抛出一个例外并且终止解析过错。调用setSkipError(true)方法就可以忽略例外并完成数据解析过程。调用这个方法可以防止抛出例外,但它仍允许程序向错误输出流打印错误信息。
|