Sax解析和编码

我有一个在解析RSS和Atom文件时遇到SAX问题的联系人。 根据他的说法,就好像来自Item元素的文本被截断为撇号或有时是重音字符。 编码似乎也存在问题。

我已经尝试过SAX了,我也有一些截断,但是还没有进一步挖掘。 如果有人在此之前解决了这个问题,我会很感激。

这是在ContentHandler中使用的代码:

public void characters( char[], int start, int end ) throws SAXException { // link = new String(ch, start, end); 

编辑:编码问题可能是由于将信息存储在字节数组中,因为我知道Java在Unicode中工作。

不保证characters()方法在一次传递中为您提供文本元素的完整字符内容 – 全文可能跨越缓冲区边界。 您需要在开始和结束元素事件之间自己缓冲字符。

例如

 StringBuilder builder; public void startElement(String uri, String localName, String qName, Attributes atts) { builder = new StringBuilder(); } public void characters(char[] ch, int start, int length) { builder.append(ch,start,length); } public void endElement(String uri, String localName, String qName) { String theFullText = builder.toString(); } 

XML实体在SAX中生成特殊事件。 您可以使用LexicalHandler捕获它们,但通常没有必要。 但这解释了为什么不能假设每个标签只能收到一个字符事件 。 使用缓冲区,如其他答案中所述。

例如, hello&world将生成序列

  • 的startElement
  • 你好
  • startEntity
  • 人物和
  • endEntity
  • 人物世界

如果您想要更多示例,请查看Auxialiary SAX界面 。 其他特殊事件是外部实体,评论,CDATA等。

你是如何将输入传递给SAX的? 作为InputStream(推荐)还是Reader? 因此,从byte []开始,尝试使用ByteArrayInputStream 。