Sax解析和编码

我有一个在解析RSS和Atom文件时遇到SAX问题的联系人。根据他的说法，就好像来自Item元素的文本被截断为撇号或有时是重音字符。编码似乎也存在问题。

我已经尝试过SAX了，我也有一些截断，但是还没有进一步挖掘。如果有人在此之前解决了这个问题，我会很感激。

这是在ContentHandler中使用的代码：

public void characters( char[], int start, int end ) throws SAXException { // link = new String(ch, start, end);

编辑：编码问题可能是由于将信息存储在字节数组中，因为我知道Java在Unicode中工作。

不保证characters（）方法在一次传递中为您提供文本元素的完整字符内容 – 全文可能跨越缓冲区边界。您需要在开始和结束元素事件之间自己缓冲字符。

例如

 StringBuilder builder; public void startElement(String uri, String localName, String qName, Attributes atts) { builder = new StringBuilder(); } public void characters(char[] ch, int start, int length) { builder.append(ch,start,length); } public void endElement(String uri, String localName, String qName) { String theFullText = builder.toString(); }

XML实体在SAX中生成特殊事件。您可以使用LexicalHandler捕获它们，但通常没有必要。但这解释了为什么不能假设每个标签只能收到一个字符事件 。使用缓冲区，如其他答案中所述。

例如， hello&world将生成序列

的startElement
你好
startEntity
人物和
endEntity
人物世界

如果您想要更多示例，请查看Auxialiary SAX界面。其他特殊事件是外部实体，评论，CDATA等。

你是如何将输入传递给SAX的？作为InputStream（推荐）还是Reader？因此，从byte []开始，尝试使用ByteArrayInputStream 。

Sax解析和编码

用于阅读RSS和ATOM提要的java库

响应的日期格式

如何使用JAXB设置默认命名空间

Atom：使用罗马链接RSS

2段OAuth和GmailprimefacesFeed