代码之家 › 专栏 › 技术社区 › Laird Nelson

为什么XMLEventReader报告包含标记的CHARACTERS事件?

stax xml java

Laird Nelson · 技术社区 · 15 年前

我有一个XMLEventReader。它是用“UTF8”编码从XMLInputFactory构建的。我用它来读取一个XML文件,其“encoding”属性设置为“UTF-8”。

reader.setProperty(XMLEventReader.IS_COALESCING, Boolean.TRUE);

XML文档没有DTD。它是有效的。

XMLEventReader偶尔会报告接收到的CHARACTERS事件的内容是(减去引号),例如:

r problems were most severe and frequent.) Did you sleep a lot more than usual nearly every night during that period?</text>  Ã

为什么XMLEventReader会搞砸解析?为什么字符显示不正确?如果是这样的话,为什么XMLEventReader不合并字符和事件呢?为什么斯塔克斯如此令人难以置信的丑陋和难以捉摸?

我正在Mac上使用Java运行时(Java6)提供的XMLEventReader。

下面是一些示例XML,当然我只是从编辑器中复制了这些XML,所以谁知道这会导致哪些字符转换,但无论如何:

<question id="BMHPD17">
  <permittedResponseCount>1</permittedResponseCount>
  <text>Itâs hard for me to stay out of trouble. (Would you say this is true or false for you?)</text>
  <namedAnswerSet idref="TrueFalse"></namedAnswerSet>
</question>

注意第3行的“智能撇号”。

我是通过对CHARACTERS事件作出反应来阅读本文的,将其内容保存到堆栈上的字符串中,然后对一个名为“question”的END\u元素事件作出反应。在收到question的END_元素事件后,我检索刚才提到的字符串的值,并构造一个Java对象,将刚才提到的字符串作为输入。

当我系统输出打印()结果,我(有时)得到了我之前提到的假垃圾。

当我包起来的时候系统输出在一个带有“UTF8”编码集的PrintWriter中,这样我就不会简单地根据平台的编码输出字符了,我得到了相同的结果。

2 回复 | 直到 15 年前

Laird Nelson 15 年前

这是macosx的JVM上的一个bug。控制台使用的字符编码并不默认为UTF-8,即使默认字符编码的所有其他用法也是如此是 UTF8。

dty 15 年前

推荐文章

user29759326 · 如何返回递归函数中的最后一个值?

1 年前

malife89 · 将java中的字符串读取为正确的日期格式

1 年前

Tim · 在java中,有没有更快的方法将字节数组写入文件?

1 年前

pebble unit · 如何检查以前缀开头、以后缀结尾的属性(不是属性值)

1 年前

Nuñito Calzada · Spring Boot with JWT:访问此资源需要完全身份验证

1 年前

rudraraj · java中未声明最终变量

1 年前

Bala Ji · 以下BFS的实施效率如何?

1 年前

MineRickStar · 如何在Java中从Windows获取当前选定的应用程序

1 年前

user2649681 · 实时生成音频以写入“SourceDataLine”`

1 年前

davidalayachew · 为什么我的文件有竞争条件,即使我使用了StandardOpenOption。同步?

1 年前