2

Я пытаюсь использовать документ XML, но сталкиваюсь с этой ошибкой:

Invalid byte 3 of 3-byte UTF-8 sequence

Мой документ выглядит примерно так ниже, но с большим количеством тегов и контента. Пожалуйста , не сосредотачивайтесь на документе ниже, хотя. Я использую несколько документов с этим форматом. Я считаю, что это символ в моем документе, который является недействительным, но я просто не знаю, как найти его, потому что он очень большой.

Любые идеи или инструменты, которые я мог бы использовать? Благодарю.

Спасибо!

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE map PUBLIC "-//OASIS//DTD DITA Map//EN" "file:C:/Documentum/Viewed/map.dtd">
<map xmlns:dctm="http://www.documentum.com" dctm:obj_status="Read-Only" dctm:obj_id="09002af8800af696" dctm:version_label="CURRENT" xmlns:ditaarch="http://dita.oasis-open.org/architecture/2005/">
    <title>Overview of the Commercial General Liability (CGL) Insurance Coverages  </title><moreTagsHere><!-- more tags here... --></moreTagsHere>
</map>

6 ответов6

1

В моем xml-файле была неправильная вьющаяся цитата.

0

Забудьте тот факт, что это XML, вам нужно проверить UTF-8. Может быть, просто открыть в Firefox и найти символ?? В противном случае смотрите проверку UTF-8 на переполнение стека.

0

Я бы попробовал XMLStarlet:

[...] XMLStarlet - это набор утилит командной строки (инструментов), которые можно использовать для преобразования, запроса, проверки и редактирования документов и файлов XML, используя простой набор команд оболочки, аналогично тому, как это делается для простых текстовых файлов с использованием UNIX grep, sed, команды awk, diff, patch, join и т. д. [...]
[ акцент мой ]

0

У меня есть подозрение, что вы можете использовать инструмент от Microsoft.

По моему опыту, Expression Web использовал для размещения информации заголовка в текстовых файлах, чтобы идентифицировать их в том формате, в котором они когда-либо были - ничто иное не распознавало их, и они отображались как случайные символы. Это было особенно проблема с PHP, поскольку он сломал включает.

0

Вы, вероятно, использовали редактор, который добавляет метку порядка байтов (BOM) в файл. Многие / большинство редакторов XML / редакторов веб-сайтов позволяет сохранять документ с / без BOM. Проверьте параметры сохранения в любом редакторе, который вы использовали.

Вы, вероятно, должны удалить спецификацию, чтобы избежать ошибки.

Если ваш редактор не поддерживает эту опцию, я могу порекомендовать отличный Notepad++

0

Если вы используете tomcat, вам, вероятно, нужно настроить кодировку, я использую tomcat как службу в Windows, и в параметрах конфигурации мне помогло следующее коммандирование:

Dfile.encoding=UTF-8

Надеюсь, поможет.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .