есть файл * .sgm. Это мой набор данных, который я хочу преобразовать в любой другой тип набора данных, который позволяет мне иметь доступ к нему с помощью такой программы, как WEKA. Weka в основном поддерживает * .arff файл.

2 ответа2

0

.sgm является стандартом; это тип файла XML. Вы можете попробовать переименовать расширение файла в .xml или .arff (если вы счастливы потерять XML)!

0

SGML является стандартом предшественника XML, который часто рассматривается как упрощенная версия SGML. В зависимости от того, как он был автором, вероятно , можно переименовать его в .xml и сделать некоторые незначительные редактирования , чтобы сделать его действительным XML.

SGML имеет несколько функций, таких как минимизация тегов, которых нет в XML. Например (IIRC), они будут эквивалентны синтаксическому анализатору SGML:

<para/This is a paragraph./>
<para>This is a paragraph.</para>

(У меня может быть немного неправильный синтаксис для первого, это было довольно давно.)

SGML также может подразумевать наличие обязательных элементов, чего не делает XML (вам необходимо явно включить их).

Первым шагом было бы захватить текстовый редактор (или инструмент командной строки, такой как xmlwf), переименовать его в .xml и попытаться очистить его, пока у вас не закончатся синтаксические ошибки. Инструменты обработки текста, такие как perl, могут упростить вашу жизнь, если одни и те же ошибки повторяются много раз (вы не упомянули, какой размер у вас был SGML-файла).

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .