Различия в исходном тексте между загруженным PDF и тем же PDF, встроенным в XML

Question

Я просматриваю общедоступные документы компании в базе данных SEC EDGAR. Для каждой заявки есть файл .txt, содержащий подробную информацию о подаче в формате XML (я новичок). Иногда это сразу полезный текст, но в некоторых случаях информация представляет собой PDF-файл, который, кажется, внедрен в необработанном формате, похожем на ASCII. Например,

<PDF>
begin 644 filename1.pdf
M)5!$1BTQ+C4-)>+CS],-"C(X(#`@;V)J#3P\+TQI;F5A<FEZ960@,2],(#0T
M-34Y+T\@,S`O12`R-S@T,B].(#0O5"`T-#,P,B]((%L@-#0Q(#(P.%T^/@UE
M;F1O8FH-("`@("`@("`@("`@("`@("`@#0HS."`P(&]B:@T\/"],96YG=&@@
M-C,O4F]O="`R.2`P(%(O241;/$1#0S%%,T$W,S9%0S8V-#`R-C-$.3DS1C(R
...
[...lots of text like this...]
...
)#0HE)45/1@T*
`
end
</PDF>

Тот факт, что он сырой, не удивителен. Для новичка удивительно то, что (1) если я пытаюсь скопировать / вставить этот необработанный текст в Notepad++ и сохранить его в формате .pdf, Acrobat не может прочитать файл, и (2) когда я загружаю (используя Chrome) фактический .pdf из файла, который доступен в другом месте в системе EDGAR, и открыть его в Notepad++, необработанный текст сильно отличается от необработанного текста XML-файла, хотя я ожидаю, что они закодируют один и тот же файл. Например,

%PDF-1.5
%âãÏÓ
28 0 obj
<</Linearized 1/L 44559/O 30/E 27842/N 4/T 44302/H [ 441 208]>>
endobj

38 0 obj
<</Length 63/Root 29 0 R/ID[<DCC1E3A736EC6640263D993F227A4DC8><71A0C1AA5F566D44A5466B14A0F219D4>]/Info 27 0 R/Filter/FlateDecode/W[1 2 1]/Index[28 23]/DecodeParms<</Columns 4/Predictor 12>>/Size 51/Prev 44303/Type/XRef>>stream
xÚbbd``b`ª@‚±  H0{    ¶‡@‚»Ä
Ö§a¬Ÿ˜Vƒt00’Fügœõ
 À =¸   ê
endstream
endobj
...

Файлы, о которых я говорю, можно найти здесь:
Файл .txt Файл .pdf

Почему Acrobat не может прочитать необработанный текст из XML-файла .txt? Есть ли способ изменить это так легко, чтобы он читался? Почему необработанный текст выглядит так по-другому, когда я загружаю настоящий PDF? Являются ли они разными представлениями одного и того же файла, или опубликованный файл .pdf на самом деле сильно отличается от того, что можно извлечь из файла .txt?

Я попытался найти информацию об ASCII и различных типах Unicode и обнаружил, что Абсолютный минимум для каждого разработчика программного обеспечения абсолютно, положительно должен знать о Unicode и наборах символов (никаких оправданий!), Но не видел, как применить его к файлам PDF. Я пытался найти способ извлечения PDF-файлов, встроенных в XML, но не нашел ответ, который помог. Я пытался конвертировать между типами кодирования в Notepad++, что не принесло пользы.

Различия в исходном тексте между загруженным PDF и тем же PDF, встроенным в XML

0

Знаете кого-то, кто может ответить? Поделитесь ссылкой на этот вопрос по почте, через Твиттер или Facebook.

Похожие