3

Вот пример ссылки, которую я нашел на YouTube в разделе комментариев видео.

gnu.org/distros/free-distros.h­tml

Вот как это проявляется в комментарии.

Если я выделю эту ссылку и скопирую в буфер обмена (ctrl+c), затем перейду на новую вкладку браузера и вставлю ее (ctrl+v) в адресную строку, тогда она будет отображаться.

gnu.org/distros/free-distros.h­tml

Это выглядит так же, верно? Но если я нажимаю Enter, я получаю ошибку.

404 Страница не найдена

Не удалось найти страницу, которую вы искали, на веб-сервере GNU.

Если вы перешли по ссылке, которая оказалась неработающей, и на странице с неработающей ссылкой указан явный адрес, по которому можно сообщать об ошибках, используйте этот адрес.

URL-адрес также меняется на следующий.

http://www.gnu.org/distros/free-distros.h%C2%ADtml%EF%BB%BF

Если %C2%ADtml%EF%BB%BF и тип в tml , так что я получаю обратно адрес http://www.gnu.org/distros/free-distros.html , а затем нажмите клавишу Enter, а теперь он работает и страница загружается.

Я подумал, что это очень странно, поэтому я попытался вставить тот же текст из буфера обмена в простой текстовый редактор (блокнот), и это то, что я получил.

gnu.org/distros/free-distros.h­-tml

Как появилась черта между h и tml ? Вот почему я получаю ошибку 404. Но URL-адрес отображается правильно при вставке в адресную строку. Возможно, это какой-то скрытый персонаж?

Кроме того, если я вернусь на YouTube и выделю ссылку, я вижу, что на последних трех буквах есть выпуклость. Выделение выше вокруг "tml". Вы можете видеть это на снимке экрана ниже.

screen1

screen2

Почему это происходит? В чем дело? Может ли быть так, что Google каким-то образом намеренно солит ссылку?

Обновить

Если я вставляю в Notepad++ (версия 6.3), я получаю следующее.

gnu.org/distros/free-distros.h­tml?

Если я пытаюсь вставить в адресную строку браузера Google Chrome, в конце URL-адреса появляется какой-то скрытый символ. Смотрите захват экрана ниже.

SCREEN3

Это не пустое место. Это что-то еще ... что-то чужое! Что-то с планеты X?

Примечание. Вертикальная линия в конце - это не та, о которой я говорю, а мигание курсора ввода текста.

Обновление 2

Проверка HTML-кода в Firefox с помощью инструмента проверки элементов.

screen4

Почему внутри открывающего тега wbr есть квадрат?

Обновление 3

"Квадрат" выглядит как объект с мягким дефисом. Здесь следует фактический исходный код этой конкретной строки.

<p>gnu.org/distros/free-distros.h<wbr>&shy;tml</p>

Мягкий дефис - это &shy; Вы видите здесь. HTML-теги, такие как или т. Е. Для полужирного текста, недоступны для выбора. Когда вы выделяете текст веб-страницы в браузере, вы не выбираете теги HTML. Ничего внутри <> не отображается.

Таким образом, кажется, что мягкий перенос является основной причиной проблемы копирования и вставки. Он не отображается на веб-странице, но выбирается при выделении текста.

Обновление 4

Вот как это выглядит, когда я вставляю URL в Microsoft Word 2010 и просматриваю скрытые символы.

screen5

Чтобы переместить текстовый курсор с .|html .ht|ml на .ht | ml, необходимо нажать клавишу со стрелкой три раза. Вы можете сказать по изображению выше, почему это так. Это из-за этого скрытого персонажа. Когда курсор находится перед этим странно выглядящим символом, нажатие Alt+X показывает 0068. С курсором позади этого символа и перед буквой Т вообще ничего не видно. 0068 - это просто кодовая страница Unicode для буквы H.

2 ответа2

2

Глядя на исходный код этой части страницы, я вижу это:

<p>gnu.org/distros/free-distros.h<wbr>­tml</p>

Похоже, что YouTube автоматически вставил <wbr> . Это возможность прерывания слова, она сообщает браузеру, что при необходимости слово может быть разбито для вставки новой строки.

На страницах в кодировке UTF-8 это отображается в виде ZERO-WIDTH SPACE , ничего не показывая, но разрешая перевод строки. Вот что является причиной вашей проблемы с кодировкой.

Похоже, что на YouTube есть алгоритм для автоматической вставки <wbr> в длинные слова в хороших местах (без разрезания слога на две части), но так как http:// отсутствовал в начале URL, алгоритм не признать его как таковой, и, таким образом, предположил, что это слово может быть нарушено.

2

Да, это неприятность.

Есть два hipshen Нормальный и забавный. Забавный иногда используется в комментариях к YouTube. и появляется как скрытый.

Вставьте в блокнот (чтобы удалить форматирование), а также, блокнот показывает его, а затем в MS Word (или просто в MS Word вставьте специальный ... неформатированный Unicode), поместите курсор справа от дефиса или любого символа, и нажмите ALT-x, и вы увидите ASCII или код Unicode для него.

Это может показаться странным. Имейте в виду, что есть несколько символов двух разных типов. Тип, который вы используете, обычно находится в диапазоне 0-7F, а люди типа обычно не используют много или вообще не используют, что> 7F. Два типа пробелов (нормальный и другой, называемый неразрывным пробелом, ascii code 160 \uA0, который может быть полезен). Существует два типа каналов 7C и A6. A6 просто запрашивает проблемы, так как вызывает сбои в командной строке. И два типа переносов, второй, который вы видите, тоже ведут себя забавно, так как комментарии в YouTube иногда используют его, скрывают и не отображают как переносы.

Еще один забавный персонаж, который я вижу, который используется YouTube в комментариях, это \uFEFF. Вы можете запустить notepad2(скачать его), выбрать file..encoding ..Затем в UTF-8 вставьте текст и найдите \uFEFF, заменяя его ничем (установите флажок с надписью transform backslashes).

Точно так же вы можете открыть notepad2, найти \u00AD (этот смешной хайфен) и заменить его обычным хейфеном. Может быть, это можно сделать и без редактирования, хотя я использую версию pro для поддержки регулярных выражений.

Замечу, что charmap неправильно копирует смешной хайфен. (Так что, если вы хотите поэкспериментировать, и вы выбираете скопировать и вставить его в программный продукт, и он показывает забавную карту обвинений), но он прекрасно копирует (как в случае с персонажем) по вашей ссылке в моем браузере (Chrome). Лучше, если персонаж не был там, хотя это неприятность! Но вы можете увидеть его в Ms Word, а также найти и удалить его в notepad2.

Вы видите из charmap, что он (\u00AD) называется "soft Hiphen" (я просто рад, что они не переносили этот заголовок!)

На картинке я использовал Ms Word и сделал ALT-x

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .