4

Чтобы проверить заголовок ответа HTTP для набора URL, я отправляю с помощью curl следующие заголовки запроса

foreach ( $urls as $url )
{
    // Setup headers - I used the same headers from Firefox version 2.0.0.6
    $header[ ] = "Accept: text/xml,application/xml,application/xhtml+xml,";
    $header[ ] = "text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";
    $header[ ] = "Cache-Control: max-age=0";
    $header[ ] = "Connection: keep-alive";
    $header[ ] = "Keep-Alive: 300";
    $header[ ] = "Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7";
    $header[ ] = "Accept-Language: en-us,en;q=0.5";
    $header[ ] = "Pragma: "; // browsers keep this blank.

    curl_setopt( $ch, CURLOPT_URL, $url );
    curl_setopt( $ch, CURLOPT_USERAGENT, 'Googlebot/2.1 (+http://www.google.com/bot.html)');
    curl_setopt( $ch, CURLOPT_HTTPHEADER, $header);
    curl_setopt( $ch, CURLOPT_REFERER, 'http://www.google.com');
    curl_setopt( $ch, CURLOPT_HEADER, true );
    curl_setopt( $ch, CURLOPT_NOBODY, true );
    curl_setopt( $ch, CURLOPT_RETURNTRANSFER, true );
    curl_setopt( $ch, CURLOPT_FOLLOWLOCATION, true );
    curl_setopt( $ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY );
    curl_setopt( $ch, CURLOPT_TIMEOUT, 10 ); //timeout 10 seconds
}

Иногда я получаю 200 OK, что хорошо в другое время 301, 302, 307, что я тоже считаю хорошим, но иногда я получаю странный статус 406, 500, 504, который должен идентифицировать недействительный URL, но когда я открываю его в браузере, они в порядке

например скрипт возвращает

http://www.awe.co.uk/ => HTTP/1.1 406 Not Acceptable

и Wget возвращается

wget http://www.awe.co.uk/
--2011-06-23 15:26:26--  http://www.awe.co.uk/
Resolving www.awe.co.uk... 77.73.123.140
Connecting to www.awe.co.uk|77.73.123.140|:80... connected.
HTTP request sent, awaiting response... 200 OK

Кто-нибудь знает, какой заголовок запроса я пропускаю или добавляю в избытке?

3 ответа3

5

Вы включаете недопустимые заголовки HTTP в свой запрос:

$header[ ] = "Accept: text/xml,application/xml,application/xhtml+xml,";
$header[ ] = "text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";

В первой строке список заканчивается символом , то есть пустым типом содержимого, который является причиной 406 недопустимых ошибок. Вторая строка даже не является заголовком HTTP.

Если вы просматривали HTTP-диалоги Firefox с помощью анализатора пакетов, вы, вероятно, видели что-то вроде этого:

Accept: text/xml,application/xml,application/xhtml+xml,
    text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5

Поскольку вторая строка начинается с пробела, они обрабатываются сервером как один заголовок. Они также должны быть переданы как один заголовок для curl:

$header[] = "Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5";

Вы можете использовать http://echo.opera.com для сравнения отправляемых запросов.

1

Вы не предоставляете заголовок Host: в массиве header[] . В HTTP 1.1 запросы к контент-серверам заголовки Host: обязательны. Ответы не-4xx - это случай, когда вы попали на чей-то контент-HTTP-сервер, который прощает, когда дело доходит до этой ошибки протокола.

0

По моему скромному мнению, ваш сценарий выглядит нормально, и, поскольку вы иногда получаете правильные результаты, он должен работать.

Вы владелец http://www.awe.co.uk/?
Может быть, есть запущенный скрипт, который решает, что делать в зависимости от некоторых env. Например, в вашем скрипте вы заходите на этот сайт как пользовательский агент "googlebot", а ваш пользовательский агент wget будет "wget". Сценарий на веб-сервере может проверять, является ли он Google, и предоставляет какой-то совершенно иной контент, чем может видеть ваш браузер. Таким же образом веб-сервер может отправлять разные коды возврата.
Чтобы проверить эту проблему, вы можете уменьшить свой сценарий или расширить команду wget чтобы отправить тот же запрос и сравнить результаты.

Еще одна вещь, которую я могу себе представить: как часто вы запускали свой сценарий? Может быть, веб-сервер заметил огромный трафик из вашего скрипта и отправил 406 (или что-то еще), если вы преувеличиваете ;-)

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .