1

Когда я посетил этот сайт через мой Firefox 13, я получил страницу с некоторым содержанием. Но когда я использую wget, чтобы загрузить его:

wget http://tinhvan.com

Я получил другой контент на загруженной странице HTML. Пробовал установить user-agent:

wget -U 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:13.0) Gecko/20100101 Firefox/13.0.1' http://tinhvan.com

но получил тот же результат.

Что случилось ? и как я могу получить тот же результат, что и при посещении через Firefox?

Заранее благодарю за любую помощь, которую вы можете оказать.

ОБНОВИТЬ

Вот из Firefox => посмотреть источник:

<!DOCTYPE html>

<html dir="ltr" lang="vi">  

    <head id="ctl00_page_header">            
            <title>    
                Tinhvan Group - Trang chủ

а вот из скачанного wget

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /><link href="Content/images/main.css" rel="stylesheet" type="text/css" /><link href="Content/images/mail-detail.css" rel="stylesheet" type="text/css" />
    <script src="../../Content/JqueryUI/js/jquery-1.3.2.min.js" type="text/javascript"></script>    
    <title>

    Trang chủ - Tinhvan Group Website

1 ответ1

0

Попробуйте использовать CURL

curl www.webpage.com --location

Он перейдет на перенаправленную страницу, если он предоставил.

Вы также можете попробовать

curl -I www.webpage.com
curl -I --location www.webpage.com

и вставьте сюда, чтобы мы знали, какие заголовки возвращаются.

Я проверил:

wget -S --header "User-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11" --header "Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8" --header "Accept-Encoding: gzip,deflate,sdch" --header "Accept-Language: en-US,en;q=0.8" --header "Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.3" tinhvan.com

И еще не повезло ..

HTTP request sent, awaiting response...
  HTTP/1.1 200 OK
  Cache-Control: private
  Content-Type: text/html; charset=utf-8
  Expires: Tue, 31 Jul 2012 10:08:38 GMT
  Server: Microsoft-IIS/7.0
  Set-Cookie: .ASPXANONYMOUS=0EsBS5alzQEkAAAAZjllMGZmMDMtMTQ3Zi00ZDZlLWJiYWUtZGJhNDlhZjY1NWZmhWyvGlE9QG7-yO6wBOECE3K4rkA1; expires=Mon, 08-Oct-2012 20:48:38 GMT; path=/; HttpOnly
  X-AspNetMvc-Version: 1.0
  X-AspNet-Version: 2.0.50727
  X-Powered-By: ASP.NET
  Date: Tue, 31 Jul 2012 10:08:38 GMT
  Connection: keep-alive
  Content-Length: 9874
Length: 9874 (9.6K) [text/html]

Возможно, что js, которая загружается, выполняет какое-то тихое перенаправление, которое меняет источник страницы. У wget / curl нет поддержки javascript, поэтому контент отличается.

TCPDUMP-запись загрузки wget:

Чтобы долго для прямой вставки, поэтому я разместил его здесь: нажмите

Для дальнейшего анализа.

Всё ещё ищете ответ? Посмотрите другие вопросы с метками .