龍巖易富通網(wǎng)絡科技有限公司

龍巖小程序開發(fā),龍巖分銷系統(tǒng)

win下wget采集網(wǎng)頁內(nèi)容

2016.05.02 | 1874閱讀 | 0條評論 | shell腳本

需要采集一批數(shù)據(jù),是一網(wǎng)站上的產(chǎn)品信息,產(chǎn)品本身信息很簡單,使用火車采集器輕松實現(xiàn);但產(chǎn)品價格數(shù)據(jù)是ajax響應數(shù)據(jù),使用firebug + live http headers抓到該請求,并測試重發(fā),發(fā)現(xiàn)該ajax請求必須帶一個http頭“X-Requested-With: XMLHttpRequest”,沒有就返回404錯誤。


gnu/linux下有大量的殺手級工具,這種情況,要動用其中的wget. wget有很多參數(shù),這里需要使用其中兩個:-O,--header. 其中:


-O, 把請求結果保存到指定文件,但我們要使用的卻是一個特殊的值:“-”,它可以將結果輸出到標準輸出


--header, 結http請求加上自定義的頭(http header)


于是對于每條產(chǎn)品數(shù)據(jù),都發(fā)送這樣的請求:


wget --header="X-Requested-With: XMLHttpRequest" -O save_123.txt "http://www.website.com/request/path/?Id=123"


這樣每條產(chǎn)品都保存到save_123.txt,save_124.txt,save_125.txt....這樣的一系列文件中。不過有個問題是,每條數(shù)據(jù)一個文件,后期分析不方便。所以將其存儲到單一的文件里。


方案:先將wget結果指向到標準輸出,然后再使用重定向符 >> 定向到單一的文件里。


不過,還有一個問題,每個http響應里沒有產(chǎn)品id號,數(shù)據(jù)跟采集到的產(chǎn)品信息對不上號。于是在每寫一筆采集結果前,往文件里先寫入該產(chǎn)品的id號。


這里使用echo 命令,要用到echo 的參數(shù):-e, 作用是使用轉義符輸出換行。示例:echo -e "aaa\nbbb"


于是構造這樣的bash腳本:


echo -e "\n"10011"\t"  >>data.log ;wget --header="X-Requested-With: XMLHttpRequest" -O- "http://www.website.com/request/path/?Id=10011" >>data.log; 

echo -e "\n"10012"\t"  >>data.log ;wget --header="X-Requested-With: XMLHttpRequest" -O- "http://www.website.com/request/path/?Id=10012" >>data.log; 

echo -e "\n"10013"\t"  >>data.log ;wget --header="X-Requested-With: XMLHttpRequest" -O- "http://www.website.com/request/path/?Id=10013" >>data.log; sheep 1;

echo -e "\n"10014"\t"  >>data.log ;wget --header="X-Requested-With: XMLHttpRequest" -O- "http://www.website.com/request/path/?Id=10014" >>data.log; 

echo -e "\n"10015"\t"  >>data.log ;wget --header="X-Requested-With: XMLHttpRequest" -O- "http://www.website.com/request/path/?Id=10015" >>data.log; 

echo -e "\n"10016"\t"  >>data.log ;wget --header="X-Requested-With: XMLHttpRequest" -O- "http://www.website.com/request/path/?Id=10016" >>data.log; sheep 1;


第三行加一個sheep 1, 即每采三條暫停1秒鐘,作用是防止請求過于密集而影響服務器響應,暫停秒數(shù)按實際情況設置。


所有數(shù)據(jù)都保存到data.log文件里。


其實,對于而需要提取的數(shù)據(jù),完全可以通過grep從定向到標準輸出的wget結果里提取。只是這里不么做了。


贊 (

發(fā)表評論

主站蜘蛛池模板: 天天色综合天天色| 亚洲偷自拍拍综合网| 色综合中文字幕| 亚洲综合精品香蕉久久网| 久久婷婷色香五月综合激情| 狠狠色丁香婷婷综合激情 | 一本久久知道综合久久| 麻豆精品久久精品色综合| 久久婷婷五月综合色99啪ak| 99久久婷婷国产综合亚洲| 激情综合一区二区三区| 综合久久精品色| 婷婷亚洲综合五月天小说| 丁香五月亚洲综合深深爱| 亚洲色偷偷偷鲁综合| 国产91色综合久久免费分享| 久久精品国产亚洲综合色 | 国产综合色产在线精品| 涩涩色中文综合亚洲| 久久狠狠一本精品综合网| 亚洲综合伊人久久大杳蕉| 欧美久久综合九色综合| 亚洲国产成人五月综合网| 99久久伊人精品综合观看| 一本大道加勒比久久综合| 国产成人亚洲综合无码| 亚洲综合国产精品第一页| 欧美日韩亚洲国内综合网| 亚洲综合欧美精品一区二区| 亚洲AV综合色一区二区三区| 99久久婷婷国产综合亚洲| 久久精品国产亚洲综合色| 亚洲欧美综合在线天堂| 久久综合视频网| 久久久久久久尹人综合网亚洲| 色噜噜狠狠色综合日日| 色婷婷六月亚洲综合香蕉| 亚洲综合色成在线播放| 色综合色天天久久婷婷基地| 亚洲精品第一国产综合境外资源 | 99久久亚洲综合精品成人|