火車(chē)頭采集1688

  

火車(chē)頭是目前比較常用的采集軟件之一,今天一米軟件來(lái)給大家分享一下火車(chē)頭采集1688怎么做。


火車(chē)頭采集1688


首先,到火車(chē)采集器官方網(wǎng)站上去下載軟件,然后注冊(cè)一個(gè)用戶(hù)名和帳號(hào),打開(kāi)軟件并登錄進(jìn)去?;疖?chē)采集器有免費(fèi)版與付費(fèi)版,如果僅僅是基本的數(shù)據(jù)采集需求,使用免費(fèi)版即可,基本上能滿(mǎn)足你的大部分需求。


登錄后,進(jìn)入主界面會(huì),左側(cè)的任務(wù)列表樹(shù)中會(huì)有很多現(xiàn)成的采集案例,可以點(diǎn)開(kāi)學(xué)習(xí)參考。這里我們要采集1688的一個(gè)店鋪中的產(chǎn)品,所以新建一個(gè)任務(wù)。在開(kāi)始采集之前,我們需要先篩選出一個(gè)整體相對(duì)干凈整潔,比較符合跨境電商平臺(tái)產(chǎn)品上傳規(guī)則的1688店鋪。1688店鋪千千萬(wàn),這里隨機(jī)從1688牛商中找了一個(gè)店鋪,進(jìn)行演示。店鋪網(wǎng)址:https://chenguanshangmao.1688.com/ 之所以選擇這家進(jìn)行測(cè)試,幾個(gè)原因供大家參考。店鋪有一定的規(guī)模,生產(chǎn)廠家,績(jī)效較好,支持一件代發(fā),產(chǎn)品圖片美觀,附圖也很漂亮,產(chǎn)品描述中沒(méi)有過(guò)多的垃圾信息,廠家自由品牌,可授權(quán),不易產(chǎn)生侵權(quán)糾紛。


正式開(kāi)始數(shù)據(jù)采集之前,需要對(duì)店鋪進(jìn)行分析,需要采集的目標(biāo)列表頁(yè)面:https://chenguanshangmao.1688.com/page/offerlist.htm?pageNum=32 最后這個(gè)32表示一共有32頁(yè)。爬蟲(chóng)需要從列表頁(yè)面爬到產(chǎn)品詳細(xì)頁(yè)面,所以這個(gè)列表頁(yè)起一個(gè)引導(dǎo)作用。在地址格式中,輸入列表頁(yè)地址,其中32這個(gè)數(shù)字是一個(gè)變量,數(shù)字是在變化的,所以以地址參數(shù)進(jìn)行代替,然后在下面的地址參數(shù)中進(jìn)行數(shù)字變化定義。


在列表頁(yè)中,鼠標(biāo)反敲右鍵,點(diǎn)開(kāi)查看源代碼,找出要采集的目標(biāo)列表開(kāi)頭標(biāo)簽和結(jié)尾標(biāo)簽,也即使設(shè)置區(qū)域。


開(kāi)頭標(biāo)簽,網(wǎng)頁(yè)代碼中僅出現(xiàn)一次


結(jié)尾標(biāo)簽,網(wǎng)頁(yè)代碼中僅出現(xiàn)一次


把標(biāo)簽輸入到這里。然后在鏈接過(guò)濾中輸入需要包含的鏈接地址:https://detail.1688.com/offer 因?yàn)槊總€(gè)產(chǎn)品頁(yè)面都是以這個(gè)鏈接開(kāi)頭。然后保存,下一步。


接下來(lái)是內(nèi)容采集了。首先確定需要采集的內(nèi)容,例如標(biāo)題,圖片,價(jià)格,重量,描述,庫(kù)存數(shù)等等。首先,打開(kāi)任意一個(gè)產(chǎn)品詳細(xì)頁(yè)面https://detail.1688.com/offer/549255112102.html,查看源代碼。因?yàn)槭茄菔緝?nèi)容,這里只做標(biāo)題的采集,其他內(nèi)容也是同樣的方法。先來(lái)產(chǎn)品采集標(biāo)題。


在標(biāo)簽列表中新建一個(gè)標(biāo)題標(biāo)簽,打開(kāi)源代碼頁(yè)面,找到對(duì)應(yīng)的標(biāo)簽內(nèi)容,輸入“珍玥琦歐美英倫風(fēng)女士禮帽 秋冬保暖仿羊毛氈帽時(shí)尚葉子花朵帽子”,


分別截取這個(gè)標(biāo)題的前后2段字符串,輸入到下面。


因?yàn)椴杉蟮膬?nèi)容可能出現(xiàn)一些不相關(guān)的html代碼,有時(shí)候需把品牌和一些和產(chǎn)品相關(guān)的文字清理掉,可以在下面的數(shù)據(jù)處理中進(jìn)行處理。勾選上HTML標(biāo)簽排除,批量替換中輸入需要清除的字符。然后保存,點(diǎn)擊右下角的測(cè)試,即可看到采集結(jié)果。


在制定完其他標(biāo)簽后,即可開(kāi)始正式采集。 通常1000多條數(shù)據(jù),大概10來(lái)分鐘即可采集完成。1688對(duì)于同一IP頻繁訪問(wèn)抓取數(shù)據(jù),會(huì)有一定的限制,所以適當(dāng)降低線程與采集間隔時(shí)間,也可以用代理IP等方式來(lái)規(guī)避這種情況。當(dāng)然,對(duì)于付費(fèi)版用戶(hù)會(huì)有更多的開(kāi)放權(quán)限,例如可以用google翻譯插件將采集內(nèi)容同步翻譯成你需要的語(yǔ)言,法語(yǔ)、德語(yǔ)、西班牙語(yǔ)等幾十種語(yǔ)言。


以上就是火車(chē)頭采集1688的全部過(guò)程了,學(xué)會(huì)了趕緊去試試吧。

相關(guān)資訊

推薦軟件