国产999精品久久久久久-国产欧美综合一区二区三区-国产精品无码专区-亚洲色精品aⅴ一区区三区

 
售前咨詢QQ:QQ412395521
業(yè)務(wù)合作QQ:QQ627174919
位置:首頁(yè) > 知新 > 帝國(guó)CMS > 采集使用

寫(xiě)給新手——采集技巧

時(shí)間:2006-11-15 10:11:19  來(lái)源:帝國(guó)論壇  作者:phamlily
  發(fā)現(xiàn)不少人在采集方面有些或多或少的問(wèn)題。今天來(lái)說(shuō)一下采集技巧。

  說(shuō)之前先提一下:如果想要取得他人的幫助,光說(shuō)一下“XX網(wǎng)頁(yè)我采不到”,或是“XX網(wǎng)頁(yè)的XX正則我怎么設(shè)不對(duì)呀”,一般比較少會(huì)有人來(lái)幫你。因?yàn)橄胍獛湍悖瑤湍阏呔捅仨氉约合葘?xiě)一個(gè)完整的那個(gè)網(wǎng)站,或是至少那個(gè)列表頁(yè)的采集正則。在你是問(wèn)某一個(gè)小問(wèn)題,在別人就是大動(dòng)工的寫(xiě)一整套正則了——最差最差,也是要打開(kāi)那個(gè)網(wǎng)頁(yè),一點(diǎn)點(diǎn)地找正則所在……別人不是該你的,有沒(méi)有義務(wù)是一回事,有沒(méi)有精力又是另一回事。就算勤勞如蓮,大多數(shù)時(shí)間也是懶得理會(huì),爬爬走過(guò)的

  所以,如果想取得他人的幫助,最好是哪個(gè)正則有問(wèn)題,就把自己寫(xiě)的那個(gè)部分正則也貼出來(lái)(如果能貼全套的則更好,別人可以整套地幫你測(cè)試),無(wú)論是尋找癥結(jié)所在,還是節(jié)省他人時(shí)間上,都是很有幫助的。

  另外,也不要把想取得幫助的網(wǎng)頁(yè)的代碼整個(gè)的復(fù)制粘貼上來(lái),貼個(gè)網(wǎng)頁(yè)地址就可以了,你貼一大片代碼,進(jìn)來(lái)看的人一下就被嚇出去了……

  下面來(lái)說(shuō)一下采集技巧:

個(gè)人經(jīng)驗(yàn):

  1.采集的正則能寫(xiě)得越簡(jiǎn)單越好。
  當(dāng)然,復(fù)雜的話針對(duì)性強(qiáng),比較不容易采到不要的內(nèi)容,但能在保證不采到不要的內(nèi)容的前提下,越簡(jiǎn)單,一個(gè)正則對(duì)該網(wǎng)頁(yè)的通用性就越強(qiáng)。比如說(shuō)一樣是采<a href="鏈接">這個(gè)鏈接,個(gè)人覺(jué)得,如果你已經(jīng)設(shè)定了鏈接區(qū)域,區(qū)域內(nèi)不會(huì)有別的鏈接的話,與其把鏈接正則寫(xiě)成<a href="[!--newsurl--]">,還不如寫(xiě)成href="[!--newsurl--]"。這樣,萬(wàn)一有幾頁(yè)的鏈接對(duì)方寫(xiě)成了<A href="鏈接">,也不會(huì)影響你的采集效果。

  當(dāng)然,對(duì)方不會(huì)莫名其妙地改變自己的模板,上面只是舉個(gè)例子。而我是懶人,懶人的目標(biāo)就是用最少的正則采到最多的新聞。
  正則寫(xiě)得簡(jiǎn)單,還是對(duì)自己采集水平的一個(gè)鍛煉。越簡(jiǎn)單,找正則規(guī)律的要求就越高,多鍛煉自己,采集時(shí)才比較容易一次就采到自己想要的東西。


  2.在正則內(nèi)盡管減少空格和回車(chē)的使用。
  這樣說(shuō)可能不是很明白。空格誰(shuí)不用?注意:這里說(shuō)的不是一個(gè)或兩個(gè)空格,而是大片相連的空格。
  空格的存在當(dāng)然是必要的,但寫(xiě)采集正則時(shí)出現(xiàn)大片相連的空格甚至包含大量回車(chē)時(shí)只能說(shuō)明兩個(gè)問(wèn)題:一,要么是對(duì)方的網(wǎng)頁(yè)太難采集,讓你不得不使用大片相連空格及回車(chē)來(lái)區(qū)分采集區(qū)域,否則找不到別的辦法了;二,要么是你太懶,懶得仔細(xì)地找正則,看到什么就是什么,大片的復(fù)制下來(lái)再說(shuō),反正復(fù)制得越多越不容易和別的重復(fù)。
  相信大多數(shù)人都是第二種。
  但要注意,當(dāng)你大量復(fù)制對(duì)方網(wǎng)頁(yè)代碼當(dāng)成正則時(shí),你也把自己推入了一種很可能采集失敗,或是某幾頁(yè)能成功,某幾頁(yè)以失敗告終的險(xiǎn)境。
  某幾頁(yè)成功、某幾頁(yè)失敗的原因,同第1條所述,對(duì)方有可能偶爾在頁(yè)面內(nèi)改變正則。這種情況雖然不大遇到,但要充分考慮到。
  大多數(shù)復(fù)制大量代碼當(dāng)正則的同志,是處于一種不成功便成仁的境地的。因?yàn)榭崭襁€算好,不會(huì)出太多問(wèn)題;但回車(chē)的問(wèn)題很?chē)?yán)重。我采集時(shí),發(fā)現(xiàn),往往有些網(wǎng)頁(yè)在正則內(nèi)使用了回車(chē),就會(huì)采集失敗——完全不認(rèn)采集區(qū)域。回車(chē)是個(gè)很好的辨識(shí)標(biāo)志,但——具體原因還不明了——有時(shí)它會(huì)導(dǎo)致整個(gè)采集過(guò)程的失敗。


  3.分頁(yè)區(qū)域正則。
  很多人能很好地設(shè)定整個(gè)頁(yè)面的正則,但往往失敗在分頁(yè)正則上(我到現(xiàn)在都不是每個(gè)分頁(yè)都能采得到)。這里提幾個(gè)技巧。
  第一,盡量不要把分頁(yè)區(qū)域包含在新聞?wù)恼齽t內(nèi)。這一點(diǎn)……如果有人看菜鳥(niǎo)手冊(cè)的話……嚴(yán)正聲明,那里面是寫(xiě)錯(cuò)的,當(dāng)時(shí)對(duì)采集不是很了解,所以寫(xiě)錯(cuò)了。如果把分頁(yè)區(qū)域包含在新聞?wù)恼齽t內(nèi),會(huì)導(dǎo)致采到的新聞?dòng)袃尚械?頁(yè)、第2頁(yè)等的顯示——因?yàn)榘褜?duì)方的分頁(yè)也當(dāng)正文采來(lái)了。
  第二,要注意“上下頁(yè)導(dǎo)航”和“全部列出式”。現(xiàn)在大多數(shù)網(wǎng)頁(yè)是兩種模式同時(shí)存在的。所以在寫(xiě)正則時(shí),如果你是使用某一種模式,要注意過(guò)濾掉另一種模式的鏈接,不然會(huì)導(dǎo)致采到過(guò)多的分頁(yè),一般是會(huì)出現(xiàn)兩個(gè)第2頁(yè)。
  第三,當(dāng)分頁(yè)采集屢屢失敗,又實(shí)在查不出錯(cuò)在哪里時(shí),請(qǐng)看一下第2、3、4……頁(yè)的新聞?wù)牡恼齽t,是否與你寫(xiě)的新聞?wù)齽t一致。有的網(wǎng)頁(yè),后面幾頁(yè)用到的代碼和第一頁(yè)會(huì)不一樣,往往會(huì)比第一頁(yè)少掉一些,這時(shí),如果你用的新聞?wù)恼齽t正好用到了后面幾頁(yè)沒(méi)有的代碼,那你分頁(yè)正則即使寫(xiě)得完全沒(méi)有問(wèn)題,由于后幾頁(yè)的正文它采集不到,顯示出來(lái)的就是沒(méi)有采到分頁(yè)(T_T 某蓮曾在這個(gè)問(wèn)題上給它耗掉整整一個(gè)晚上,血淚史啊……)


  4.采集中盡量減少用*,或者,至少有選擇性地用*。
  比如<a href="鏈接">OOXXOOXX</a>這個(gè),不少人喜歡用<a href="[!--newsurl--]">*</a>來(lái)采集。但是試問(wèn),這個(gè)*有什么意義嗎?列位哪位有見(jiàn)過(guò),有哪個(gè)<a>.....</a>之間是沒(méi)有東西的嗎?所以這個(gè)*放在這里,有放沒(méi)放是一個(gè)樣的。除非是這個(gè)鏈接正則太復(fù)雜了,一定要靠*之后的代碼繼續(xù)區(qū)分判斷,以過(guò)濾掉不要的,這時(shí)才需要用*。
  用*有一個(gè)弊端——在你對(duì)正則看得不是很清楚,不太負(fù)責(zé)任地加*的時(shí)候,很可能不能完全采集到你想采集的內(nèi)容,或是一不小心把要采集的內(nèi)容去掉了。所以能不用*盡量不要用*。


  暫時(shí)能想到這些,以后想到繼續(xù)補(bǔ)充。
 
旗下其它產(chǎn)品:【帝國(guó)備份王】    【EBMA系統(tǒng)】    【帝國(guó)下載系統(tǒng)
Powered by EmpireCMS
版權(quán)所有 ©2002-2024 EmpireSoft Inc.