開始采集 |
采集一般步驟: |
1、增加采集節點; |
2、預覽采集正則是否正確; |
3、開始采集; |
4、對采集的數據進行審核并入庫; |
5、生成欄目及內容HTML頁面。 |
|
一、增加采集節點: |
1、登錄后臺->“欄目”>“采集管理”>“增加采集節點”; |
2、“選擇要增加采集的欄目”(選擇終極欄目); |
 |
3、“選擇要增加采集的欄目”后進入增加采集節點頁面; |
4、打開要采集的列表頁面:http://oldmartcafe.com/tmp/cjpage/list.html |
 點擊查看“源文件”
 點擊查看,列表頁源代碼為如下:
 |
5、開始設置采集節點及列表頁正則: |
(1)、輸入節點名稱:采集實例 |
 |
(2)、采集頁面地址:http://oldmartcafe.com/tmp/cjpage/list.html |
 |
(3)、由列表頁的源代碼:“<a href="page1.html" target="_blank">”,我們得出“內容頁地址前綴”為:http://oldmartcafe.com/tmp/cjpage/ |
 |
(4)、設置“信息頁鏈接正則”:由列表頁的源代碼得出。 |
圖1:頁面源代碼
 圖2:得出的信息頁鏈接正則
 |
6、點擊采集的內容頁頁面并查看源文件:http://oldmartcafe.com/tmp/cjpage/page4.html |
圖1:內容頁頁面
 圖2:內容頁源代碼
 |
7、設置內容頁內容正則:(標題及內容正則) |
(1)、標題正則:由源代碼內容我們得出“新聞標題”正則為: |
圖1:頁面源代碼
 圖2:得出的標題正則
 |
(2)、內容正則:由源代碼內容我們得出“新聞內容”正則為: |
圖1:頁面源代碼
 圖2:得出的新聞內容正則
 |
8、點擊“提交”按鈕即可增加節點完畢,整個表單最終效果如下: |
[點擊查看] |
|
二、預覽采集正則是否正確: |
1、上面增加采集節點后,我們返回“管理節點”頁面,如下: |
 |
2、點擊“預覽”采集,進入節點正則預覽與驗證: |
圖1:采集頁面地址列表
 圖2:信息鏈接列表
 圖3:采集的內容頁內容
 |
3、上面鏈接列表頁及內容頁內容預覽無誤后方可進行采集操作。 |
|
三、開始采集: |
1、上面的采集節點正則預覽無誤后,我們返回“管理節點”頁面: |
 |
2、點擊上面的“開始采集”鏈接,開始進行采集; |
3、采集信息完成后,系統會轉向采集入庫頁面,如下: |
 |
|
四、對采集的數據進行審核并入庫: |
 即可完成入庫操作:
 管理欄目信息也可以看到我們剛才入庫的信息:
 |
|
五、生成欄目及內容HTML頁面: |
點擊“系統”>“數據更新”>“數據更新中心”,進入數據更新中心頁面: |
1、生成首頁:點擊“刷新首頁”。 |
 |
2、生成欄目頁:“刷新多欄目頁面”選擇“國內新聞”這個欄目,然后點擊“開始刷新”。 |
 |
3、生成內容頁:“按條件生成信息內容頁面”: |
 |
|
六、預覽前臺頁面 |
首頁:
 |
列表頁:
 |
信息內容頁:
 |
|
至此本實例講解完畢。 |