QQ空間中包含很多未被百度收錄的原創內容或文章,且在不斷的更新擴充,因此QQ空間是一個具有大量有價值信息的采集源。
二、具體案例
1、目標網站:QQ空間,網址為登錄賬號的QQ空間地址。
①登錄QQ空間;
②采集QQ空間的說說、文章等。
①QQ空間需要登錄才能訪問;
②用戶發布的說說等內容在源代碼中沒有描述。
可以使用火車瀏覽器的xpath來模擬登錄,并提取有效內容。
可以采集到空間中的QQ號碼、QQ名稱、說說內容、日志文章(此項需空間開放方可采集)等。