采集规则学习技巧: 先看一遍采集功能的介绍,大致了解一下各个页面的功能,然后再看实战演练。 然后再重复看一遍通篇文章,再按照实战演练逐项练习。 然后再脱离文章以实战演练中的地址来采集。 采集成功之后,再以实战演练中的地址来查找不同的“头”和“尾”,这样多调试,反复试错,成功之后再联系其他网站的采集。 如果一个网站的采集多次调试修改都不成功, 就立刻换其他网站来采集,别钻牛角尖。 一般7-15天能学会,耐心的操作学习,不要急于求成。采集规则其实是比较复杂的,采集规则的学习过程就是反复试错的过程,积累经验,反复修改,所以一时学不会非常正常。 采集编码中的GBK与GB2312一样,如果目标网站的编码是GBK,那么就选择GB2312 |