文谷首页 | 业界传真 | 网络技术 | 服务器 | 数据库 | 存储技术 | 系统安全 | 无线技术 | Cisco | .Net | Windows | Linux | Unix | Java
电子商务 | 网站工程 | 网页设计 | 平面设计 | 多媒体 | 编程语言 | Oracle | MSSQL | Photoshop | ASP | PHP | 实用技巧 | 进程查询 | 文谷论坛
建站系统
 动易2005   动易2006   动网论坛   Tsys
您现在的位置: IT文谷 >> 建站系统 >> 动网论坛 >> 文章正文
关于采集的一些思路,高级采集术篇!关于采集的一些思路,高级采集术篇!2006-4-3 9:26:03关于采集的一些思路,高级采集术篇!2006-4-3 9:26:03关于采集的一些思路,高级采集术篇!
关于采集的一些思路,高级采集术篇!
关于采集的一些思路,高级采集术篇!关于采集的一些思路,高级采集术篇!2006-4-3 9:26:03关于采集的一些思路,高级采集术篇!2006-4-3 9:26:03关于采集的一些思路,高级采集术篇!
关于采集的一些思路,高级采集术篇!关于采集的一些思路,高级采集术篇!2006-4-3 9:26:03关于采集的一些思路,高级采集术篇!2006-4-3 9:26:03关于采集的一些思路,高级采集术篇!

        很多朋友问我有关采集的问题,其实采集不仅仅需要依靠动易本身,有很多情况需要代码进行分析,我给大家几条采集的思路,对于一般的网站进行采集我想足够了!

大家对我给出的网站可以进行尝试性的做一下,对你以后采集跟定有帮助的

1。被采集网站的列表号码根据文章动态变化:

例如:http://www.cnhubei.com/all/all.php3?id=74&intOffset=6400

结尾的数字不是固定的,如果使用固定列表采集,重复率将会达到2000%

那么我采用的办法是将代码复制到excel中去,然后批量生成地址列表:如下:

http://www.cnhubei.com/all/all.php3?id=74&intOffset=6420

http://www.cnhubei.com/all/all.php3?id=74&intOffset=6440

.......

这样就可以避免重复采集,将代码列表手工添加到地址列表就好了!

这种情况对于采集新闻我想最不错了!

2。列表页面无法采集或者过于复杂,但是文章页具有规律,或者说列表页有多层附属关系。

对于这种情况,我们可以更具思路1自己做一张超级列表页,然后随便丢到那个站点,强制采集系统去采集自己的页面。例如刚才的那个表,也可以换这个办法:

http://www.cnhubei.com/200404/ca448721.htm

http://www.cnhubei.com/200404/ca448720.htm

http://www.cnhubei.com/200404/ca448719.htm

这样的话就直接有了列表页了,484很简单!

这种办法对于采集flash和电子书应该很不错吧

3。使用过滤机制进行代码的替换!

这一类的使用很灵活,难度也很大!对于采集图片和flash有一定帮助

采集来的代码不一定能够完全都用上,那么如果需要添加一些广告之类的可以用这个办法!

4。关于一些反倒连网站的处理,这个多半对flash拉

http://flash.qqla.com/flash_fl/2_1.htm

比如这个网站,每一个flash后面都有一段代码,不能直接采集

http://flash.qqla.com/uuauth/2005/6/10/20056101528572589.swf?FA25EAFBC53935EAECD08F7678105BDD

但是我们可以找到相关的规律,FA25EAFBC53935EAECD08F7678105BDD

这一段代码我们添加到采集的代码中就好了!

下面就以这个网站来讲一个实例,有点难度噢

列表页我们可以找到规律得到采集的列表代码,大家自己找阿!我就不拉出来了,太长了

得到列表了,发现采集文章页面flash代码不能得到,但是我们可以找到flash的相对地址:

uuauth/2005/6/10/20056101528572589.swf

页面中有一个功能可以全屏播放,全屏时的绝对地址是:

http://flash.qqla.com/uuauth/2005/6/10/20056101528572589.swf?FA25EAFBC53935EAECD08F7678105BDD
不是我们通常情况下的http://flash.qqla.com/uuauth/2005/6/10/20056101528572589.swf

其他页面打开全屏时也是类似的地址,http://flash.qqla.com/uuauth/2005/6/10/20056101528572589.swf打不开,说明被加密了

我们可以找到相对的绝对地址了。

但是如何把它替换成我们要的高级flash代码呢:

以下是通常情况下的flash代码:

 

关于采集的一些思路,高级采集术篇!关于采集的一些思路,高级采集术篇!2006-4-3 9:26:03关于采集的一些思路,高级采集术篇!2006-4-3 9:26:03关于采集的一些思路,高级采集术篇!
  • 上一篇文章: 没有了

  • 下一篇文章: 没有了
  • 进入论坛讨论

    相关文章
    新浪网络广告超音速增长
    Google Adsense 违规行为集
    Google Adsense: 几个基础的投放规则
    基于网页内容网络广告的问题
    利用渠道来提高Google Adsense广告的收入
    Google Adsense 如何增加点击率
    解决Google Adsense广告只显示英文的问题
    Google AdSense小技巧
    网站的PageRank与Google Adsense收入
    解决GOOGLE广告速度慢问题的一个方法
    Google支票收取地址的写法
    安安心心pubisher,堂堂正正Adsense
    热门文章最新推荐

    版权与免责声明:
    ① 本网转载其他媒体稿件是为传播更多的信息,此类稿件不代表本网观点,版权归原作者所有,本网不承担此类稿件侵权行为的连带责任。
    ② 本站原创文章,转载时请注明出自文谷及作者姓名
    ③在本网BBS上发表言论者,文责自负。
    ④如您因版权等问题需要与本网联络,请在30日内联系 。
    关于采集的一些思路,高级采集术篇!关于采集的一些思路,高级采集术篇!2006-4-3 9:26:03关于采集的一些思路,高级采集术篇!2006-4-3 9:26:03关于采集的一些思路,高级采集术篇!
    关于采集的一些思路,高级采集术篇!关于采集的一些思路,高级采集术篇!2006-4-3 9:26:03关于采集的一些思路,高级采集术篇!2006-4-3 9:26:03关于采集的一些思路,高级采集术篇!

    全站热点
    最新推荐
    关于文谷 | 联系文谷 | 免责声明 | 文谷论坛
    Tel: 0577-65690019      E-mail: ichenjian@gmail.com    MSN:ichenjian@hotmail.com    QQ:2911194
    Copyright © 2004-2008 wengu.com 文谷 All Rights Reserved
    浙ICP备05000327号