欢迎来到 『华蛛社区』, 你可以在这里提问和回复,来跟其它用户一起交流。让我们共同打造中国第一个Web数据采集技术交流社区。

提示:验证邮箱后即可摆脱讨厌的验证码。

[微博]微博信息检索的一般流程

–1
微博信息数据的采集、检索是当前一个技术热点。我想问各位做过这方面技术的朋友,做这些的大致流程是什么,以具体例子来说,我要输入一个关键词,然后希望得到相关的微博列表,目前有两种方法:
1、使用新浪微博的API,可是发现只能得到一页数据,要得到更多,得用钱来购买授权
2、使用新浪的搜索功能,在线模拟登陆、模拟ajax请求、得到返回数据

第二种方法无疑是最难的,我想知道

1、还是不是有其它的方法;2、第二步中模拟登陆、ajax请求发送、得到返回数据,大家都用了什么手段或者工具

谢谢
crazyant_ps2 (160 积分) 发表于 12 年 之前 技术交流

1 条回复

+2
好问题。

要想模拟,首先必须知道浏览器发出的HTTP请求是什么样的(具体到Method,URL,Querystring,Cookie,POST Entity)。

在这里推荐几个HTTP包监听工具:

1)Firefox下的HttpFox插件。

2)Firefox下的Live Http Headers(除了监听还能编辑包以及模拟重发)。

3)WebSurgery,以HTTP代理模式工作,也能编辑和模拟重发。

要维持登录状态,最重要的是要实现一个Cookie管理的功能,例如,Python的cookielib模块。

欢迎大家进一步讨论..
redice (640 积分) 回复于 12 年 之前 1 个标记

相关问题

华蛛社区 - 中国第一个Web数据采集技术交流社区
spider AT site-digger.com