会员登录
注册
问题
等待回复
按关键字查看
用户
提交新建议/意见
欢迎来到 『华蛛社区』, 你可以在这里提问和回复,来跟其它用户一起交流。让我们共同打造中国第一个Web数据采集技术交流社区。
提示:验证邮箱后即可摆脱讨厌的验证码。
按分类查看
技术交流
(118)
社区事务
(2)
[微博]微博信息检索的一般流程
–1
票
微博信息数据的采集、检索是当前一个技术热点。我想问各位做过这方面技术的朋友,做这些的大致流程是什么,以具体例子来说,我要输入一个关键词,然后希望得到相关的微博列表,目前有两种方法:
1、使用新浪微博的API,可是发现只能得到一页数据,要得到更多,得用钱来购买授权
2、使用新浪的搜索功能,在线模拟登陆、模拟ajax请求、得到返回数据
第二种方法无疑是最难的,我想知道
1、还是不是有其它的方法;2、第二步中模拟登陆、ajax请求发送、得到返回数据,大家都用了什么手段或者工具
谢谢
微博
信息采集
信息抓取
信息检索
搜素
crazyant_ps2
(
160
积分)
发表于
12 年
之前
在
技术交流
1 条回复
+2
票
好问题。
要想模拟,首先必须知道浏览器发出的HTTP请求是什么样的(具体到Method,URL,Querystring,Cookie,POST Entity)。
在这里推荐几个HTTP包监听工具:
1)Firefox下的HttpFox插件。
2)Firefox下的Live Http Headers(除了监听还能编辑包以及模拟重发)。
3)WebSurgery,以HTTP代理模式工作,也能编辑和模拟重发。
要维持登录状态,最重要的是要实现一个Cookie管理的功能,例如,Python的cookielib模块。
欢迎大家进一步讨论..
redice
(
640
积分)
回复于
12 年
之前
1
个标记
相关问题
0
票
1
回复
如何抓取微信小程序的数据?
sddhc53
(
120
积分)
发表于
6 年
之前
在
技术交流
0
票
1
回复
抓取微信小程序摩单车的数据
kds123
(
120
积分)
发表于
7 年
之前
在
技术交流
数据抓取
app数据抓取
0
票
1
回复
如何获取大众点评的某个行业的商家信息?
yulc
(
120
积分)
发表于
7 年
之前
在
技术交流
大众点评
商家数据
抓取
–1
票
1
回复
一个关于json请求链接的问题
Shrelcok
(
110
积分)
发表于
8 年
之前
在
技术交流
数据抓取
+1
票
1
回复
自己配置的代理高匿代理ip,php curl 多线程抓取百度网盘的数据被封
pifire
(
130
积分)
发表于
8 年
之前
在
技术交流
数据抓取
稳定高匿名http代理
http代理
华蛛社区
- 中国第一个Web数据采集技术交流社区
spider AT site-digger.com