澳门新萄京:多线程爬取速卖通评论,实例讲解
分类:www.澳门新萄京赌场

 1 using System.Collections;
 2 using System.Collections.Generic;
 3 using UnityEngine;
 4 using UnityEngine.Networking;
 5 using LitJson;
 6 using System.IO;
 7 using System.Net;
 8 
 9 
10 public class Connet : MonoBehaviour {
11 
12     //private ArrayList List = new ArrayList(5);
13     //private Rect rect = new Rect(10, 50, 150, 150);
14     //请求地址,写自己的请求地址就行
15     private string url = "http://xxxxxxxxx/ApiServlet?method=list";
16     //声明 JsonData     LitJson 提供的方法
17     JsonData itemdata;
18     //新建 List 存放数据
19     private List<Item> dataBase = new List<Item>();
20 
21     IEnumerator Start()
22     {
23         
24         WWW getData = new WWW(url);
25         yield return getData;
26         
27         if (getData.error != null)
28         {
29             Debug.Log(getData.error);
30         }
31         else
32         {
33             Debug.Log(getData.text);
34         }
35         //把请求到的数据转换成 JsonData array 类型,并存储到itemdata里
36         itemdata = JsonMapper.ToObject(getData.text);
37         //Debug.Log(itemdata);
38         //调用 ConstructItemDatabase() 函数
39         ConstructItemDatabase();
40         //测试数据
41         Debug.Log(dataBase[0].Name);
42     }
43     void ConstructItemDatabase()
44     {
45         //循环取数据
46         for (int i = 0; i < itemdata.Count; i  )
47         {
48             //把每个数据都添加到 dataBase 里  要和请求到的json数据对应
49             dataBase.Add(new Item((int)itemdata[i]["longId"], (int)itemdata[i]["intId"], itemdata[i]["item"].ToString()));
50         }
51     }
52 }
53 
54 //新建Item类
55 public class Item
56 {
57     //定义Item内的数据
58     //固定写法 XX{ get; set; }
59     public int ID { get; set; }
60     public int IntId { get; set; }
61     public string Name { get; set; }
62 
63     //接收上面的变量
64     public Item(int _longId, int _intId, string _name)
65     {
66         ID = _longId;
67         IntId = _intId;
68         Name = _name;
69     }
70 }

 K线图—————自定规则

http://www.baidu.com?city=beijing&weather=?
前面部分被称为请求头 ?后面的部分被称为请求体
请求体由参数和参数值组成 多个参数之间用&连接
<1>按照接口划分:
如果接口是完整(包括请求头和请求体两部分)
这种数据请求 我们就使用GET方式请求数据
GET方式请求数据非常简单 但是不安全 请求数据的信息都在接口的请求体位置裸露出来 所以不安全

AJAX跨域请求数据的四种方法(实例讲解),ajax实例讲解

由于浏览器的同源策略 ajax请求不可以接收到请求响应回来的数据 

请求数据需要调用浏览器的内置构造函数 XMLHttpRequest() 进行 实例对象

var xhr = new XMLHttpRequest();

注意点 在IE8之前支持的 ActiveXobject("Microsoft.XMLHTTP");  记住要进行兼容处理哦  在这里我就不写了

通过该对象进行获取

获取数据的四种状态  xhr.readyState 该属性保存着请求数据的几种状态

1.xhr.open(请求方式,请求地址,设置同/异步);

2.xhr.send(null);//发送请求  如果是post请求 那么参数需要在send中进行传递

3.会一直检测数据是否返回

4.数据返回 那么xhr.readyState的值是4  说明数据返回成功

那么我们需要进行跨域请求如何做呢

方案一:

利用script标签的src属性请求数据  src属性请求的数据浏览器是不会进行拦截的

<script srrc=";

这样我们是可以请求到数据的  但是这样有一些缺点

1.我们无法控制何时发送请求的  页面加载到这里就是发送请求的

2.这样的方式  请求方式是同步的请求 需要请求到数据才会执行下一步的代码  这样页面加载时间可能延长

3.所以建议不要使用这样的方式 不推荐

方案二:

在js中动态创建script标签 指定请求的接口

var script = document.createELement("script");

//将script追加到head标签中

document.getElementsTagName("head")[0].appendChild(script);

优点:我们可以控制请求的时机  并且这样请求的方式是异步的 不会延长页面加载的时间

重要点:我们可以在请求数据中调用请求页面中的函数  使用函数的形参接收请求回来的数据

方案三:

在请求的后端接口设置一个 请求头即可

Access-Control-Allow-Origin

含有这个请求头 前端页面跨域请求的数据就不会被浏览器进行拦截啦

方案四:

使用<iframe>标签 将一个页面 将可以可变的内容部分放置在该标签中  发送请求就会进行刷新啦  严格意义上不算ajax啦 

该方式在ajax未出现  就是使用该标签实现请求数据的

以上这篇AJAX跨域请求数据的四种方法(实例讲解)就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持帮客之家。

由于浏览器的同源策略 ajax请求不可以接收到请求响应回来的数据 请求数据需要调用...

废话少说

很庆幸暑假入了python的坑,也很庆幸选择学习爬虫,因为用python真的可以用很少的代码完成很多有趣的事情,爬虫便是其中之一。断断续续学爬虫有几个月了,现在我早已不满足于最开始单进程,单IP,爬豆瓣,糗事百科这种纯静态请求的页面,爬取这种动态请求数据的其实更有意思。因为我自己感觉做爬虫有俩个地方很爽,一个就是成功分析出了目标网站请求数据的策略,另一个地方就是成功爬到数据的时候,看着数据一条条刷刷刷的保存到本地的时候是真的爽。
学习爬虫,一定要尝试爬一爬电商平台的数据,一定要尝试逐步提高自己的爬取数据量,要不你还以为所有的网站那么容易爬呢!今天,我就来爬一爬速卖通(阿里的跨境电商平台)的用户评论。

LitJson.dll下载地址

1.首页(自选股页面)

如果接口不完整(只有请求头 没有请求体)
这种数据请求的方式 我们就使用POST方式请求数据
POST方式请求数据 相对来说复杂一些 请求体需要写代码手动拼接
POST请求数据的方式经常用于登录、注册、文件的上传
<2>按照请求数据的样式划分:

正文

密码:1znp

     每5秒请求一次实时行情数据;每60秒请求一次每个自选股的1分钟分时数据。离开该页面停止请求数据

同步请求:

多个请求对象向服务器请求数据 服务器会将多个对象放在队列中 一个对象开始请求数据 其他对象在队列中等待 如果第一个对象请求数据结束以后 第二个对象才能开始请求数据 即使对象请求数据结束也要在队列中等待 等待所有对象全部请求数据完成 服务器才将所有对象请求的数据反馈给UI 所有用户体验非常不好 经常出现白屏获取卡顿 (也就是影响了UI主线程的工作)

环境准备

python 环境
request库 用于发送http/https请求,接收响应
BeautifulSoup库 用于解析网页
上述环境只是因为博主习惯了而已,不是爬虫最核心的东西,搞清楚数据是怎么请求的,可以选用不同的语言和库去实现。

前一段时间一直纠结unity连接数据库请求数据,浪费了不少时间。后来改用http请求,顺利拿到数据,然后就着手于解析数据,就有了这篇文章

      具体细则说明:

异步请求:

多个对象请求数据 也是将多个对象放在队列中 多个对象同时请求数据 谁先请求数据完成 就将数据反馈给UI 无需等待其他对象完成数据请求
iOS开发中用到的数据请求都是异步请求 异步请求能够提高CPU的利用率
真正开发中和数据有关的就是下面的4步
1、数据请求
<1>系统类进行数据请求NSURLConnection
<2>第三方库ASIHTTPRequest (过时)
<3>第三方库AFNetworking (盛行)
<4>系统类NSURLSession (对NSURLConnection的二次封装)
2、将请求下来的数据进行解析
JSON (系统类 NSJSONSerialization)
XML (系统类 NSXMLParser 第三方库GData)
3、将解析好的数据显示在UI上
4、将UI上的数据进行持久性存储
NSFileHandle PList/userdefaults 归档 数据库 CoreData
NSURLConnection
进行数据请求 只能做单任务异步请求
将一个请求任务分给多个线程 多个线程同时工作 互不干扰 一个线程只能完成当前任务的一部分 只有所有线程全部完成 整个任务才算结束
使用NSURLConnection进行数据异步请求 需要当前类遵守协议NSURLConnectionDataDelegate

AFNetworking
AFNetWorking 进行数据请求 不仅能请求json数据也能请求xml数据 同时代有两种数据的自动解析
AFNetWorking对NSJSONSerialization和NSXMLParser进行了二次封装

网络请求数据(两种形式)
形式一:GET方法
方法一:
NSURLConnection:(需要当前类遵守协议NSURLConnectionDataDelegate)
<1>将字符串网址转化成NSURL
NSURL * url = [NSURL URLWithString:PATH];
<2>将NSURL封装成请求对象
NSURLRequest * request = [NSURLRequest requestWithURL:url];
<3>开始异步请求
[NSURLConnection connectionWithRequest:request delegate:self];
协议方法
服务器端接收客户端的信息反馈
-(void)connection:(NSURLConnection *)connection didReceiveResponse:(NSURLResponse *)response;
开始请求数据
-(void)connection:(NSURLConnection *)connection didReceiveData:(NSData *)data
每个线程请求完数据以后就会调用该方法 将请求下来的数据进行拼接
[myData appendData:data];
请求数据结束
-(void)connectionDidFinishLoading:(NSURLConnection *)connection{
开始解析数据
NSDictionary * dic = [NSJSONSerialization JSONObjectWithData:myData options:NSJSONReadingMutableContainers error:nil];
NSArray * array = dic[@"users"];
[dataSource addObjectsFromArray:array];
//数据源发生改变 刷新表格
[table reloadData];
}
方法二 AFNetWorking
<1>创建请求操作管理者对象
AFHTTPRequestOperationManager * manager = [AFHTTPRequestOperationManager manager];
<2>设置请求的数据类型(是json还是xml)
manager.responseSerializer.acceptableContentTypes = [NSSet setWithObject:@"application/json"];
<3>开始数据请求并解析
1、请求数据的接口
2、请求体
3、请求数据成功、数据解析也完成了
[manager GET:<#(NSString *)#> parameters:<#(id)#> success:<#^(AFHTTPRequestOperation *operation, id responseObject)success#> failure:<#^(AFHTTPRequestOperation *operation, NSError *error)failure#>]

AFNetworking可以进行多任务异步请求
一个界面请求数据的接口有多个
只要请求一个接口的数据 就要有一个请求对象
此处需要创建四个请求对象 对象之间请求数据是异步的 互不干扰
将多个对象放在队列中 进行异步请求
所有图片的接口信息
NSArray * array = @[]所有接口信息
定义一个数组 承载四个请求对象
NSMutableArray *澳门新萄京:多线程爬取速卖通评论,实例讲解。 requestArr = [[NSMutableArray alloc]init];
for(int i = 0;i<4;i )
{
//<1>将接口转化成NSURL
NSURL * url = [NSURL URLWithString:array[i]];
//<2>将NSURL封装成请求对象
NSURLRequest * request = [NSURLRequest requestWithURL:url];
//<3>将NSURLRequest对象封装成AF中的请求操作对象
AFHTTPRequestOperation * operation = [[AFHTTPRequestOperation alloc]initWithRequest:request];
//<4>将请求下来的数据显示在UI上
[operation setCompletionBlockWithSuccess:^(AFHTTPRequestOperation *operation, id responseObject) {
//【注意】对象请求数据 内部是同步进行数据请求的
UIImage * image = [UIImage imageWithData:responseObject];
UIImageView * imageView = (UIImageView *)[self.view viewWithTag:i 1];
imageView.image = image;
} failure:^(AFHTTPRequestOperation *operation, NSError *error) {
NSLog(@"%@",error.description);
}];
[requestArr addObject:operation];
}
创建队列对象
NSOperationQueue * queue = [[NSOperationQueue alloc]init];
设置队列中同一时刻请求数据的对象个数
queue.maxConcurrentOperationCount = 4;
将所有请求对象放在队列中
[queue addOperations:requestArr waitUntilFinished:NO];
形式二:POST方法(POST请求 经常用于登录、注册、文件上传等操作)
方法一:
NSURLConnection:(需要当前类遵守协议NSURLConnectionDataDelegate实现协议中必须实现的三个方法)
<1>将字符串网址转化成NSURL
NSURL * url = [澳门新萄京:多线程爬取速卖通评论,实例讲解。NSURL URLWithString:PATH];
<2>封装请求对象
[注意]GET请求 封装的请求对象类型为NSURLRequest

POST请求 封装的请求对象类型为NSMutableURLRequest
NSMutableURLRequest * request = [NSMutableURLRequest requestWithURL:url];
<3>设置请求方式
默认请求的方式是GET请求
[request setHTTPMethod:@"Post"]
<4>设置请求的样式
当前的请求体样式 参数名=参数值&参数名=参数值...
[request setValue:@"application/x-www-form-urlencoded" forHTTPHeaderField:@"Content-Type"];
<5>拼接请求体
NSString * bodyStr = [NSString stringWithFormat:@"username=%@&password=%@&email=%@",self.nameTextField.text,self.pswTextField.text,self.emailTextField.text];
<6>设置请求体的长度
[注意]设置请求体的长度 设置的是请求体字符串对应的NSData的长度
NSData * bodyData = [bodyStr dataUsingEncoding:NSUTF8StringEncoding];
[request setValue:[NSString stringWithFormat:@"%d",(int)bodyData.length] forHTTPHeaderField:@"Content-Length"];
<7>将请求体拼接到请求头后面
[request setHTTPBody:bodyData];
<8>开始请求数据
[NSURLConnection connectionWithRequest:request delegate:self];
方法二 AFNetWorking
//<1>创建请求操作管理这对象
AFHTTPRequestOperationManager * manager = [AFHTTPRequestOperationManager manager];
<2>设置接收的数据类型
manager.responseSerializer.acceptableContentTypes = [NSSet setWithObject:@"text/html"];
<3>拼接请求体
AFNetworking进行post请求 请求体拼接使用字典封装
字典的键为接口文档中的参数名 字典中的值为参数值
NSDictionary * dic = @{@"username":self.nameTextField.text,@"password":self.pswTextField.text};
<4>开始请求数据并解析
[manager POST:LOGINPATH parameters:dic success:^(AFHTTPRequestOperation * _Nonnull operation, id _Nonnull responseObject)
{
NSString * message = responseObject[@"message"];
NSString * code = responseObject[@"code"];
} failure:^(AFHTTPRequestOperation * _Nonnull operation, NSError * _Nonnull error) {
NSLog(@"%@",error.description);
}];

分析评论数据请求策略

分析请求就是看看我们目标数据是从哪个http请求请求过来的。在速卖通我们随便打开一个产品页,如下图

澳门新萄京 1

feedback肯定就是评论的意思,我们点击评论,并右键进入开发者工具

澳门新萄京 2

image.png

从谷歌开发者工具Elements选项我们可以看出评论在类.buyer-feedback这个dt元素里。
尝试1:我们从浏览器复制链接,然后用requests向该链接发出get请求

澳门新萄京 3

image.png

咦,评论明明在这个页面,为什么请求成功却取不到这些评论数据。
这就是动态请求数据与静态请求的区别,静态请求数据一般都是服务器端渲染好的了,你请求到的时候已经填充了数据,而动态请求是,客户端通过发送ajax请求,将数据请求到前端,然后由前端来渲染的,即用js把数据插入html页面中的,所以真正的数据是通过另一个请求得到的,所以现在的问题就是要找到这个请求评论数据的地址。
重新刷新页面,右键开发者工具 进入network选项,如下图

澳门新萄京 4

image.png

可以发现,现在已经有了160多个请求,所以在点击feedback之前一定要先clear掉现在所有的请求,否则你一点feedback,会出现更多请求,就不好判断是哪个请求请求得到了评论数据
clear掉之后,点击feedback,会看到你在点了feedback之后出现的请求,所以评论数据的请求地址一定在这些请求当中

澳门新萄京 5

image.png

这时候你基本有俩个选择,如果请求数不多的话,点击每一个请求,看看是不是;如果请求还是比较多,你可以利用谷歌开发者工具上边的请求过滤器,默认是显示全部类型的请求,因为你要找的是评论数据,那么肯定不是图片,css,media,Font等类型,最有可能的是XHR,JS,Doc
XHR即通过ajax异步请求的数据,JS即js文件,这个也是有可能的,Doc即html文档

澳门新萄京 6

image.png

然后我们分别点击XHR,JS,Doc,一个个试(这个没好办法,只能一个个试,但是你经验越丰富,你试出来的时间越短,比如你从请求链接里的某个英文单词,就大概可以猜出)最终在XHR,JS里都没有发现,那么按照排除法,只能在DOC里边的请求了,doc下只有俩个请求,其中一个请求中还有productEvaluation等字眼,直接告诉我,没问题,就是它了。

澳门新萄京 7

image.png

选择preview或者response,往下拉一拉,很快就发现了评论数据,果然不出我所料,正常人在这个时候是有点爽的。
然后,我们来看看请求信息,选择Headers

澳门新萄京 8

image.png

然后,我们模仿该请求来进行第二次尝试
尝试2:我们直接从浏览器复制请求头,连cookie一起复制

澳门新萄京 9

image.png

requests.get(url,headers=headers) 带header请求发送get请求

可以发现,我们已经正确取到了评论数据,正常人这个时候应该感觉更爽才对。
既然评论的请求地址搞清楚了,那么接下来考虑的是增大数据量爬取,看看会不会遇到什么问题,因为评论有很多页,所以我们很自然的想到可以考虑按页数爬取全部的数据,但是就在我打算写代码的时候,我才突然发现我不知道怎么写!为什么,因为我突然发现刚才这个请求里没有任何有关页数的信息!
不过,没关系,这个办法很好解决,因为页面上是有分页按钮的,所以我们点击第二页,看看第二页数据是怎么请求来的
还是按照之前的办法,先clear掉之前的请求,然后点击第二页,观察有哪些新的请求出现,这个过程和之前类似,我们很快就找到这个第二页数据的请求地址

澳门新萄京 10

image.png

这个请求是POST请求,然后我分析提交的数据,发现里边有一个key是page,值是2,那么这个page肯定是用来控制分页,所以其实这个接口才是真正的数据请求接口,可以根据不同的产品ID,卖家ID,页数等信息获取评论数据。到底是不是,我们继续测试,同样复制请求头,和请求数据,cookie也要正确复制,否则得不到数据
尝试3

澳门新萄京 11

image.png

requests.post(url,headers=headers,data=data) 可以带请求头和数据发出请求

可以发现,成功获取到了数据,至此,我找到了数据请求地址,但是接下来还有一个最复杂的问题。
我随便换一个产品ID,甚至让它为空,会发现请求到的数据还是原来的数据,如下图

澳门新萄京 12

image.png

我们继续观察post的数据

澳门新萄京 13

image.png

会注意到有一个_csrf_token:xz4r263hT4WbCYfPCtSbq3 这个值,我猜肯定这个值是根据产品ID等信息变化的,也就是只有这个token对了,才可以拿到数据。(别问我为什么可以猜到,直觉)
我们改一下这个token值

澳门新萄京 14

数据立刻就请求不到了!!!
搞了这么多,如果不能正确获取token,前边的分析都意义不大,总不能每次换一个产品,就手动去浏览器里手动复制token吧。
那么这个token是怎么来的呢?
经过我一天的摸索(这个我真心没什么技巧,有的是服务器端生成的,有的是通过js执行脚本生成的),我终于发现了端倪。
还记不记得我们第一次尝试,即第一页的评论是通过GET请求得到的,其实那个页面除了请求第一页评论外,还拿到了这个token值,如图

澳门新萄京 15

image.png

md,藏的可真深呐!!!

如果大家看不懂,这里有一个视频讲的还是相当详细的

     (1)实时行情:只要用户在该页面,不分白天晚上,开盘收盘,每5秒请求一次;离开该页面,请求停止;每收到实时行情补偿到分时小图中

      (2)分时小图:竞价排名和连续撮合期间,每60秒请求一次;其它时间,若本地无分时数据,请求一次,若有,不请求分时数据;

  2.个股页(股票详情页)

结论

所以最终请求策略就是
先根据productid,ownerMemberid,companyId构造一个url,如下

url1=https://feedback.aliexpress.com/display/productEvaluation.htm?productId=32466567934&ownerMemberId=223275770&companyId=232994171&memberType=seller&startValidDate=&i18n=true

向这个url发送get请求,取到token值,同时保存cookie
然后带着这个cookie,以及token和其它数据向

url2=https://feedback.aliexpress.com/display/productEvaluation.htm

post数据,就ok了

 基于python requests库的 伪代码
  session=requests.Session() #用session是为了保存cookie
  res=session.get(url1,header=header)
  # 获取token
  token=get_token(res)
  data={
    ...
    '_csrf_token':token
  }
  comment=session.post(url2,headers=headers,data=data)
  # 解析评论数据
  data_list=parseComment(comment)
  # 保存评论数据
  store_data(data_list)

       用户停留该页面时,每5秒请求一次实时行情数据;离开该页面停止请求

最后

到此,我们基本已经搞清楚了速卖通评论的请求策略,在下一篇文章中,我们开始采用代理IP以及多线程来编写最终代码。

       (1)若页面呈现分时图,每60秒请求当日分时数据,每5秒请求该股票当日最后五组分时数据;离开该页面停止请求

        (2)若页面呈现日K图,每60秒请求该股票的日K数据;离开该页面停止请求

      具体细则说明:

       (1)实时行情:只要用户在该页面,不分白天晚上,开盘收盘,每5秒请求实时行情;离开该页面,请求停止

       (2)分时图:竞价排名和连续撮合期间,每60秒请求一次当日分时数据,每5秒请求一次当日分时的最后五组数据;其它时间,若本地无分时数据,请求一次;若有,不请求分时数据;

       (3)日K图:竞价排名和连续撮合期间,每60秒请求一次日K数据,每5秒判断实时行情和日K最后一组数据的最大最小值进行补偿;其它时间,若本地无日K数据,请求一次;若有,不请求日K数据;

  3.股友动态页

       用户停留在该页面时,每5秒请求一次实时行情;每60秒请求一次该股票的分时数据;离开该页面,停止请求

具体细则说明:

        (1)实时行情:只要用户在该页面,不分白天晚上,开盘收盘,每5秒请求一次实时行情;每隔5秒补偿到分时小图中。离开该页面,请求停止

       (2)分时小图:竞价排名和连续撮合期间,每60秒请求一次,其它时间,若本地无分时数据请求一次,若有,不请求分时数据;离开该页面,请求停止。

4.横屏页

      用户在该页面时,每5秒请求一次实时行情,另外:

    (1)分时数据 每60秒请求一次当日分时数据,每隔5秒请求一次当日分时最后五组数据

    (2)5日分时每60秒请求一次

    (3)竞价排名和连续撮合期,日K,周K,月K每60秒请求一次,其它时间,若本地无分时数据请求一次,若有,不请求;

    具体细则说明:

      (1)实时行情只要停留在该页面总会不停刷新;

      (2)五档数据包含在实时行情数据中,不需要另外请求,每5秒和实时行情一起刷新界面

   (3)用户切换(分时,5日分时,日K,周K,月K)到该项才启动该项网络请求;比如用户切换到日K,其他项目请求停止(分时,5日分时,周K,月K),日K请求启动

本文由澳门新萄京发布于www.澳门新萄京赌场,转载请注明出处:澳门新萄京:多线程爬取速卖通评论,实例讲解

上一篇:澳门新萄京:NPOI处理Word文本中上下角标,步入程 下一篇:没有了
猜你喜欢
热门排行
精彩图文