1.增量式爬虫中的()指的是:爬虫以相同的频率访问所有网页,不考虑网页的改变频率。
A.统一更新法
B.基于分类的更新法
C.随机更新法
D.个体更新法
2.采集的目标是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。
A.聚焦网络爬虫
B.深层网络爬虫
C.通用网络爬虫
D.增量式网络爬虫
3.HTTP请求中的()字段可能为类似"Mozilla/5.0(iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en-us)AppleWebKit……”这样的信息。
A.cookie
B.Host
C.User-Agent
D.Connection
4.以下对于爬行策略的说法,不正确的是()。
A.广度优先策略能够有效控制页面的爬行深度,避免遇到一个无穷深层分支时无法结束爬行的问题
B.深度优先策略比较适合垂直搜索或站内搜索,但爬行页面内容层次较深的站点时会造成资源的巨大浪费。
C.深度优先策略不足之处在于需较长时间才能爬行到目录层次较深的页面。
D.通用网络爬虫常用的爬行策略有:深度优先策略、广度优先策略
5.数据的预处理ETL的L表示()。
A.清洗
B.抽取
C.加载
D.转换
6.的基本方法是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。
A.PageRank优先策略
B.随机爬行策略
C.广度优先策略
D.深度优先策略
7.如果要采集指定的数据,则需要使用到(),因为它只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快。
A.增量式网络爬虫
B.深层网络爬虫
C.通用网络爬虫
D.聚焦网络爬虫
8.HTTP中()方法可用于请求查询服务器的性能,或者查询与资源相关的选项和需求。
A.TRACE
B.OPTIONS
C.PUT
D.DELETE
9.通过HTTP或者HTTPS协议请求的资源由()来标识。
A.TCP
B.FTP
C.URL
D.HTML
10.的搜索策略是指按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止,比较适合垂直搜索或站内搜索。
A.深度优先
B.基于目标特征
C.广度优先
D.基于领域
11.以下关于网络爬虫的说法,不正确的是()。
A.网络爬虫实际上是一种"自动化浏览网络”的程序,或者说是一种网络机器人
B.网络爬虫被广泛用于互联网搜索引擎或其他类似网站
C.目前互联网上的信息分类大多数都是人工完成的
D.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列直到满足系统的一定停止条件
12.一次HTTP由()组成。
A.一次请求
B.2次请求
C.一次请求和一次响应
D.一次响应
13.以下哪个属于深层网页
A.用户注册后内容才可见的网页
B.网站首页
C.超链接可以到达的静态网页
D.网站导航页
14.在HTTP请求中,通过()方法发送的数据,会放在URL之后,以?分割URL和传输数据,参数之间以&相连。
A.POST
B.GET
C.TRACE
D.PUT
15.追求高数据质量是对大数据的一项重要要求,要消除某些数据的不可预测性,去掉一些"杂乱”的"脏”数据,就涉及到()技术。
A.数据预测
B.数据采集
C.数据清洗
D.数据统计
16.以下不能匹配正则表达式"^[d]+$"的是()。
A.123
B.10
C.12
D.12abc
17.数据转换不包括()。
A.不一致数据转换
B.不完整的数据
C.商务规则的计算
D.数据粒度的转换
18.正则表达式的规则中,()表示匹配所有非空白字符
A.d
B.S
C.w
D.W
19.HTTP请求的响应状态码为403表示()。
A.服务器连接超时
B.请求成功
C.服务器忙
D.对被请求页面的访问被禁止
20.HTTP响应中的()指明实体正文的长度,以字节方式存储的十进制数字来表示。
A.Content-Range
B.Content-Length
C.Content-Encoding
D.Content-Language
21.PageRank优先策略常用于()。
A.所有网络爬虫
B.DeepWeb爬虫
C.增量式网络爬虫
D.通用网络爬虫
22.以下不能匹配正则表达式"^[w]+$"的是()。
A.S1
B.S+1
C.S_1
D.12
23.数据质量的()表示数据是否正确的表示了现实或可证实的来源。
A.一致性
B.完备性
C.完整性
D.正确性
24.以下哪个属于HTTP请求信息()。
A.User-Agent
B.Content-Length
C.Expires
D.Accept-Ranges
25.HTTP请求的()能使客户端到服务器端的连接持续有效,当出现对服务器的后继请求时,避免了建立或者重新建立连接。
A.Host
B.Referer
C.cookie
D.Keep-Alive
26.深层网络爬虫的基于网页结构分析的表单填写法一般将网页表单表示成(),从中提取表单各字段值。
A.图像
B.BOM树
C.DOM树
D.文本
27.数据()的任务是过滤那些不符合要求的数据。
A.转换
B.抽取
C.清洗
D.加载
28.以下不属于数据质量的规范、完整性要求的是
A.遗留系统相关信息与其他模块要一致
B.参照完整性未被破坏:数据不会找不到参照
C.数据在内部一致
D.不存在交叉系统匹配违规,数据被很好集成
29.通过使用Web浏览器、网络爬虫或者其它的工具,客户端发起一个到服务器上指定端口的HTTP请求。我们称这个客户端叫()。
A.用户代理
B.源服务器
C.播放器
D.数据库
30.HTTP请求中的()头域的内容包含发出请求的用户信息。
A.User-Agent
B.Referer
C.cookie
D.Authorization
31.在HTP响应信息中,若状态信息码是200则表示()。
A.所请求的页面已经转移至新的url
B.登录失败
C.请求成功
D.访问被禁止
32.如果HTTP请求的响应信息是404,则应采取下列哪项措施()。
A.再次核对请求的页面地址是否正确
B.向网管报障
C.检查浏览器权限
D.向管理员请求用户名和密码
33.正则表达式[a-z]可以匹配()。
A."a”到"z”范围内的任意小写字母字符
B.字母字符"a”或"z”
C."a”到"z”范围内的任意字母字符
D.小写字母字符"a”或"z”
34.以下不属于HTTP协议请求方法的是
A.TRACE
B.SUBMIT
C.POST
D.GET
35.HTTP请求的POST方法请求服务器存储一个资源,并用Request-URI作为其标识。
36.HTTP请求中的Range头域内容包含发出请求的用户信息。
37.深度优先策略的基本方法是按照深度由低到高的顺序,依次访问下一级网页链接。
38.网络数据采集不能处理非结构化数据。
39.HTTP状态码500表示由于客户端原因造成的请求失败。
40.聚焦网络爬虫爬行页面的顺序要求相对较低。
41.Web服务器不保存发送请求的Web浏览器进程的任何信息。
42.对于数据量大的系统,一般也常做一次性的数据抽取。
43.HTTP请求中的cookie表示客户端类型。
44.聚焦网络爬虫又称主题网络爬虫。
45.表层网页(SurfaceWeb)中可访问信息容量是深层网页(DeepWeb
46.HTTP请求中Referer头域的内容包含发出请求的用户信息。
47.正则表达式中的饥饿模式匹配尽可能多的文本。
48.数据质量具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等。
49.网络爬虫实际上是一种"自动化浏览网络”的程序。
50.HTTP请求的TRACE方法请求查询服务器的性能,或者查询与资源相关的选项和需求。
51.深度优先策略比较适合垂直搜索或站内搜索,但爬行页面内容层次较深的站点时会造成资源的巨大浪费。
52.正则表达式由一些普通字符和一些元字符组成。
53.HTTP请求的PUT方法请求服务器回送收到的请求信息,主要用于测试或诊断。
54.深层网页中存储的信息量只占互联网中信息量的极少部分。
55.聚焦爬虫只需要爬行与主题相关的页面。。
56.POST提交的数据大小有限制,最多只能有1024字节。
57.HTTP的请求头域可能包含Authorization、Referer、Content-Type、Content-Encoding等部分。
58.HTTP请求中的Range头域可以请求实体的一个或者多个子范围。
59.广度优先策略按照网页内容目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行。
60.数据清洗是一个一次性的过程。
61.网络爬虫总是要从某个起点开始爬,这个起点叫做种子。
62.通用网络爬虫对于爬行速度和存储空间要求较高。
63.正则表达式支持匹配边界,例如单词边界,文本的开头或末尾。
64.在HTTP响应信息中状态信息码是一个重要的信息。
65.正则表达式中$匹配行首。
66.爬虫工具只能用Java语言编写。
67.HTTP请求的OPTIONS方法请求查询服务器的性能,或者查询与资源相关的选项和需求。
68.实际的网络爬虫系统通常是几种爬虫技术相结合实现的。
69.HTTP状态码400表示请求成功。。
70.可以从一个HTTP请求中了解到一些信息,例如:发出请求的客户端,请求的语言,是否保持连接(keep-alive),等等。
71.HTTP请求方法中的DELETE用于请求服务器删除Request-URI所标识的资源。
72.Java语言不支持正则表达式。。
73.正则表达式中的贪婪模式匹配尽可能多的文本。
74.数据质量的正确性(Accuracy)指数据是否正确的表示了现实或可证实的来源。
75.GET请求获取Request-URI所标识的资源。
76.聚焦网络爬虫常用的爬行策略有深度优先策略、广度优先策略。
77.表层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的网页。
78.深层网页中包含的信息远远少于表层网页,没什么爬取价值。
79.网络爬虫被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。
80.目前互联网上的信息分类大多数都是人工完成的。
81.正则表达式的量词+表示0次或多次。
82.正则表达式中$匹配行尾。
83.增量式网络爬虫数据下载量和时间及空间上的耗费都较大。
84.超文本传输协议通常由HTTP客户端发起一个请求,建立一个到服务器指定端口的TCP连接。
85.HTTP的响应包括Content-Encoding、Content-Length、Content-Type等。
86.深层网页的数量比表层网页要少的多。
87.聚焦网络爬虫和通用网络爬虫相比,增加了链接评价模块以及内容评价模块。
88.DELETE请求服务器删除Request-URI所标识的资源。
89.数据质量的时效性指数据是否在企业定义的可接受的范围之内。
90.深度优先策略比较适合垂直搜索或站内搜索。
91.不同的企业有不同的业务规则、不同的数据指标,这些指标通过简单的加减、组合就能完成。
92.正则表达式中的饥饿模式匹配尽可能少的文本。
93.通用网络爬虫适用于为搜索引擎搜索广泛的主题,有较强的应用价值。
94.正则表达式[abc]表示字符串abc。
95.HTTP状态码500表示由于服务器原因造成的请求失败。
96.通用网络爬虫通常采用并行工作方式,但需要较长时间才能刷新一次页面。
97.HTTP请求方法常用的有GET、HEAD.POST。
98.HtmlParser是一个Java编写的html解析的库。
99.正则表达式的量词?表示0次或多次。
100.HTTP请求由三部分组成,分别是:请求行、消息报头、请求正文。