相关动态
网络爬虫入门(学习笔记)
2024-11-10 21:30

        抓取百度首页的HTML源代码,并将其保存到一个名为baidu.html的文件中。打开这个文件,可以看到一个和百度首页一模一样的页面。

网络爬虫入门(学习笔记)

 

        可以使用Chrome浏览器,按下F12打开开发者工具。

ElmentsJavascript代码以及用户操作之后显示的页面效果Console:运行Javascript代码片段,显示网页运行时的日志、错误和警告信息

Sources:查看和调试网页的源代码文件

Network:查看网页的所有网络请求

         HTTP(HyperText Transfer Protocol,超文本传输协议)是用于传输超文本(如HTML)的应用层协议,是现代Web通信的基础。它定义了客户端(如Web浏览器)和服务器之间如何请求和传递数据。         HTTP协议把一条消息分为三大块内容,无论是请求还是响应都是三块内容。 

  • 请求行:请求方式(get/post),请求url地址,协议版本
  • 请求头:提供了附加信息,帮助服务器处理请求
  • 请求体 :一般放一些请求参数
  • 状态行 :协议版本,状态码,状态文本 
  • 响应头:提供了一些附加信息,帮助客户端处理响应
  • 响应体 :服务器返回的真正客户端要用的内容(HTML,json)等

求头的重要内容

  • User-Agent:标识请求的来源,告诉服务器客户端的身份
  • Referer:指示当前请求的来源页面URL,用于防盗链和反爬虫,服务器可以通过Referer头判断请求是否合

  • cookie:存储和传递会话信息和用户信息,通常用于身份验证和跟踪用户状态。在爬虫中,通过设置合适的cookie,可以模拟登录后的状态,访问需要身份验证的页面。

响应头的重要内容

  • cookie: 本地字符串数据信息(用户登录信息, 反爬的token)
  • 各种字符串,防止攻击和反爬

请求方式

  • GET

    • 作用:请求从服务器获取资源。
    • 特点:参数包含在URL中,适合请求静态资源或查询操作。
    • 用途:爬取网页内容,获取数据。
  • POST

    • 作用:向服务器提交数据。
    • 特点:参数包含在请求体中,适合提交表单、上传文件等操作。
    • 用途:模拟用户登录,提交表单数据。
 

请输入你要搜索的内容:你好 搜索结果已保存到sogou_search_results.html文件中。 

 

请输入你要翻译的英语单词:hello 翻译结果: int. 打招呼; 哈喽,喂; 你好,您好; 表示问候 n. “喂”的招呼声或问候声 vi. 喊“喂

 

电影数据已保存到 douban_movies.csv 文件中。

 

图片已保存为 Example.jpg 

    以上就是本篇文章【网络爬虫入门(学习笔记)】的全部内容了,欢迎阅览 ! 文章地址:http://dgaty.xhstdz.com/quote/66673.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://dgaty.xhstdz.com/mobile/ , 查看更多   
发表评论
0评