博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
动态HTML处理和机器图像识别-----动态HTML介绍
阅读量:5916 次
发布时间:2019-06-19

本文共 1042 字,大约阅读时间需要 3 分钟。

JavaScript

JavaScript 是网络上最常用也是支持者最多的客户端脚本语言。它可以收集 用户的跟踪数据,不需要重载页面直接提交表单,在页面嵌入多媒体文件,甚至运行网页游戏。

我们可以在网页源代码的<scripy>标签里看到,比如:

jQuery

jQuery 是一个十分常见的库,70% 最流行的网站(约 200 万)和约 30% 的其他网站(约 2 亿)都在使用。一个网站使用 jQuery 的特征,就是源代码里包含了 jQuery 入口,比如:

如果你在一个网站上看到了 jQuery,那么采集这个网站数据的时候要格外小心。jQuery 可 以动态地创建 HTML 内容,只有在 JavaScript 代码执行之后才会显示。如果你用传统的方 法采集页面内容,就只能获得 JavaScript 代码执行之前页面上的内容。

Ajax

我们与网站服务器通信的唯一方式,就是发出 HTTP 请求获取新页面。如果提交表单之后,或从服务器获取信息之后,网站的页面不需要重新刷新,那么你访问的网站就在用Ajax 技术。

Ajax 其实并不是一门语言,而是用来完成网络任务(可以认为 它与网络数据采集差不多)的一系列技术。Ajax 全称是 Asynchronous JavaScript and XML(异步 JavaScript 和 XML),网站不需要使用单独的页面请求就可以和网络服务器进行交互 (收发信息)。

DHTML

Ajax 一样,动态 HTML(Dynamic HTML, DHTML)也是一系列用于解决网络问题的 技术集合。DHTML 是用客户端语言改变页面的 HTML 元素(HTML、CSS,或者二者皆 被改变)。比如页面上的按钮只有当用户移动鼠标之后才出现,背景色可能每次点击都会改变,或者用一个 Ajax 请求触发页面加载一段新内容,网页是否属于DHTML,关键要看有没有用 JavaScript 控制 HTML 和 CSS 元素。

那么,如何搞定?

那些使用了 Ajax 或 DHTML 技术改变 / 加载内容的页面,可能有一些采集手段。但是用 Python 解决这个问题只有两种途径:

  1. 直接从 JavaScript 代码里采集内容(费时费力)
  2. 用 Python 的 第三方库运行 JavaScript,直接采集你在浏览器里看到的页面(这个可以有)。

转载于:https://www.cnblogs.com/joshuazc/p/9790868.html

你可能感兴趣的文章
【微信开发】—7200s限制,非数据库
查看>>
学习过程中的图形学知识补充用文档
查看>>
C#高级编程阅读笔记一(关于值类型和引用类型)
查看>>
Java内部类学习笔记
查看>>
双机热备份
查看>>
Clean Code – Chapter 3: Functions
查看>>
POJ NOI0113-03 八进制小数(PKU2765)
查看>>
Linux文件系统 硬链接与符号链接
查看>>
var functionName = function() {} vs function functionName() {}
查看>>
java_有秒计时的数字时钟
查看>>
我的架构设计~用层关系图说说mvc,mvvm,soa,ddd
查看>>
Python 函数递归-三元表达式-列表生成式-字典生成式-匿名函数-内置函数
查看>>
二进制与字符编码
查看>>
如何去除小程序button的边框
查看>>
JavaScript Data.parse()转化时间戳安卓和ISO不兼容
查看>>
shell脚本的执行方式
查看>>
Microsoft Report Designer Undocumented Error 解决方案
查看>>
redis数据结构存储SDS设计细节(redis的设计与实现笔记)
查看>>
数学之美系列二十四 -- 谈谈动态规划
查看>>
【内存溢出】Maven编译时内存溢出的问题解决方式
查看>>