脚本语言
脚本(Script),是使用一种特定的描述性语言,依据一定的格式编写的可执行文件。
基本概述
脚本语言又被称为扩建的语言, 或者动态语言, 是一种编程语言, 用来控制软件应用程序, 脚本通常是以文本 (ASCⅡ) 保存, 只是在被调用时进行解释或者编译。
打开Windows系统中常见的扩展名为.bat的批处理文件,会出现一个黑色窗口,若干白字迸发而出,这就是批处理文件,也就是脚本文件。
最常见的脚本语言有:JavaScript,ASP,JSP,PHP,SQL,Shell,Python等。
应用 Shell 脚本完成对数据库系统一些重要进程的监控以及系统开机服务的自动开启工作。比如服务器的启停工作。
脚本语言与编程语言的区别
脚本语言和编程语言之间没有绝对的界限,它们之间存在着一定的模糊性。但一般来说,我们可以从以下几个方面来区分:
特征 | 脚本语言 | 编程语言 |
---|---|---|
执行方式 | 解释执行 | 编译执行 |
类型系统 | 动态类型,弱类型 | 静态类型,强类型 |
应用场景 | 控制软件、网页脚本、自动化任务 | 系统软件、大型应用、游戏开发 |
开发周期 | 快速开发 | 开发周期较长 |
性能 | 执行效率相对较低 | 执行效率较高 |
常见语言 | JavaScript,ASP,JSP,PHP, SQL,Shell,Python等等 |
C/C++,C#,Java,Go等等 |
网络爬虫
网络爬虫(又被称为网页蜘蛛、网络机器人、蚂蚁、自动索引、模拟程序或者蠕虫),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
通俗的讲,爬虫就是能够自动访问互联网并将网站内容下载下来的的程序或脚本,类似一个机器人,能把别人网站的信息弄到自己的电脑上,再做一些过滤,筛选,归纳,整理,排序等等。
可以做爬虫的语言:PHP,JAVA,C#,C++,Python等。
Python进行爬虫开发是有其独特的优势,上手快,难度低,第三方插件很完善,开发难度低。这些优点是其他语言不能比拟的,所以Python是编写爬虫的首要语言。
互联网名词解释
RSS订阅
RSS 订阅是一种通过 RSS(Really Simple Syndication,简易信息聚合)技术来订阅网站内容更新的方式。它允许用户无需访问网站即可获取最新的信息,例如新闻、博客文章、播客等。简单来说,RSS 就像一个“订阅器”,帮你自动收集你感兴趣的网站的最新内容。
工作原理:
- 网站提供 RSS 源(Feed): 网站会生成一个包含最新内容的 XML 文件,这个文件就是 RSS 源。它包含了文章标题、链接、摘要等信息。
- 用户使用 RSS 阅读器订阅: 用户使用 RSS 阅读器(也称为聚合器)订阅网站的 RSS 源地址。
- 阅读器自动更新: RSS 阅读器会定期检查订阅的 RSS 源,一旦发现有新内容,就会自动下载并显示给用户。
RSS 订阅的优点:
- 方便快捷: 无需频繁访问网站,即可获取最新信息。
- 信息集中: 在一个地方查看所有订阅的内容,节省时间。
- 个性化订阅: 只订阅自己感兴趣的内容,过滤无关信息。
- 无广告干扰: 通常只显示文本和图片,没有广告干扰。
域名与IP地址
域名就是IP地址的一种形象化的表达方式。比如 “www.baidu.com" 指的是域名,百度的IP地址是[115.239.210.27],一般是使用域名登录网站,容易记忆。
DNS(域名系统):用来把机器名字转换成IP地址。
IPv4长这样:192.168.1.1,255.255.255.255
IPv6长这样:2001:0DB8:02de:0000:0000:0000:0000:0e13
机器很喜欢这样的格式,换成二进制非常容易处理。但输入这么长串的IP地址非常不方便,因此需要域名来代替具体的某IP地址。但机器是不认识”www.baidu.com"这些字母组成的域名,这时候就需要DNS服务器将"www.baidu.com"域名转换成对应的IP地址。
全球有很多域名服务器,用来存储从域名到IP地址的映射。我们每台终端,无论手机还是电脑,在联网的时候都会配置一个DNS地址,就是DNS服务器的IP地址。你填的那个8.8.8.8就是google公司设立的DNS服务器。在上网的时候电脑会去向这些DNS服务器查询域名对应的IP。
Hosts是干什么用的
在互联网的早期,网络只有几台电脑。人们用hosts文件记录机器名字到IP的映射,后来网络的规模越来越大,hosts文件记录映射已经不可行了,所以发明了DNS,域名系统。但是hosts文件仍然保留在操作系统中,hosts文件的优先级高于DNS查询。操作系统首先会在hosts文件中找域名对应的IP地址,没有找到它才会去问DNS服务器。
VPN(虚拟专用网)
VPN的本意是在公用网络上建立专用网络。
设想你是一名公安民警,你出差在外住酒店,需要到公安内部网络查询某些资料。但是酒店的网络是公有网络,数据传输途中要经过酒店的路由,ISP的路由。中途任何有技术的人都可以看到你跟内部网络之间的明文通信。这时候需要在你和公安内部网络建立一条加密的专用信道。发送数据的时候加密,接收数据的时候解密,加解密的方式事先设定好。这样第三方看到加密过后的数据也无法理解其中的含义。
由于中国国情比较奇葩,发明了GFW(中国国家防火墙)这种东西,GFW是对中国政府在其管辖互联网内部建立的多套网络审查系统(包括相关行政审查系统)的称呼。
于此对应我们伟大的程序员发明了用VPN科学上谷歌的方法。如果你明文请求Google主机,GFW会直接重置连接。但是你在国外有个VPN代理服务器,代理服务器帮你请求Google;再把Google的响应用加密的方式转发给你。因为你跟VPN代理之间是加密传输,GFW不知道你访问的是Google,它不可能把所有发到国外的请求都重置掉,所以成功突破封锁。
CDN是内容分发网络
目的是让用户能够更快速的得到请求的数据。
- 由于跨地区、跨网络运营商访问网站会有明显的壁垒,访问速度很慢。为了解决这个问题,有些机构会在一些关键地区、机房设立代理服务器(也就结点),这些节点上会缓存网站的部分内容,当用户访问网站时,就近选择合适的结点,从何提高网站的访问速度。
- vpn和cdn都能对访问网站起到一定的加速作用。但vpn需要账号和密码,所以只用拥有账号和密码的用户才能使用,不是对所有访问网站的人都有加速作用;cdn是在各地设置结点,对绝大多数访问用户都有一定的加速作用。
暗网领域
整个互联网可以划分为明网、深网和暗网三个类别:
明网(Surface Web),是指能被普通搜索引擎检索到的网络以及网站,约占整个互联网的4%。网站内容可以用普通搜索引擎(比如 Google、百度、搜狗)检索到的网站。我们的大部分上网时间,都是停留在明网上。
与明网相对的,被称为深网(Deep Web),是指内容不能被普通搜索引擎检索到的网络,约占整个互联网的 96%。深网里面的内容,需要账号密码、访问权限等才可以访问。比如说,我们邮箱里的内容,存储在云服务里面的内容,公司的数据库,学术论文数据库等等,都属于深网的范畴。我们的一部分上网时间,停留在深网上。
在深网这个大范畴下,还有一部分网络被称为暗网(Dark Web),需要通过特定的Tor浏览器 、特殊授权或者特殊设置、特殊软件才能链接上的网络,普通的浏览器和搜索引擎无法进入。
暗网的特点是经过加密,隐秘性极强,不易追踪到真实的地理位置和使用者的身份。这也导致了暗网上充斥着许多非法交易,比如贩卖JH、DP、SFZ护照等隐私数据信息等等。