面试技巧

关注公众号 jb51net

关闭
IT专业知识 > IT职场规划 > 面试技巧 >

关于Python爬虫面试170道题(推荐)

葫芦娃的爷爷

#背景

今天在痴海的公众号看到了170道爬虫相关的题目,打算自己在这里先回答能够回答的部分,等6月23日出正式结果了对比一下看看,自己和大佬之间的天埑有多宽

#答题部分

##语言特性

1.谈谈对 Python 和其他语言的区别
答:Python属于比较“自由”的语言,首先变量使用前不需要声明类型,其次语句结束不需要使用分号作为结尾,同时不需要大括号进行代码块的标注,使用缩进对大括号进行代替。

2.简述解释型和编译型编程语言
答:编译型语言是将代码编译成机器码,然后执行,通过编译可以使得程序直接以机器码的形式进行工作。通俗一点就是将整个程序一次性编译后再执行。解释型语言则是编译一句执行一句,编译到哪里执行到哪里,每次执行前都要逐句编译。通常情况下编译型语言执行速度比解释型快,但是现在的解释器经常会针对语言进行优化,所以有时候解释型语言速度反而比编译型快。

3.Python 的解释器种类以及相关特点?
答:CPython,官方使用的解释器,用C语言编写。IPython,基于CPython开发,增强了交互性。JPython,将Python编译成Java字节码。IronPython,将Python编译为.Net的字节码。

4.说说你知道的Python3 和 Python2 之间的区别?
答:1、print由关键字变为了函数。2、Python3默认使用utf-8,解决了Python2中使用ACSII导致的中文乱码问题。3、将xrange与range进行合并,在Python3中只存在range一种写法,本质上是xrange。

5.Python3 和 Python2 中 int 和 long 区别?
答:Python2中,int型能表示的数字长度取决于系统位数,32位系统长度为32位,64位系统长度为64位,long型则不受长度限制。在Python3中,所有的整型都为长整型。

6.xrange 和 range 的区别?
答:两关键字都是用于生成指定范围的列表,在Python3中已经合并为range了。在Python2中,xrange生成结果为迭代器,占用空间小,range生成结果为列表,占据空间较大。

##编码规范

7.什么是 PEP8?
答:PEP8是Python编程的一种格式要求,为了提高程序的可读性和规范性,在程序员之间互相约定好的一种代码格式,详情可见小歪的博客

8.了解 Python 之禅么?
答:在Python的交互模式下输入 import this 就能看到Python之禅的内容了。

9.了解 dosctring 么?
答:Python推崇代码即文档,通常在函数中第一个语句即表明了函数的用法及接受的参数,可以通过functiong.__doc__属性来获得。

10.了解类型注解么?
答:类型注解是Python3中引入的新特性,通过def(x:int, y:int) -> int: 这样的方式,标记参数及返回值的类型,这里要注意,即使添加了了类型注解也不会对代码产生影响,它的作用更像是注释,只是方便其他程序员了解参数及返回值类型。

11.例举你知道 Python 对象的命名规范,例如方法或者类等
答:

12.Python 中的注释有几种?
答:2种,单行的使用#的注释方式,跨行的使用使用三个双引号或三个单引号的的注释方式。

13.如何优雅的给一个函数加注释?
答:函数注释通常在 def 语句下方,第一行表示函数用法,接下来对函数接受的参数进行解释,最后对函数的返回值进行注释,方便他人理解函数的用法。

14.如何给变量加注释?
15.Python 代码缩进中是否支持 Tab 键和空格混用。
答:不支持,同时尽量使用4个空格代替Tab缩进。

16.是否可以在一句 import 中导入多个库?
答:可以,但不建议。

17.在给 Py 文件命名的时候需要注意什么?
答:使用全小写或者下划线进行命名。

18.例举几个规范 Python 代码风格的工具
答:YAPF,谷歌开发的代码规范工具。Black,依赖Python3.6+的第三方库,可以直接将原代码变为符合PEP8标准的代码

##数据类型

###字符串

19.列举 Python 中的基本数据类型?
答:字符串string、数字number、字典dictionary、列表list、元组tuple、集合set。

20.如何区别可变数据类型和不可变数据类型
答:可变的数据类型有 列表、字典、集合,不可变的有字符串、数字、元组。

21.将"hello world"转换为首字母大写"Hello World"
答:string.title()将每个单词首字母大写。

22.如何检测字符串中只含有数字?
答:Python的语法糖,字符串类型自带函数isdigit(),当字符串中只存在数字返回True,反之返回False。

23.将字符串"ilovechina"进行反转
答:“ilovechina”[::-1]

24.Python 中的字符串格式化方式你知道哪些?
答:format()

25.有一个字符串开头和末尾都有空格,比如“ adabdw ”,要求写一个函数把这个字符串的前后空格都去掉。
答:string.replace(’ ’ ,’’)

26.获取字符串”123456“最后的两个字符。
答:“123456”[4:6:]或“123456"[-2::]

27.一个编码为 GBK 的字符串 S,要将其转成 UTF-8 编码的字符串,应如何操作?
答:先编码为Unicode,再解码为 UTF-8,具体操作为 string.decode(),str.encode(encoding=‘utf-8’)该条存疑,有待验证

28.s=“info:xiaoZhang 33 shandong”,用正则切分字符串输出[‘info’, ‘xiaoZhang’, ‘33’, ‘shandong’]
答:re.split(r’[: ]’, s)

27.怎样将字符串转换为小写?
答:string.lower()

28.单引号、双引号、三引号的区别?
答:单引号表示的字符串中不能带有双引号。双引号表示的字符串中可以存在单引号。三引号中可以存在单引号和双引号,并且可以跨行表示字符串,而单双引号皆不能跨行。

29.a = "你好 中国 ",去除多余空格只留一个空格。
答:re.sub(’ +’,’ ', a)

###列表

30.已知 AList = [1,2,3,1,2],对 AList 列表元素去重,写出具体过程。
答:list(set(AList)) 可以利用集合中不能存在相同元素的特性,利用类型转换进行去重。也可使用循环遍历进行判断。

31.如何实现 “1,2,3” 变成 [“1”,“2”,“3”]
答:“1,2,3”.split(’,’)

32.给定两个 list,A 和 B,找出相同元素和不同元素
答:如果列表内不存在重复元素的话,可以转化为集合,利用集合的 “&&” 找出相同元素,再利用 “a-b","a^b"找出不同元素。若列表内存在重复元素,暂时只能想到两个for循环进行查找。

33.[[1,2],[3,4],[5,6]]一行代码展开该列表,得出[1,2,3,4,5,6]
答:sum([[1,2],[3,4],[5,6]], [])

34.合并列表[1,5,7,9]和[2,2,6,8]
答:这题没理解,字面上合并相加就好了吧。。。。难道暗示要排序?

35.如何打乱一个列表的元素?
答:使用random库中的random.shuffle(list)函数,该函数无返回值,会将传入的参数列表随机排序。

###字典

36.字典操作中 del 和 pop 有什么区别
答:pop()函数会返回删除的值,而del()函数直接删除元素,没有返回值。

37.按照字典的内的年龄排序

d1 = [
{‘name’:‘alice’, ‘age’:38},
{‘name’:‘bob’, ‘age’:18},
{‘name’:‘Carl’, ‘age’:28},
]

答:d1.sort(key=lambda x: x[‘age’])

38.请合并下面两个字典 a = {“A”:1,“B”:2},b = {“C”:3,“D”:4}
答:a.update(b)。

39.如何使用生成式的方式生成一个字典,写一段功能代码。
答:这道题不能理解题目意思,暂时不答。

40.如何把元组(“a”,“b”)和元组(1,2),变为字典{“a”:1,“b”:2}
答:zip((“a”,“b”),(1,2))

###综合

41.Python 常用的数据结构的类型及其特性?
A:{1:0,2:0,3:0}
B:{“a”:0, “b”:0, “c”:0}
C: {(1,2):0, (2,3):0}
D: {[1,2]:0, [2,3]:0}
答:A为字典类型,无序key值不可重复,通过key值来取对应的value值。B也是字典类型,key值为string类型,也是通过dict[‘key’]的方式来取值。C也为字典类型,但key为元组

42.如何将元组(“A”,“B”)和元组(1,2),合并成字典{“A”:1,“B”:2}
答:dict(zip((“A”,“B”), (1,2)))即可。

43.Python 里面如何实现 tuple 和 list 的转换?
答:使用tuple()和list()函数实现转换

44.我们知道对于列表可以使用切片操作进行部分元素的选择,那么如何对生成器类型的对象实现相同的功能呢?
答:使用自带的itertools库进行实现,具体实现方式 itertools.islice(生成器对象,起始位置,结束位置),即可实现切片功能。

45.请将[i for i in range(3)]改成生成器
答: iter(range(3))

46.a="hello"和 b="你好"编码成 bytes 类型
答:a.encode()

47.下面的代码输出结果是什么?
a = (1,2,3,[4,5,6,7],8)
a[2] = 2
答:报错,元组元素不支持修改。

48.下面的代码输出的结果是什么?
a = (1,2,3,[4,5,6,7],8)
a[5] = 2
答:报错,列表看作是一个元素,5已经下标越界。

##操作类题目

49.Python 交换两个变量的值
答:语法糖 a, b = b, a。

50.在读文件操作的时候会使用 read、readline 或者 readlines,简述它们各自的作用
答:read将整个文本都读取为一个字符串,占用内存大,readline读取为一个生成器,支持遍历和迭代,占用空间小。readlines将文本读取为列表,占用空间大。

51.json 序列化时,可以处理的数据类型有哪些?如何定制支持 datetime 类型?
答:字符串、数字(整数和浮点数)、字典、列表、布尔值、None。使用strftime将datetime格式化为标准字符串类型即可。

52.json 序列化时,默认遇到中文会转换成 unicode,如果想要保留中文怎么办?
答:使用json.dumps函数时,添加参数ensure_ascii=False,如果想显示的更美观,可以添加indent=2参数,会在每个key值前添加两个空格。

53.有两个磁盘文件 A 和 B,各存放一行字母,要求把这两个文件中的信息合并(按字母顺序排列),输出到一个新文件 C 中。
答:读取两个文件,利用split函数将字符串切割成列表,再将两个列表合并,利用sort函数对合并后的列表进行排序,最后将列表内容拼接成字符串写入即可。

54.如果当前的日期为 20190530,要求写一个函数输出 N 天后的日期,(比如 N 为 2,则输出 20190601)。
答:利用自带的datetime库即可实现,
55.写一个函数,接收整数参数 n,返回一个函数,函数的功能是把函数的参数和 n 相乘并把结果返回。
答:

56.下面代码会存在什么问题,如何改进?

def strappend(num):
    str='first'
    for i in range(num):
        str+=str(i)
    return str

答:没有对num进行校验,num应该为一整数,添加一个type类型校验。

57.一行代码输出 1-100 之间的所有偶数。
答:print(list(i for i in range(1, 101) if i%2 == 0))

58.with 语句的作用,写一段代码?
答:常用于打开文本后的自动关闭,例如:

with open("file_name", 'w') as f:
    dong sth.

59.python 字典和 json 字符串相互转化方法
答:使用 json库,字典-> json:json.dumps(dict),json->字典:json.loads(json_file)

60.请写一个 Python 逻辑,计算一个文件中的大写字母数量
答:

with open(file_name, 'r') as f:
    count = 0 
    for i in f.read():
        if i.isupper():
            count += 1
    print('大写字母数量为%d'%count)

##高级特效

70.函数装饰器有什么作用?请列举说明?
答:装饰器可以在不修改函数的情况下,对函数的功能进行补充,例如对函数接受的参数进行检查更加详细的内容点此查看极客时间解答

71.Python 垃圾回收机制?
答:最简单的,Python每个变量上都有一个引用计数器,当引用计数器为0时,自动销毁变量。复杂一些的,例如存在互相引用的情况,这时Python依靠两个链表(标记-清除算法)进行垃圾回收。点击这里获得更详细的资料

72.魔法函数 __call__怎么使用?
答:__call__是将类创建为一个实例进行调用,多用在类装饰器中。可以将逻辑代码写在__call__下,不需要实例化类也可直接使用其中的代码。

73.如何判断一个对象是函数还是方法?
答:可以使用type()函数进行判断,函数与方法本质上没有差别,仅仅通过是否与类进行绑定进行区分。绑定后通过类实例化进行调用则为方法,未绑定直接调用即为函数。

74.@classmethod 和@staticmethod 用法和区别
答:classmethod必须实例化类以后才能使用,同时第一个参数由self变化为cls,staticmethod称为静态方法类似于全局函数,不需要实例化也能调用。

75.Python 中的接口如何实现?
答:在类中提前设置好方法,利用NotImplementedError错误,当子类没有覆写方法的时候进行报错。也可使用@abstractmethod对需要覆写的方法进行装饰,任何没有覆写该方法的子类都会报错。

76.Python 中的反射了解么?
答:反射是用于在类中寻找值的一种方式,有以下几种用法:hasattr(class, key)在实例中寻找是否存在key名的函数或是变量返回布尔值。getattr(class, key, tips)获得实例中变量或是方法的内存地址,可传入第三个参数修改报错提示。setattr(class, name, function)将函数以name为名字传入类中,通过 class.name(class) 的方式进行调用,setattr(class, name, value)传入变量及变量值,以class.name的形式调用。delattr(class, name)删除类中变量,不能删除函数。

77.metaclass 作用?以及应用场景?
答:该题不会,等正确答案

78.hasattr() getattr() setattr()的用法
答:hasattr(object,name)查询类中是否存在符合关键字的函数或者方法,返回布尔值。getattr(object, name, [default])查询函数是否存在指定名字的变量或是方法,返回变量的值或者函数内存地址,若不存在报错或是返回 default 中的自定义内容。

79.请列举你知道的 Python 的魔法方法及用途。
答:init 初始化类中的部分属性,new 最先执行的部分,可用来实现单例类,功能与78题类似的 __getattr__试图访问类中不存在的属性时会调用该方法,可自定义返回值, setattr 对类的属性进行新增和赋值,可以进行简单的条件筛选, __delattr__用于删除类中的方法或是属性。

80.如何知道一个 Python 对象的类型?
答:利用type()和isinstance(),前者用于区分对象的类型,后者主要用于区分子类与父类是否一致。

81.Python 的传参是传值还是传址?
答:都不是,Python当中所有东西都视作一个对象,每次的绑定都是在对象上增加一个引用,在使用过程中如果改变变量的值其实是将变量绑定到一个新对象上,如果修改对象的值那所有绑定在该对象的变量,在调用时都返回新值。详情点击这里查看

82.Python 中的元类(metaclass)使用举例
答:元类真的是盲区,现在还不是能理解元类的意义。

83.简述 any()和 all()方法
答:any(object)与all(object)区别,any主要判断对象中是否全为空值(0、’’、None、Flase)若对象内全部为空值则返回False否则返回True, all则是判断对象中是否存在空值,只要存在任一个空值则返回False否则返回True

84.filter 方法求出列表所有奇数并构造新列表,a = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
答:list(filter(lambda x:x if x%2 == 1 else None, a))

85.什么是猴子补丁?

86.在 Python 中是如何管理内存的?

87.当退出 Python 时是否释放所有内存分配?

##正则表达式

88.使用正则表达式匹配出
www.baidu.com
中的地址
a=“张明 98 分”,用 re.sub,将 98 替换为 100

89.正则表达式匹配中(.)和(.?)匹配区别?

90.写一段匹配邮箱的正则表达式

##其他内容

91.解释一下 python 中 pass 语句的作用?
92.简述你对 input()函数的理解
93.python 中的 is 和==
94.Python 中的作用域
95.三元运算写法和应用场景?
96.了解 enumerate 么?
97.列举 5 个 Python 中的标准模块
98.如何在函数中设置一个全局变量
99.pathlib 的用法举例
100.Python 中的异常处理,写一个简单的应用场景
101.Python 中递归的最大次数,那如何突破呢?
102.什么是面向对象的 mro
103.isinstance 作用以及应用场景?
104.什么是断言?应用场景?
105.lambda 表达式格式以及应用场景?
106.新式类和旧式类的区别
107.dir()是干什么用的?
108.一个包里有三个模块,demo1.py, demo2.py, demo3.py,但使用 from tools import 导入模块时,如何保证只有 demo1、demo3 被导入了。
109.列举 5 个 Python 中的异常类型以及其含义
110.copy 和 deepcopy 的区别是什么?
111.代码中经常遇到的args, **kwargs 含义及用法。
112.Python 中会有函数或成员变量包含单下划线前缀和结尾,和双下划线前缀结尾,区别是什么?
113.w、a+、wb 文件写入模式的区别
114.举例 sort 和 sorted 的区别
115.什么是负索引?
116.pprint 模块是干什么的?
117.解释一下 Python 中的赋值运算符
118.解释一下 Python 中的逻辑运算符
119.讲讲 Python 中的位运算符
120.在 Python 中如何使用多进制数字?
121.怎样声明多个变量并赋值?

##算法和数据结构

122.已知:
AList = [1,2,3]
BSet = {1,2,3}
(1) 从 AList 和 BSet 中 查找 4,最坏时间复杂度那个大?
(2) 从 AList 和 BSet 中 插入 4,最坏时间复杂度那个大?
123.用 Python 实现一个二分查找的函数
124.python 单例模式的实现方法
125.使用 Python 实现一个斐波那契数列
126.找出列表中的重复数字
127.找出列表中的单个数字
128.写一个冒泡排序
129.写一个快速排序
130.写一个拓扑排序
131.python 实现一个二进制计算
132.有一组“+”和“-”符号,要求将“+”排到左边,“-”排到右边,写出具体的实现方法。
133.单链表反转
134.交叉链表求交点
135.用队列实现栈
136.找出数据流的中位数
137.二叉搜索树中第 K 小的元素
##爬虫相关
138.在 requests 模块中,requests.content 和 requests.text 什么区别
139.简要写一下 lxml 模块的使用方法框架
140.说一说 scrapy 的工作流程
141.scrapy 的去重原理
142.scrapy 中间件有几种类,你用过哪些中间件
143.你写爬虫的时候都遇到过什么?反爬虫措施,你是怎么解决的?
144.为什么会用到代理?
145.代理失效了怎么处理?
146.列出你知道 header 的内容以及信息
147.说一说打开浏览器访问 www.baidu.com 获取到结果,整个流程。
148.爬取速度过快出现了验证码怎么处理
149.scrapy 和 scrapy-redis 有什么区别?为什么选择 redis 数据库?
150.分布式爬虫主要解决什么问题
151.写爬虫是用多进程好?还是多线程好? 为什么?
152.解析网页的解析器使用最多的是哪几个
153.需要登录的网页,如何解决同时限制 ip,cookie,session(其中有一些是动态生成的)在不使用动态爬取的情况下?
154.验证码的解决(简单的:对图像做处理后可以得到的,困难的:验证码是点击,拖动等动态进行的?)
155.使用最多的数据库(mysql,mongodb,redis 等),对他的理解?

##网络编程

156.TCP 和 UDP 的区别?
157.简要介绍三次握手和四次挥手
158.什么是粘包? socket 中造成粘包的原因是什么? 哪些情况会发生粘包现象?

##并发

159.举例说明 conccurent.future 的中线程池的用法
160.说一说多线程,多进程和协程的区别。
161.简述 GIL
162.进程之间如何通信
163.IO 多路复用的作用?
164.select、poll、epoll 模型的区别?
165.什么是并发和并行?
167.解释什么是异步非阻塞?
168.threading.local 的作用?

##Git 面试题

169.说说你知道的 git 命令
170.git 如何查看某次提交修改的内容x

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。