C 语言

关注公众号 jb51net

关闭
首页 > 软件编程 > C 语言 > C++ vector迭代器失效与深浅拷贝

C++中vector迭代器失效与深浅拷贝问题详析

作者:栈帧攻城狮

迭代器失效就是迭代器底层对应指针所指向的空间倍销毁了,导致使用了一块已经被释放了的空间,下面这篇文章主要给大家介绍了C++中vector迭代器失效与深浅拷贝问题的相关资料,需要的朋友可以参考下

一、vector迭代器失效问题

1. insert迭代器失效

上文我们写了insert的模拟实现,最开始的版本是有许多Bug的,比如迭代器失效,最后经过优化修改实现了insert,这里我们以最初的版本为例,分析并解决迭代器失效问题。如下:

void insert(iterator pos, const T& x)
{
	//检测参数合法性
	assert(pos >= _start);
    assert(pos <= _finish);
	//检测是否需要扩容
	if (_finish == _endofstorage)
	{
		size_t newcapcacity = capacity() == 0 ? 4 : capacity() * 2;
		reserve(newcapcacity);
	}
	//挪动数据
	iterator end = _finish - 1;
	while (end >= pos)
	{
		*(end + 1) = *end;
		end--;
	}
	//插入指定的数据
	*pos = x;
	_finish++;
}

insert的迭代器失效分为两大类:

1.1.扩容导致野指针

我们给出两组测试用例如下:

image-20221210163325836

我们发现push_back尾插4个后调用insert会出现随机值,而push_back尾插5个后调用insert就没有问题。

这里我们就不墨迹了,问题就是扩容导致pos迭代器失效,原因在于pos没有更新,导致非法访问野指针。

上述当尾插4个数字后,再头插一个数字,发生扩容,根据reserve扩容机制,_ start和_ finish都会更新,但是这个插入的位置pos没有更新,此时pos依旧执行旧空间,再者reserve后会释放旧空间,此时的pos就是野指针,导致*pos = x就是对非法访问野指针。因为pos迭代器没有更新,所以后续挪动数据并没有实现,而插入数据是对释放的空间进行操作,同样没有意义。这也就是说不论你在哪个位置插入,都没有效果。

解决办法:

可以通过创建变量n来计算扩容前pos迭代器(指针)位置和_ start迭代器(指针)位置的相对距离,最后在扩容后,让_start再加上先前算好的相对距离n就是更新后的pos指针的位置了。

修正如下:

void insert(iterator pos, const T& x)
{
	//检测参数合法性
	assert(pos >= _start);
    assert(pos <= _finish);
	//检测是否需要扩容,扩容以后pos就失效了,需要更新一下
	if (_finish == _endofstorage)
	{
        size_t n = pos - _start;//计算pos和start的相对距离
		size_t newcapcacity = capacity() == 0 ? 4 : capacity() * 2;
		reserve(newcapcacity);
        // 扩容会导致pos迭代器失效,需要更新处理一下
        pos = _start + n;//防止迭代器失效,要让pos始终指向与_start间距n的位置
	}
	//挪动数据
	iterator end = _finish - 1;
	while (end >= pos)
	{
		*(end + 1) = *end;
		end--;
	}
	//插入指定的数据
	*pos = x;
	_finish++;
}

此时的迭代器失效已经解决了一部分,当然还存在一个迭代器失效问题,见下文:

1.2.迭代器指向位置意义改变

比如现在我要在所有的偶数前面 插入2,可是测试结果确是如下:

这里发生了断言错误,这段代码发生了两个错误:

  1. 和上面的错误一样,首先it是指向原来的空间,当insert插入新元素时会发生扩容,原来的旧数据被拷贝到了新空间上,并且释放旧空间,这也就意味着旧空间已经被操作系统回收,而it一直是指向旧空间的,随后遍历it时就非法访问野指针,也就失效了。形参的改变不会影响实参,即使你内部pos的指向改变了,但是并不会影响我外部的it。所以我们仍然无法通过it去访问元素。
  2. 为了解决上面的错误,有人可能会说提前reserve开辟足够大的空间即可避免发生野指针的现象,但是又出现了一个新的问题,看图:

image-20221210194937971

image-20221210194825202

此时insert以后虽然没有扩容,it也没有成为野指针,但是it指向位置意义变了,每插入一个数据,it就指向插入数据的下一个数据,导致我们这个程序重复插入20。

解决办法:

给insert函数加上返回值即可解决,返回指向新插入元素的位置。

iterator insert(iterator pos, const T& x)
{
	//检测参数合法性
	assert(pos >= _start);
    assert(pos <= _finish);
	//检测是否需要扩容,扩容以后pos就失效了,需要更新一下
	if (_finish == _endofstorage)
	{
        size_t n = pos - _start;//计算pos和start的相对距离
		size_t newcapcacity = capacity() == 0 ? 4 : capacity() * 2;
		reserve(newcapcacity);
        // 扩容会导致pos迭代器失效,需要更新处理一下
        pos = _start + n;//防止迭代器失效,要让pos始终指向与_start间距n的位置
	}
	//挪动数据
	iterator end = _finish - 1;
	while (end >= pos)
	{
		*(end + 1) = *end;
		end--;
	}
	//插入指定的数据
	*pos = x;
	_finish++;

    return pos;
}

我们调用函数模块也得改动,让it自己接收insert后的返回值:

//在所有的偶数前面插入2
void test_vector3()
{
	vector<int> v;
	v.reserve(10);
	v.push_back(1);
	v.push_back(2);
	v.push_back(3);
	v.push_back(4);

	vector<int>::iterator it = find(v.begin(), v.end(), 1);
	while (it != v.end())
	{
		if (*it % 2 == 0)
		{
			it = v.insert(it, 20);
		}
		it++;
	}
	for (auto e : v)
	{
		cout << e << " ";
	}
	cout << endl;
}

扩展:

有的同学可能说,能否用引用,那样就不用返回迭代器了,引用需要传一个左值变量,但是如果我传insert(bgein(),0)中的begin()是表达式的返回值,是一个临时变量,具有常性。不能这样使用。还有一些原因涉及到更深层次的问题。

1.3.windows下VS中标准库和Linux下g++中标准库对insert迭代器失效的处理

VS:

针对于扩容发生野指针类的迭代器失效,VS官方库是直接断言报错。把相同的代码放到Linux的g++下面试试看呢?

Linux:

image-20221210225541838

很明显Linux这里可以直接访问,甚至是可以修改。可见不同环境下对待迭代器失效的处理方式是不一样的,windows下更加严格,Linux下比较佛系。

2. erase迭代器失效

和insert函数一样,erase同样会存在迭代器失效问题,这里先给出erase模拟实现的代码,存在一些问题:

// 返回删除数据的下一个数据
// 方便解决:一边遍历一边删除的迭代器失效问题
void erase(iterator pos)
{
	assert(pos >= _start);
	assert(pos < _finish);
	//从pos + 1的位置开始往前覆盖,即可完成删除pos位置的值
	iterator begin = pos + 1;
	while (begin < _finish)
	{
		*(begin - 1) = *begin;
	}
	_finish--;
    }

2.1.迭代器失效指向位置意义改变

现在要对如下代码进行测试:

void test_vector2()
{
	cpp::vector<int> v;
	//v.reserve(10);
	v.push_back(1);
	v.push_back(2);
	v.push_back(3);
	v.push_back(4);
	cout << v.size() << ":" << v.capacity() << endl;
	vector<int>::iterator it = find(v.begin(), v.end(), 2);
	if (it != v.end())
	{
		v.erase(it);
    	}
	cout << *it << endl; // 读
	(*pos)++; // 写
	cout << *it << endl << endl;
	cout << v.size() << ":" << v.capacity() << endl;
	for (auto e : v)
	{
		cout << e << " ";
	}
}

运行结果:

image-20221211151638605

这里首先在尾插4个数据后,比较了下size和capacity的大小,此时是相等的,接下来删除值为2的数,此时* it就是删除数字的下一个数据,没有问题,并且有效数据size也少了一个,后续修改*it也没有问题。

可是当我要删除值为4的数据呢,再执行上述测试用例会是什么结果呢?

image-20221211151718980

这里我总共就有4个数字,按理说把最后一个数字删去后,有效数字只有1、2、3,这里应该不存在访问最后一个值的现象,但是此结果确实是删掉4后又访问了4,离谱的是还修改了4为5,这就是erase典型的迭代器失效。因为你空间还没有缩容,删掉的4还存在,导致最终还能够被访问。

总结:

可见代码确实是实现了删除,但是程序访问出现问题,原因就是erase后pos失效了,pos的意义变了,(但是在不同平台下对于访问pos的反应是不一样的,因此我们使用的时候要特别小心,统一以失效的角度去看待)。但如果不访问pos指向的内容就不会出问题。比如我们没有访问v.end()。

2.2.windows下VS中标准库和Linux下g++中标准库对erase迭代器失效的处理

这里我们以如上程序进行对比vs和g++标准库对erase迭代器失效的处理:

VS下:

VS环境下检查非常严格, 直接强制检查断言错误。

Linux下:

image-20221211154109695

很明显看出Linux下对于迭代器失效的检查就松懈很多,不会报错。

结论如下:

  1. erase(pos)以后pos失效了,pos的意义变了,但是在不同平台下面对于访问pos的反应是不一样的,我们用的时候要以失效的角度去看待此问题。
  2. 对于insert和erase造成迭代器失效问题,linux的g++平台检查并不是很严格,基本靠操作系统本身野指针越界检查机制。windows下VS系列检查更严格一些,使用一些强制检查机制,意义变了可能会检查出来。
  3. 虽然g++对于迭代器失效检查时是并不严格,但是套在实际场景中,迭代器意义变了,也会出现各种问题。

总结:

大家可能发现我们实现的vector如果不使用std::命名空间封装的话,结果和Linux下的结果一样。这是因为VS使用的STL标准库是PJ版本,它检查更为复杂,实现更为复杂;而我们使用的STL标准库是SGI版,是Linux的g++编译器使用的版本,也是侯捷老师的《STL源码剖析》的版本。它检查较为松懈,因为这里的迭代器就是原生指针,没有进行封装检查等。

下面分别给出三组测试用例:

void test_vector4()
{
	//删除所有的偶数
	std::vector<int> v;
	//v.reserve(10);
    // 第一组测试用例:
	v.push_back(1);
	v.push_back(2);
	v.push_back(3);
	v.push_back(4);
	auto it = v.begin();
	while (it != v.end())
	{
		if (*it % 2 == 0)
		{
			v.erase(it);
		}
		it++;
	}
	for (auto e : v)
	{
		cout << e << " ";
	}
}

在VS下用官方库去测试会三组数据都崩溃:

image-20221211004903014

而Linux下的结果如下:

image-20221211003242304

画图演示错误过程:

image-20221211003147185

原因分析:

毫无疑问上诉代码会崩溃,因为erase后迭代器it所指向的位置失效,(虽然感觉是可以继续使用的,但在vs下就是不可以使用,在Linux下就可以对这个位置进行访问),所以下面我们用返回值来更新迭代器。

解决方案如下:

给erase加上返回值即可避免问题,返回删除元素的下一个位置。

修正如下:

// 返回删除数据的下一个数据
// 方便解决:一边遍历一边删除的迭代器失效问题
void erase(iterator pos)
{
	assert(pos >= _start);
	assert(pos < _finish);
	//从pos + 1的位置开始往前覆盖,即可完成删除pos位置的值
	iterator begin = pos + 1;
	while (begin < _finish)
	{
		*(begin - 1) = *begin;
	}
	_finish--;
    return pos;
}

我们调用函数模块也得改动,让it自己接收erase后的返回值:

void test4()
{
	//删除所有的偶数
	std::vector<int> v;
	//v.reserve(10);
	v.push_back(1);
	v.push_back(2);
	v.push_back(3);
	v.push_back(4);
	auto it = v.begin();
	while (it != v.end())
	{
		if (*it % 2 == 0)
		{
			it = v.erase(it);
		}
		else
		{
			it++;
		}
	}
	for (auto e : v)
	{
		cout << e << " ";
	}
}

分析:

erase删除pos位置元素后,pos位置之后的元素会往前移动,没有导致底层空间的改变,理论上讲迭代器不会失效,但是如果pos位置刚好是最后一个元素,删完之后pos刚好是end的位置,而end的位置是没有有效元素的,那么pos就失效了。因此删除vector中任意位置元素时,vs均认为该位置上迭代器失效了!也就是说vector删除一定会导致迭代器失效。

3.迭代器失效总结

vector迭代器失效有2种

1、扩容,导致野指针失效

2、迭代器指向的位置意义变了

系统越界机制检查,不一定能检查到;编译实现机制检查,相对靠谱。

总结:

  1. 对于insert和erase造成迭代器失效问题,linux g++平台检查很松懈,基本依靠操作系统自身野指针越界检查机制,windows下vs系列检查更严格,使用一些强制检查机制,意义变了也可能会检查出来。
  2. 虽然g++对于erase迭代器失效检查时非常鸡肋的,但是套在实际场景中,迭代器意义变了,也会出现各种问题,所以我们要有正确处理迭代器失效的方式,比如用函数返回值来更新迭代器。
  3. windows下vs系列对意义失效的检查很双标,由insert函数引起的意义失效检查不出来,而且可以访问pos位置,但是由erase函数引起的意义失效却检查很严格,丝毫不准访问pos位置。但是Linux平台下都检查不出来,都可以访问pos位置。

二、深浅拷贝问题

1.拷贝构造浅拷贝问题

我们的拷贝构造是存在一定问题的,存在浅拷贝问题,会导致程序崩溃。

// 拷贝构造 v1(v)
// 传统写法
vector(const vector<T>& v)
	:_start(nullptr)
	,_finish(nullptr)
	,_endofstorage(nullptr)
{
	_start = new T[v.capacity()]; // 开辟一块和v大小相同的空间
	memcpy(_start, v._start, sizeof(T) * v.size()); //error
	_finish = _start + v.size();
	_endofstorage = _start + v.capacity();
}

注意:

将容器当中的数据一个个拷贝过来时不能使用memcpy函数,当vector存储的数据是内置类型或无需进行深拷贝的自定义类型时,使用memcpy函数是没什么问题的,但当vector存储的数据是需要进行深拷贝的自定义类型时,使用memcpy函数就会出现问题。例如,当vector存储的数据是string类的时候。

并且vector当中存储的每一个string都指向自己所存储的字符串。

image-20221211230130182

如果此时我们使用的是memcpy函数进行拷贝构造的话,那么拷贝构造出来的vector中每个string的成员变量的值,将与被拷贝的vector中每个string的成员变量的值相同,即两个vector当中的每个对应的string成员都指向同一个字符串空间。

image-20221211225603459

这显然不是我们得到的结果,那么所给代码是如何解决这个问题的呢?

解决办法:使用for循环把容器v中的数据一个一个拷贝过来。

for (size_t i = 0; i < v.size(); i++)
{
	_start[i] = v[i];
}

注意:_start[i] = _v[i] 本质是调用string类的赋值运算符重载函数进行深拷贝。

代码中看似是使用普通的“=”将容器当中的数据一个个拷贝过来,实际上是调用了所存元素的赋值运算符重载函数,而string类的赋值运算符重载函数就是深拷贝,所以拷贝结果是这样的:

image-20221211225213846

代码修改如下:

// 拷贝构造 v1(v)
// 传统写法
vector(const vector<T>& v)
	:_start(nullptr)
	,_finish(nullptr)
	,_endofstorage(nullptr)
{
	_start = new T[v.capacity()]; // 开辟一块和v大小相同的空间
	for (size_t i = 0; i < v.size(); i++)
	{
		_start[i] = v[i];
	}
	//memcpy(_start, v._start, sizeof(T) * v.size()); //error
	_finish = _start + v.size();
	_endofstorage = _start + v.capacity();
}

总结一下: 如果vector当中存储的元素类型是内置类型(int)或浅拷贝的自定义类型(Date),使用memcpy函数进行进行拷贝构造是没问题的,但如果vector当中存储的元素类型是深拷贝的自定义类型(string),则使用memcpy函数将不能达到我们想要的效果。

2.扩容浅拷贝问题

接下来用先前模拟实现的vector来测试杨辉三角以此来解释我们的深浅拷贝问题,由于杨辉三角不太好理解,还是换个简单点的:

namespace vector_realize
{
	/* class Solution {
	public:
        // 核心思想:找出杨辉三角的规律,发现每一行头尾都是1,中间第[j]个数等于上一行[j-1]+[j]
		vector<vector<int>> generate(int numRows) {
			vector<vector<int>> vv;
			vv.resize(numRows);// 先开辟杨辉三角的空间
			for (size_t i = 0; i < vv.size(); ++i)
			{
				vv[i].resize(i + 1, 0);
				vv[i][0] = vv[i][vv[i].size() - 1] = 1;// 每一行的第一个和最后一个都是1
			}

			for (size_t i = 0; i < vv.size(); ++i)
			{
				for (size_t j = 0; j < vv[i].size(); ++j)
				{
					if (vv[i][j] == 0)
					{
						vv[i][j] = vv[i - 1][j] + vv[i - 1][j - 1];
					}
				}
			}

			return vv;
		}
	};

	void test_vector9()
	{
		vector<vector<int>> vvRet = Solution().generate(5);

		for (size_t i = 0; i < vvRet.size(); ++i)
		{
			for (size_t j = 0; j < vvRet[i].size(); ++j)
			{
				cout << vvRet[i][j] << " ";
			}
			cout << endl;
		}
		cout << endl;
    }*/
    
    vector<vector<int>> vv;
	vector<int> v(5, 1);
	vv.push_back(v);
	vv.push_back(v);
	vv.push_back(v);
	vv.push_back(v);
	vv.push_back(v);

	for (size_t i = 0; i < vv.size(); i++)
	{
		for (size_t j = 0; j < vv[i].size(); j++)
		{
			cout << vv[i][j] << " ";
		}
		cout << endl;
	}
	cout << endl;
}

运行结果:

这里如果我只插入4个元素就不会发生报错,所以关键就在插入第五个元素改变了什么?改变容量,因为我们扩容的代码有问题。

把扩容的代码给出:

//reserve扩容
void reserve(size_t n)
{
	int oldSize = size();
	if (capacity() < n)
	{
		// 1.开辟新空间
		T* tmp = new T[n];
		if (_start)
		{
			//2.拷贝元素
			memcpy(tmp, _start, sizeof(T) * size());
			//3. 释放旧空间
			delete[] _start;
		}
		_start = tmp;
	}
	// 这里_start的地址变了,而_finish还是原来的位置
	//_finish = _start + size(); error 
	_finish = _start + oldSize;
	_endofstorage = _start + n;
}

分析如下:

这里出错的原因在于扩容,错在扩容时调用的memcpy是浅拷贝,导致先前存储的数据被memcpy后再delete就全删掉变成随机值了。vector调用析构函数析构掉原来的对象,每个对象又调用自身的析构函数,把指向的空间释放掉,然后就会出现随机值。

画图演示上述测试用例的原因:

image-20221212012506593

总结:

  1. vector中,当T设计深浅拷贝的类型时,如:string/vector等等,我们扩容使用memcpy拷贝数据是存在浅拷贝问题。
  2. memcpy是内存的二进制格式拷贝,将一段内存空间中内容原封不动的拷贝到另外一段内存空间中。
  3. 如果拷贝的是自定义类型的元素,memcpy即高效又不会出错,但如果拷贝的是自定义类型元素,并且自定义类型元素中涉及到资源管理时,就会出错,因为memcpy的拷贝实际是浅拷贝。

解决方案:

reserve扩容时不使用memcpy,改成for循环来解决:

//reserve扩容
void reserve(size_t n)
{
	int oldSize = size();
	if (capacity() < n)
	{
		// 1.开辟新空间
		T* tmp = new T[n];
		if (_start)
		{
			//2.拷贝元素
			// 这里直接用memcpy会有问题,发生浅拷贝
			//memcpy(tmp, _start, sizeof(T) * size());
			for (size_t i = 0; i < oldSize; i++)
			{
				tmp[i] = _start[i]; // 本质调用赋值运算符重载进行深拷贝
			}
			//3. 释放旧空间
			delete[] _start;
		}
		_start = tmp;
	}
	// 这里_start的地址变了,而_finish还是原来的位置
	//_finish = _start + size(); error 
	_finish = _start + oldSize;
	_endofstorage = _start + n;
}

分析:这里使用for循环,看似是使用普通的“=”将容器当中的数据一个个拷贝过来,实际上是调用了所存元素的赋值运算符重载函数,而vector的赋值运算符重载函数就是深拷贝,所以拷贝过程是这样的:

image-20221212012253102

使用这种方式就能完美避免上述问题,我们运行试一下:

image-20221212012955763

总结:

我们析构旧空间的时候,析构的是对象数组,每个数组调用自身的析构函数,会析构数组的空间。我们用memcpy浅拷贝时,拷贝的临时对象和原来的对象指向同一块空间,所以旧空间被销毁后,我们扩容的新空间中的前4个对象变成野指针,访问的数据都是随机值。我们用for循环调用vector的赋值运算符重载可以将旧空间的数据拷贝到新空间,这样析构旧空间就不会影响新空间。

您可能感兴趣的文章:
阅读全文