很多场景下可以通过迭代器简化代码编写。
简介
假设需要对某个字符串进行解析,同时输出 Token 信息,为了尽量减少内存开销,不会直接复制字符串,而是通过 &str
方式引用。这样,会有类似如下的代码。
struct TokenIterator {
data: String,
start: usize,
end: usize,
}
impl Iterator for TokenIterator {
type Item = &str;
fn next(&mut self) -> Option<Self::Item> {
// ... ...
}
}
此时,在 type Item = &str
这行代码处有 `&` without an explicit lifetime name cannot be used here explicit lifetime name needed here
的报错。
简单来说,在 TokenIterator
中会有字符串切片的引用,但并为指明原始字符串的生命周期,以防出现引用存在但是原始的数据已经回收了,那么就需要通过生命周期参数确保,引用至少要比字符串生命周期要长。
生命周期
如下修改为带有生命周期版本。
struct TokenIterator<'a> {
data: String,
start: usize,
end: usize,
}
impl<'a> Iterator for TokenIterator<'a> {
type Item = &'a str;
fn next(&mut self) -> Option<Self::Item> {
// ... ...
}
}
此时在 struct TokenIterator<'a> {
代码处,仍有 parameter `'a` is never used
的报错。也就是说,虽然引入了变量的生命周期,但是,在结构体中并没有使用。
这一场景下有两种解决方案:
- 使用 PhantomData 这个 Marker 进行标识。
- 新增一个结构体对原始数据进行封装。
如下以后者为例。
结构体封装
struct TokenSet {
data: String,
}
impl TokenSet {
pub fn new(data: String) -> TokenSet {
TokenSet { data }
}
pub fn iter<'a>(&'a self) -> TokenIterator<'a> {
TokenIterator::new(&self.data)
}
}
struct TokenIterator<'a> {
data: &'a str,
token_start: usize,
token_end: usize,
}
impl<'a> TokenIterator<'a> {
pub fn new(data: &'a str) -> TokenIterator<'a> {
TokenIterator {
data,
token_start: 0,
token_end: 0,
}
}
}
impl<'a> Iterator for TokenIterator<'a> {
type Item = &'a str;
fn next(&mut self) -> Option<Self::Item> {
// Move beyond the previous token, if any.
self.token_start = self.token_end;
// Try to find a non-whitespace character that
// will denote the beginning of another token.
let next_char_index = self.data[self.token_start..]
.char_indices()
.find(|&(_, c)| !c.is_whitespace())
.map(|(i, _)| i + self.token_start);
if let Some(start_index) = next_char_index {
// We've found the start of another token.
self.token_start = start_index;
// Find the end of the token, whether that
// is whitespace or the end of the string.
self.token_end = self.data[self.token_start..]
.char_indices()
.find(|&(_, c)| c.is_whitespace())
.map(|(i, _)| i + self.token_start)
.unwrap_or(self.data.len());
Some(&self.data[self.token_start..self.token_end])
} else {
None
}
}
}
fn main() {
let data = TokenSet::new("iterator data".to_string());
let mut iterator = data.iter();
while let Some(v) = iterator.next() {
println!("{}", v);
}
}
优化
上述的 TokenSet
实现需要显示调用 iter()
函数才可以,如果要简化调用,也可以实现 IntoIterator
特征,这样在 for
循环中可以无缝连接。