Chapter 8 正则表达式

正则表达式(regular expression)是文本处理中经常用到的方法.正则表达式描述了一种字符串匹配的模式（pattern）.在R中,正则表达式跟其他语言基本一致,要写成文本的格式,也就是需要使用双引号或者单引号括起来.

8.1 特殊字符

在正则表达式中有一些字符是有特殊含义的,比如点(.),如果只写点,它代表任意字符,这些称之为特殊字符,或者元字符.正则表达式中就有很多这样元字符.总结如下:

这里面有很多是和后面的内容重复的,因此这里写的比较简略.

如果想要匹配特殊字符,那么需要对其进行转义,这时候就用到了转义符,也就是\.但是因为转义符本身也是特殊字符,所以它本身还需要一个转义符,就是\\.因此比如我们想要匹配点本身,那在pattern中,需要写作\\..

有一些特殊含义的匹配,在正则表达式有固定表达方式,比如任意一个数字,任意字母等.

锚点,又称为定位符,能够将正则表达式固定到行首或行尾。它们还使您能够创建这样的正则表达式，这些正则表达式出现在一个单词内、在一个单词的开头或者一个单词的结尾。

以固定要求开头的正则表达式是^,比如我们要查找那些以字母a开头的字符串,就可以写作:

'^a'

在R语言中:

grep(pattern = "^a", x = c("abc", "bcd", "cde", "ade"))

## [1] 1 4

以固定要求结尾的正则表达式是$,比如我们要查找那些以字母a结尾的字符串,就可以写作:

'a$'

在R语言中:

grep(pattern = "a$", x = c("abc", "bcd", "cde", "ada"))

## [1] 4

正则表达式中经常需要有一些表达数量的内容,比如重复1次,重复多于一次等等.一般是使用一些特殊字符在某个要重复的内容之后.称之为限定符:

重复或者数量还涉及到贪婪和懒惰的问题:

如果需要将某个对象最为整体进行匹配,一般是使用小括号将其括起来.

比如:

(ab|d)e

小括号中就代表一个整体,也即是ab或者d然后后面带着e.

有时需要查找不属于某个能简单定义的字符类的字符。比如想查找除了数字以外，其它任意字符都行的情况，这时需要用到反义: