Revert AnalyzeByJSoup.kt

复制错了，回退
3 years ago · e8bc90fd9f
parent d0f87aee76
commit e8bc90fd9f
1 changed files with 372 additions and 401 deletions
--- a/app/src/main/java/io/legado/app/model/analyzeRule/AnalyzeByJSoup.kt
+++ b/app/src/main/java/io/legado/app/model/analyzeRule/AnalyzeByJSoup.kt
@ -1,525 +1,496 @@
 package io.legado.app.model.analyzeRule
-//通用的规则切分处理
+import android.text.TextUtils.join
-
+import androidx.annotation.Keep
-class RuleAnalyzer(data: String) {
+import org.jsoup.Jsoup
-
+import org.jsoup.nodes.Element
-    private var queue: String = data //被处理字符串
+import org.jsoup.select.Collector
-    private var pos = 0 //处理到的位置
+import org.jsoup.select.Elements
-
+import org.jsoup.select.Evaluator
-    private var start = 0 //每次处理字段的开始
+import org.seimicrawler.xpath.JXNode
-    private var step:Int = 0 //分割字符的长度
+import java.util.*
-
+
-    var elementsType = ""
+/**
-
+ * Created by GKF on 2018/1/25.
-    //当前平衡字段
+ * 书源规则解析
-    fun currBalancedString( stepStart:Int = 1 , stepEnd:Int = 1): String { //stepStart平衡字符的起始分隔字串长度，stepEnd平衡字符的结束分隔字串长度
+ */
-        return queue.substring(start+stepStart,pos-stepEnd) //当前平衡字段
+@Keep
-    }
+class AnalyzeByJSoup(doc: Any) {
    companion object {
        /**
         * "class", "id", "tag", "text", "children"
         */
        val validKeys = arrayOf("class", "id", "tag", "text", "children")
-    //将pos重置为0，方便复用
+        fun parse(doc: Any): Element {
-    fun reSetPos() {
+            return when (doc) {
-        pos = 0
+                is Element -> doc
-    }
+                is JXNode -> if (doc.isElement) doc.asElement() else Jsoup.parse(doc.toString())
                else -> Jsoup.parse(doc.toString())
            }
        }
    //当前拉取字段
    fun currString(): String {
        return queue.substring(start,pos) //当前拉取到的字段
    }
-    //剩余字串
+    private var element: Element = parse(doc)
    private fun remainingString(): String {
        start = pos
        pos = queue.length
        return queue.substring(start)
    }
    /**
-     * pos位置回退
+     * 获取列表
     */
-    fun back(num :Int = 0) {
+    internal fun getElements(rule: String) = getElements(element, rule)
        if(num == 0)pos = start  //回退
        else pos -= num
    }
    /**
-     * pos位置后移
+     * 合并内容列表,得到内容
     */
-    fun advance(num :Int = 1) {
+    internal fun getString(ruleStr: String) =
-        pos+=num
+        if(ruleStr.isEmpty()) null
-    }
+        else getStringList(ruleStr).takeIf { it.isNotEmpty() }?.joinToString("\n")
    /**
-     * 是否已无剩余字符?
+     * 获取一个字符串
     * @return 若剩余字串中已无字符则返回true
     */
-    val isEmpty: Boolean
+    internal fun getString0(ruleStr: String) = getStringList(ruleStr).let{ if ( it.isEmpty() ) "" else it[0] }
        get() = queue.length - pos  == 0 //是否处理到最后
    /**
-     * 检索并返回首字符,但pos不变
+     * 获取所有内容列表
     * @return 首字符：若为空则为 0 号字符
     */
-    fun peek(): Char { //检索首字符
+    internal fun getStringList(ruleStr: String): List<String> {
        return if (isEmpty) 0.toChar() else queue[pos]
    }
-    /**
+        val textS = ArrayList<String>()
     * 消耗剩余字串中一个字符。
     * @return 返回剩余字串中的下个字符。
     */
    fun consume(): Char {
        return queue[pos++]
    }
-    /**
+        if (ruleStr.isEmpty()) return textS
     * 字串与剩余字串是否匹配，不区分大小写
     * @param seq 字符串被检查
     * @return 若下字符串匹配返回 true
     */
    fun matches(seq: String): Boolean {
        return queue.regionMatches(pos, seq, 0, seq.length, ignoreCase = true)
    }
-    /**
+        //拆分规则
-     * 从剩余字串中拉出一个字符串，直到但不包括匹配序列，或剩余字串用完。
+        val sourceRule = SourceRule(ruleStr)
-     * @param seq 分隔字符 **区分大小写**
+
-     * @return 是否找到相应字段。
+        if (sourceRule.elementsRule.isEmpty()) {
-     */
+
-    fun consumeTo(seq: String,setStartPos:Boolean = true): Boolean {
+            textS.add(element.data() ?: "")
        } else {
            val ruleAnalyzes = RuleAnalyzer(sourceRule.elementsRule)
            val ruleStrS = ruleAnalyzes.splitRule("&&","||" ,"%%")
            val results = ArrayList<List<String>>()
            for (ruleStrX in ruleStrS) {
                val temp: List<String>? =
                    if (sourceRule.isCss) {
                        val lastIndex = ruleStrX.lastIndexOf('@')
                        getResultLast(
                            element.select(ruleStrX.substring(0, lastIndex)),
                            ruleStrX.substring(lastIndex + 1)
                        )
                    } else {
                        getResultList(ruleStrX)
                    }
                if (!temp.isNullOrEmpty()) {
                    results.add(temp) //!temp.isNullOrEmpty()时，results.isNotEmpty()为true
-        if(setStartPos)start = pos //将处理到的位置设置为规则起点
+                    if (ruleAnalyzes.elementsType == "||") break
        val offset = queue.indexOf(seq, pos)
        return if (offset != -1) {
            pos = offset
            true
        } else false
                }
            }
            if (results.size > 0) {
                if ("%%" == ruleAnalyzes.elementsType) {
                    for (i in results[0].indices) {
                        for (temp in results) {
                            if (i < temp.size) {
                                textS.add(temp[i])
                            }
                        }
                    }
                } else {
                    for (temp in results) {
                        textS.addAll(temp)
                    }
                }
            }
        }
        return textS
    }
    /**
-     * 从剩余字串中拉出一个字符串，直到但不包括匹配序列（匹配参数列表中一项即为匹配），或剩余字串用完。
+     * 获取Elements
     * @param seq 匹配字符串序列
     * @return 成功返回true并设置间隔，失败则直接返回fasle
     */
-    fun consumeToAny(vararg seq:String): Boolean {
+    private fun getElements(temp: Element?, rule: String): Elements {
-        start = pos
+        if (temp == null || rule.isEmpty()) return Elements()
-        while (!isEmpty) {
+        val elements = Elements()
-            for (s in seq) {
+        val sourceRule = SourceRule(rule)
-                if (matches(s)) {
+        val ruleAnalyzes = RuleAnalyzer(sourceRule.elementsRule)
-                    step = s.length //间隔数
+        val ruleStrS = ruleAnalyzes.splitRule("&&","||","%%")
-                    return true //匹配就返回 true
+
        val elementsList = ArrayList<Elements>()
        if (sourceRule.isCss) {
            for (ruleStr in ruleStrS) {
                val tempS = temp.select(ruleStr)
                elementsList.add(tempS)
                if (tempS.size > 0 && ruleAnalyzes.elementsType == "||") {
                    break
                }
            }
        } else {
            for (ruleStr in ruleStrS) {
                //将原getElementsSingle函数调用的函数的部分代码内联过来，方便简化getElementsSingle函数
                val rsRule = RuleAnalyzer(ruleStr)
                if( rsRule.peek() =='@' || rsRule.peek() < '!' ) rsRule.advance()  // 修剪当前规则之前的"@"或者空白符
                val rs = rsRule.splitRule("@")
                val el = if (rs.size > 1) {
                    val el = Elements()
                    el.add(temp)
                    for (rl in rs) {
                        val es = Elements()
                        for (et in el) {
                            es.addAll(getElements(et, rl))
                        }
                        el.clear()
                        el.addAll(es)
                    }
                    el
                }else getElementsSingle(temp,ruleStr)
-            pos++ //逐个试探
+                elementsList.add(el)
                if (el.size > 0 && ruleAnalyzes.elementsType == "||") {
                    break
                }
            }
        }
-
+        if (elementsList.size > 0) {
-        pos = start //匹配失败，位置回退
+            if ("%%" == ruleAnalyzes.elementsType) {
-
+                for (i in 0 until elementsList[0].size) {
-        return false
+                    for (es in elementsList) {
                        if (i < es.size) {
                            elements.add(es[i])
                        }
                    }
                }
            } else {
                for (es in elementsList) {
                    elements.addAll(es)
                }
            }
        }
        return elements
    }
    /**
-     * 从剩余字串中拉出一个字符串，直到但不包括匹配序列（匹配参数列表中一项即为匹配），或剩余字串用完。
+     * 1.支持阅读原有写法，':'分隔索引，!或.表示筛选方式，索引可为负数
-     * @param seq 匹配字符序列
+     *
-     * @return 返回匹配位置
+     * 例如 tag.div.-1:10:2 或 tag.div!0:3
-     */
+     *
-    private fun findToAny(vararg seq:Char): Int {
+     * 2. 支持与jsonPath类似的[]索引写法
     *
     * 格式形如 [it,it，。。。] 或 [!it,it，。。。] 其中[!开头表示筛选方式为排除，it为单个索引或区间。
     *
     * 区间格式为 start:end 或 start:end:step，其中start为0可省略，end为-1可省略。
     *
     * 索引，区间两端及间隔都支持负数
     *
     * 例如 tag.div[-1, 3:-2:-10, 2]
     *
     * 特殊用法 tag.div[-1:0] 可在任意地方让列表反向
     *
     * */
-        val start = pos //声明新变量记录临时起始位置，不更改类本身的起始位置
+    fun findIndexSet( rule:String ): IndexSet {
-        while (!isEmpty) {
+        val indexSet = IndexSet()
        val rus = rule.trim{ it <= ' '}
-            for (s in seq) if(queue[pos] == s) return pos //匹配则返回位置
+        var len = rus.length
        var curInt: Int? //当前数字
        var curMinus = false //当前数字是否为负
        val curList = mutableListOf<Int?>() //当前数字区间
        var l = "" //暂存数字字符串
-            pos++ //逐个试探
+        val head = rus.last() == ']' //是否为常规索引写法
-        }
+        if(head){ //常规索引写法[index...]
-        pos = start //匹配失败，位置回退
+            len-- //跳过尾部']'
-        return -1
+            while (len-- >= 0) { //逆向遍历,可以无前置规则
    }
-    //其中js只要符合语法，就不用避开任何阅读关键字，自由发挥
+                var rl = rus[len]
-    fun chompJsBalanced(f: ((Char) -> Boolean?) = {
+                if (rl == ' ') continue //跳过空格
        when (it) {
            '{' -> true //开始嵌套一层
            '}' -> false //闭合一层嵌套
            else -> null
        }
    } ): Boolean {
        start = pos
        var depth = 0 //嵌套深度
        var bracketsDepth = 0 //[]嵌套深度
        var inSingleQuote = false //单引号
        var inDoubleQuote = false //双引号
        var inOtherQuote = false //js原始字串分隔字符
        var regex = false //正则
        var commit = false //单行注释
        var commits = false //多行注释
        do {
            if (isEmpty) break
            var c = consume()
            if (c != '\\') { //非转义字符
                if (c == '\'' && !commits && !commit && !regex && !inDoubleQuote && !inOtherQuote) inSingleQuote = !inSingleQuote //匹配具有语法功能的单引号
                else if (c == '"' && !commits && !commit && !regex && !inSingleQuote && !inOtherQuote) inDoubleQuote = !inDoubleQuote //匹配具有语法功能的双引号
                else if (c == '`' && !commits && !commit && !regex && !inSingleQuote && !inDoubleQuote) inOtherQuote = !inOtherQuote //匹配具有语法功能的'`'
                else if (c == '/' && !commits && !commit && !regex && !inSingleQuote && !inDoubleQuote && !inOtherQuote) { //匹配注释或正则起点
                    c = consume()
                    when(c){
                        '/'->commit=true //匹配单行注释起点
                        '*'->commits=true //匹配多行注释起点
                        else ->regex=true //匹配正则起点
                    }
                }
                else if(commits && c == '*') { //匹配多行注释终点
                    c = consume()
                    if(c == '/')commits = false
                }
                else if(regex && c == '/') { //正则的终点或[]平衡
-                    when (c) {
+                if (rl in '0'..'9') l += rl //将数值累接入临时字串中，遇到分界符才取出
-                        '/' -> regex = false//匹配正则终点
+                else if (rl == '-') curMinus = true
                else {
-                        //为了保证当open为（ 且 close 为 ）时，正则中[(]或[)]的合法性。故对[]这对在任何规则中都平衡的成对符号做匹配。
+                    curInt = if (l.isEmpty()) null else if (curMinus) -l.toInt() else l.toInt() //当前数字
                        // 注：正则里[(]、[)]、[{]、[}]都是合法的，所以只有[]必须平衡。
                        '[' -> bracketsDepth++ //开始嵌套一层[]
                        ']' -> bracketsDepth-- //闭合一层嵌套[]
                    }
-                }
+                    when (rl) {
                        ':' -> curList.add(curInt) //区间右端或区间间隔
-                if (commits || commit || regex || inSingleQuote  || inDoubleQuote || inOtherQuote) continue //语法单元未匹配结束，直接进入下个循环
+                        else -> {
-                val fn = f(c) ?: continue
+                            //为保证查找顺序，区间和单个索引都添加到同一集合
-                if (fn) depth++ else depth-- //嵌套或者闭合
+                            if(curList.isEmpty())indexSet.indexs.add(curInt!!)
                            else{
-            }else { //转义字符
+                                //列表最后压入的是区间右端，若列表有两位则最先压入的是间隔
-                var next = consume() //拉出被转义字符
+                                indexSet.indexs.add( Triple(curInt, curList.last(), if(curList.size == 2) curList.first() else 1) )
-                if(commit && next == 'n') commit = false //匹配单行注释终点。当前为\,下个为n，表示换行
+
-                else if (!commits && !commit && next == '\\') {
+                                curList.clear() //重置临时列表，避免影响到下个区间的处理
-                    consume() //当前为\,下个为\，双重转义中"\\"表示转义字符本身，根据if条件"\\"字串不在注释中，则只能在字串或正则中
+
-                    next = consume() //拉出下个字符，因为在双重转义的字串或正则中，类似于 \\/ 这样的结构才是转义结构
+                            }
-                    if(next == '\\')consume() //若为转义字符则继续拉出，因为双重转义中转义字符成对存在,即 \\\\
+
                            if(rl == '!'){
                                indexSet.split='!'
                                do{ rl = rus[--len] } while (len > 0 && rl == ' ')//跳过所有空格
                            }
                            if(rl == '[') return indexSet.apply {
                                beforeRule = rus.substring(0, len)
                            } //遇到索引边界，返回结果
                            if(rl != ',') break //非索引结构，跳出
                        }
                    }
                    l = "" //清空
                    curMinus = false //重置
                }
            }
-        } while (depth > 0 || bracketsDepth >0) //拉出全部符合js语法的字段
+        } else while (len-- >= 0) { //阅读原本写法，逆向遍历,可以无前置规则
-        if(depth > 0 || bracketsDepth >0) start = pos
+            val rl = rus[len]
            if (rl == ' ') continue //跳过空格
-        return  pos > start
+            if (rl in '0'..'9') l += rl //将数值累接入临时字串中，遇到分界符才取出
-    }
+            else if (rl == '-') curMinus = true
            else {
-    /**
+                if(rl == '!'  || rl == '.' || rl == ':') { //分隔符或起始符
     * 在双重转义字串中拉出一个规则平衡组
     */
    fun chompRuleBalanced(open: Char = '[', close: Char = ']',f: ((Char) ->Boolean?)? = null ): Boolean {
        start = pos
        var depth = 0 //嵌套深度
        var otherDepth = 0 //其他对称符合嵌套深度
        var inSingleQuote = false //单引号
        var inDoubleQuote = false //双引号
        do {
            if (isEmpty) break
            val c = consume()
            if (c != ESC) { //非转义字符
                if (c == '\'' && !inDoubleQuote) inSingleQuote = !inSingleQuote //匹配具有语法功能的单引号
                else if (c == '"' && !inSingleQuote) inDoubleQuote = !inDoubleQuote //匹配具有语法功能的双引号
                if (inSingleQuote  || inDoubleQuote) continue //语法单元未匹配结束，直接进入下个循环
                if ( c == open )depth++ //开始嵌套一层
                else if ( c== close) depth-- //闭合一层嵌套
                else if(depth == 0 && f != null) { //处于默认嵌套中的非默认字符不需要平衡，仅depth为0时默认嵌套全部闭合，此字符才进行嵌套
                    val fn = f(c) ?: continue
                    if (fn) otherDepth++ else otherDepth--
                }
-            }else { //转义字符
+                    indexSet.indexDefault.add(if (curMinus) -l.toInt() else l.toInt()) // 当前数字追加到列表
-                var next = consume() //拉出被转义字符，匹配\/、\"、\'等
+
-                if (next == ESC) {
+                    if (rl != ':') return indexSet.apply { //rl == '!'  || rl == '.'
-                    consume() //当前为\,下个为\，双重转义中"\\"表示转义字符本身，根据语法特征当前字段在字串或正则中
+                        split = rl
-                    next = consume() //拉出下个字符，因为在双重转义的字串或正则中，类似于 \\/ 这样的结构才是转义结构
+                        beforeRule = rus.substring(0, len)
-                    if(next == ESC)consume() //若为转义字符则继续拉出，因为双重转义中转义字符成对存在,即 \\\\
+                    }
-                }
+
                }else break //非索引结构，跳出循环
                l = "" //清空
                curMinus = false //重置
            }
        } while (depth > 0 || otherDepth > 0) //拉出一个平衡字串
-        return !(depth > 0 || otherDepth > 0) //平衡返回false，不平衡返回true
+        }
        return indexSet.apply{
            split = ' '
            beforeRule = rus } //非索引格式
    }
    /**
-     * 不用正则,不到最后不切片也不用中间变量存储,只在序列中标记当前查找字段的开头结尾,到返回时才切片,高效快速准确切割规则
+     * 获取Elements按照一个规则
     * 解决jsonPath自带的"&&"和"||"与阅读的规则冲突,以及规则正则或字符串中包含"&&"、"||"、"%%"、"@"导致的冲突
     */
-    tailrec fun splitRule(vararg split: String): Array<String>{ //首段匹配,elementsType为空
+    private fun getElementsSingle(temp: Element, rule: String): Elements {
-        if(split.size == 1) {
+        var elements = Elements()
            elementsType = split[0] //设置分割字串
            step = elementsType.length //设置分隔符长度
            return splitRule(arrayOf()) //仅一个分隔字串时，直接二段解析更快
        }else if (!consumeToAny(* split)) return arrayOf(queue) //未找到分隔符
-        val st = findToAny( '[','(' ) //查找筛选器
+        val fi = findIndexSet(rule) //执行索引列表处理器
-        if(st == -1) {
+        val (filterType,ruleStr) = fi //获取操作类型及非索引部分的规则字串
-            var rule = arrayOf(queue.substring(0, pos)) //压入分隔的首段规则到数组
+//        val rulePc = rulePcx[0].trim { it <= ' ' }.split(">")
 //        jsoup中，当前节点是参与选择的，tag.div 与 tag.div@tag.div 结果相同
 //        此处">"效果和“@”完全相同，且容易让人误解成选择子节点，实际并不是。以后不允许这种无意义的写法
-            elementsType = queue.substring(pos, pos + step) //设置组合类型
+        val rules = ruleStr.split(".")
            pos += step //跳过分隔符
-            while (consumeToAny(* split)) { //循环切分规则压入数组
+        elements.addAll(
-                rule += queue.substring(start, pos)
+            if(ruleStr.isEmpty()) temp.children() //允许索引直接作为根元素，此时前置规则为空，效果与children相同
-                pos += step //跳过分隔符
+            else when (rules[0]) {
-            }
+                "children" -> temp.children() //允许索引直接作为根元素，此时前置规则为空，效果与children相同
                "class" -> temp.getElementsByClass(rules[1])
                "tag" -> temp.getElementsByTag(rules[1])
                "id" -> Collector.collect(Evaluator.Id(rules[1]), temp)
                "text" -> temp.getElementsContainingOwnText(rules[1])
                else -> temp.select(ruleStr)
            } )
-            rule += queue.substring(pos) //将剩余字段压入数组末尾
+        val indexSet = fi.getIndexs(elements.size) //传入元素数量，处理负数索引及索引越界问题，生成可用索引集合。
-            return rule
+        if(filterType == '!'){ //排除
        }
-        val rule = if(st >pos ){ //先匹配到st1pos，表明分隔字串不在选择器中，将选择器前分隔字串分隔的字段依次压入数组
+            for (pcInt in indexSet) elements[pcInt] = null
-            var rule = arrayOf(queue.substring(0, pos)) //压入分隔的首段规则到数组
+            elements.removeAll(listOf(null)) //测试过，这样就行
-            elementsType = queue.substring(pos, pos + step) //设置组合类型
+        }else if(filterType == '.'){ //选择
            pos += step //跳过分隔符
-            while (consumeToAny( * split ) && pos < st ) { //循环切分规则压入数组
+            val es = Elements()
                rule += queue.substring(start, pos)
                pos += step //跳过分隔符
            }
-            rule
+            for (pcInt in indexSet) es.add(elements[pcInt])
-        }else null
+            elements = es
-        pos = st //位置推移到筛选器处
+        }
        val next = if(queue[pos] == '[' ) ']' else ')' //平衡组末尾字符
        return if (rule == null) { //rule为空,首段未匹配完成
-            if(!chompRuleBalanced(queue[pos],next)) throw Error(queue.substring(0, start)+"后未平衡") //拉出一个筛选器,不平衡则报错
+        return elements
-            splitRule(* split) //递归调用首段匹配
+    }
-        }  else {
+    /**
     * 获取内容列表
     */
    private fun getResultList(ruleStr: String): List<String>? {
-            val start0 = start //记录当前规则开头位置
+        if (ruleStr.isEmpty()) return null
            if(!chompRuleBalanced(queue[pos],next)) throw Error(queue.substring(0, start)+"后未平衡") //拉出一个筛选器,不平衡则报错
            start = start0 //筛选器的开头不是本段规则开头,故恢复开头设置
            splitRule(rule) //首段已匹配,但当前段匹配未完成,调用二段匹配
-        }
+        var elements = Elements()
-    }
+        elements.add(element)
-    @JvmName("splitRuleNext")
+        val rule = RuleAnalyzer(ruleStr) //创建解析
    private tailrec fun splitRule(rules:Array<String>): Array<String>{ //二段匹配被调用,elementsType非空(已在首段赋值),直接按elementsType查找,比首段采用的方式更快
-        if (!consumeTo(elementsType,false)) return rules + queue.substring(start) //此处consumeTo(...)开始位置不是规则的开始位置,start沿用上次设置
+        while( rule.peek() =='@' || rule.peek() < '!' ) rule.advance()  // 修剪当前规则之前的"@"或者空白符
-        val st = findToAny( '[','(' ) //查找筛选器
+        val rules = rule.splitRule("@") // 切割成列表
-        if(st == -1) {
+        val last = rules.size - 1
-            var rule = rules + queue.substring(start, pos) //压入本次分隔的首段规则到数组
+        for (i in 0 until last) {
-            pos += step //跳过分隔符
+            val es = Elements()
-            while (consumeTo(elementsType)) { //循环切分规则压入数组
+            for (elt in elements) {
-                rule += queue.substring(start, pos)
+                es.addAll(getElementsSingle(elt, rules[i]))
                pos += step //跳过分隔符
            }
-            rule += queue.substring(pos) //将剩余字段压入数组末尾
+            elements.clear()
-            return rule
+            elements = es
        }
        return if (elements.isEmpty()) null else getResultLast(elements, rules[last])
    }
-        val rule = if(st > pos ){//先匹配到st1pos，表明分隔字串不在选择器中，将选择器前分隔字串分隔的字段依次压入数组
+    /**
-            var rule = rules + queue.substring(start, pos) //压入本次分隔的首段规则到数组
+     * 根据最后一个规则获取内容
-            pos += step //跳过分隔符
+     */
-            while (consumeTo(elementsType) && pos < st) { //循环切分规则压入数组
+    private fun getResultLast(elements: Elements, lastRule: String): List<String> {
-                rule += queue.substring(start, pos)
+        val textS = ArrayList<String>()
-                pos += step //跳过分隔符
+        try {
-            }
+            when (lastRule) {
-            rule
+                "text" -> for (element in elements) {
-        }else rules
+                    textS.add(element.text())
                }
                "textNodes" -> for (element in elements) {
                    val tn = arrayListOf<String>()
                    val contentEs = element.textNodes()
                    for (item in contentEs) {
                        val temp = item.text().trim { it <= ' ' }
                        if (temp.isNotEmpty()) {
                            tn.add(temp)
                        }
                    }
                    textS.add(join("\n", tn))
                }
                "ownText" -> for (element in elements) {
                    textS.add(element.ownText())
                }
                "html" -> {
                    elements.select("script").remove()
                    elements.select("style").remove()
                    val html = elements.outerHtml()
                    textS.add(html)
                }
                "all" -> textS.add(elements.outerHtml())
                else -> for (element in elements) {
-        pos = st //位置推移到筛选器处
+                    val url = element.attr(lastRule)
        val next = if(queue[pos] == '[' ) ']' else ')' //平衡组末尾字符
-        val start0 = start //记录当前规则开头位置
+                    if(url.isEmpty() || textS.contains(url)) break
        if(!chompRuleBalanced(queue[pos],next)) throw Error(queue.substring(0, start)+"后未平衡") //拉出一个筛选器,不平衡时返回true,表示未平衡
        start = start0 //筛选器平衡,但筛选器的开头不是当前规则开头,故恢复开头设置
-        return splitRule(rule) //递归匹配
+                    textS.add(url)
                }
            }
        } catch (e: Exception) {
            e.printStackTrace()
        }
        return textS
    }
    data class IndexSet(var split:Char = '.',
                        var beforeRule:String = "",
                        val indexDefault:MutableList<Int> = mutableListOf(),
                        val indexs:MutableList<Any> = mutableListOf()){
-    /**
+        fun getIndexs(len:Int): MutableSet<Int> {
     * 替换内嵌规则
     * @param inner 起始标志,如{$. 或 {{
     * @param startStep 不属于规则部分的前置字符长度，如{$.中{不属于规则的组成部分，故startStep为1
     * @param endStep 不属于规则部分的后置字符长度，如}}长度为2
     * @param fr 查找到内嵌规则时，用于解析的函数
     *
     * */
    fun innerRule( inner:String,startStep:Int = 1,endStep:Int = 1,fr:(String)->String?): String {
-        val start0 = pos //规则匹配前起点
+            val indexSet = mutableSetOf<Int>()
-        val st = StringBuilder()
+            val lastIndexs = (indexDefault.size - 1).takeIf { it !=-1 } ?: indexs.size -1
        while (!isEmpty && consumeTo(inner)) { //拉取成功返回true，ruleAnalyzes里的字符序列索引变量pos后移相应位置，否则返回false,且isEmpty为true
-            val start1 = start //记录拉取前起点
+            if(indexs.isEmpty())for (ix in lastIndexs downTo 0 ){ //indexs为空，表明是非[]式索引，集合是逆向遍历插入的，所以这里也逆向遍历，好还原顺序
-            if (chompRuleBalanced {//拉出一个以[]为默认嵌套、以{}为补充嵌套的平衡字段
+                val it = indexDefault[ix]
-                    when (it) {
+                if(it in 0 until len) indexSet.add(it) //将正数不越界的索引添加到集合
-                        '{' -> true
+                else if(it < 0 && len >= -it) indexSet.add(it + len) //将负数不越界的索引添加到集合
                        '}' -> false
                        else -> null
                    }
                }) {
                val frv= fr(currBalancedString(startStep,endStep))
                if(frv != null) {
                    st.append(queue.substring(start1,start)+frv) //压入内嵌规则前的内容，及内嵌规则解析得到的字符串
                    continue //获取内容成功，继续选择下个内嵌规则
-                }
+            }else for (ix in lastIndexs downTo 0 ){ //indexs不空，表明是[]式索引，集合是逆向遍历插入的，所以这里也逆向遍历，好还原顺序
            }
-            start = start1 //拉出字段不平衡，重置起点
+                if(indexs[ix] is Triple<*, *, *>){ //区间
            pos = start + inner.length //拉出字段不平衡，inner只是个普通字串，规则回退到开头，并跳到此inner后继续匹配
-        }
+                    val (startx, endx, stepx) = indexs[ix] as Triple<Int?, Int?, Int> //还原储存时的类型
-        //匹配前起点与当前规则起点相同，证明无替换成功的内嵌规则,返回空字符串。否则返回替换后的字符串
+                    val start = if (startx == null)  0 //左端省略表示0
-        return if(start0 == start) "" else {
+                    else if (startx >= 0) if (startx < len) startx else len - 1 //右端越界，设置为最大索引
-            st.append(remainingString()) //压入剩余字符串
+                    else if (-startx <= len) len + startx /* 将负索引转正 */ else 0 //左端越界，设置为最小索引
            st.toString()
        }
    }
-//    /**
+                    val end = if (endx == null)  len - 1 //右端省略表示 len - 1
-//     * 匹配并返回标签中的属性键字串（字母、数字、-、_、:）
+                    else if (endx >= 0) if (endx < len) endx else len - 1 //右端越界，设置为最大索引
-//     * @return 属性键字串
+                    else if (-endx <= len) len + endx /* 将负索引转正 */ else 0 //左端越界，设置为最小索引
 //     */
 //    fun consumeAttributeKey(start:Int = pos): String {
 //        while (!isEmpty && (Character.isLetterOrDigit(queue[pos]) || matchesAny('-', '_', ':'))) pos++
 //        return queue.substring(start, pos)
 //    }
 //    fun splitRule(query:String,item:String = "other",listItem:String = "allInOne"):String{
 //
 //        val cuurItem = item //当前项类型，list->列表项 mulu->章节列表项 url->链接项 search->搜索链接项 find发现链接列表项 other->其他项
 //        val cuurList = listItem//当前界面总列表项类型，allInOne，json，xml，kotin，java
 //        var Reverse = false //是否反转列表
 //
 //        consumeWhitespace() //消耗开头空白
 //        var fisrt = consume() //拉出并消费首字符
 //
 //        when(item){
 //            "search" ->
 //            "find" ->
 //            "mulu" -> if(fisrt == '-'){
 //                Reverse=true //开启反转
 //                consumeWhitespace() //拉出所有空白符
 //                fisrt = consume() //首字符后移
 //            }
 //            else ->
 //
 //        }
 //
 //        return  query
 //    }
-    companion object {
+                    if (start == end || stepx >= len) { //两端相同，区间里只有一个数。或间隔过大，区间实际上仅有首位
        /**
         * 转义字符
         */
        private const val ESC = '\\'
-        /**
+                        indexSet.add(start)
-         * 阅读共有分隔字串起始部分
+                        continue
         * "##","@@","{{","{[","<js>", "@js:"
         */
        val splitList =arrayOf("##","@@","{{","{[","<js>", "@js:")
-        /**
+                    }
         * 发现‘名称-链接’分隔字串
         * "::"
         */
        const val splitListFaXian = "::"
-        /**
+                    val step = if (stepx > 0) stepx else if (-stepx < len) stepx + len else 1 //最小正数间隔为1
         * 目录专有起始字符
         * "-"
         */
        const val splitListMulu = "-"
-        /**
+                    //将区间展开到集合中,允许列表反向。
-         * 结果为元素列表的 all in one 模式起始字符
+                    indexSet.addAll(if (end > start) start..end step step else start downTo end step step)
         * "+"
         */
        const val splitListTongYi = "+"
-        /**
+                }else{//单个索引
         * 结果为元素列表的项的同规则组合结构
         * "||","&&","%%"
         */
        val splitListReSplit = arrayOf("||","&&","%%")
-        /**
+                    val it = indexs[ix] as Int //还原储存时的类型
         * js脚本结束字串
         * "</js>"
         */
        const val splitListEndJS = "</js>"
-        /**
+                    if(it in 0 until len) indexSet.add(it) //将正数不越界的索引添加到集合
-         *内嵌js结束字串
+                    else if(it < 0 && len >= -it) indexSet.add(it + len) //将负数不越界的索引添加到集合
         * "}}"
         */
        const val splitListEndInnerJS = "}}"
-        /**
+                }
         * 内嵌规则结束字串
         * "]}"
         */
        const val splitListEndInnerRule = "]}"
-        /**
+            }
         * '[', ']', '(', ')','{','}'
         */
        val splitListPublic = charArrayOf('[', ']', '(', ')','{','}')
-        /**
+            return indexSet
         * '*',"/","//",":","::","@","|","@xpath:"
         */
        val splitListXpath = arrayOf("*","/","//",":","::","@","|","@xpath:")
-        /**
+        }
         * '*','$',".","..", "@json:"
         */
        val splitListJson = arrayOf('*','$',".","..", "@json:")
-        /**
+    }
         * '*',"+","~",".",",","|","@","@css:",":"
         */
        val splitListCss = arrayOf('*',"+","~",".",",","|","@","@css:",":")
        /**
         * "-",".","!","@","@@"
         */
        val splitListDefault = arrayOf("-",".","!","@","@@")
    internal inner class SourceRule(ruleStr: String) {
        var isCss = false
        var elementsRule: String = if (ruleStr.startsWith("@CSS:", true)) {
            isCss = true
            ruleStr.substring(5).trim { it <= ' ' }
        } else {
            ruleStr
        }
    }
 }