免费开源的WPS AI插件 察元AI助手:assessChunkRiskProfile:换行与表格疑似特征
摘要在送入模型前documentChunker 对单块文本计算 riskProfile用于提示词或日志中标记「多行块」「疑似表格」等。调整阈值时应配合真实公文样本回归。关键词heuristic;risk;chunk扩展阅读与维护提示本篇围绕「assessChunkRiskProfile换行与表格疑似特征」组织材料。仓库内与主题最直接相关的检索词包括heuristic、risk、chunk。建议在阅读正文所列片段后用 IDE 全局搜索这些符号沿 import 与调用栈向上追问「谁在什么时机调用」而不是只记住单文件路径。摘要所概括的要点为在送入模型前documentChunker 对单块文本计算 riskProfile用于提示词或日志中标记「多行块」「疑似表格」等。调整阈值时应配合真实公文样本回归。落地到排障时可把现象粗分为三类交叉验证配置是否按预期写入持久化介质WPS COM 上下文是否可用例如是否缺少 ActiveDocument以及网络与证书策略是否拦截了 fetch。本篇涉及的模块通常只覆盖其中一两类需要与相邻篇目拼成完整拼图。教程文件名「36-wendang-fenkuai-fengxian-huaxiang.md」仅用于导航与排序不等价于源码模块名。若正文中的行号与本地分支不一致多半因合并导致行偏移此时应以函数名、导出名为锚重新检索团队若维护了生成脚本可在变更大段源码后重新运行以保持摘录大致对齐。本文刻意避免对产品能力做营销式承诺所述行为均以当前仓库可见实现为准。若组织策略要求离线或内网模型应在网关、证书与代理层收口而不是假设加载项能绕过浏览器安全模型。若你同时阅读 docs/chayuan-llm-chain-series可先对照其中的总体链路图理解「请求从 UI 到 chatApi」的次序再回到本教程看数据结构、默认值与修改风险面两者互补不重复堆砌功能列表。正文1. 特征统计lineBreakCount、tableLikeLineCount 等统计方式。阅读源码摘录时请把它当作「定位入口」而非完整实现同一函数可能在其他分支还有早退条件或 try/catch。修改默认行为前建议用最小文档手工走一遍相关助手或对话框并观察任务清单与日志中的字段是否与预期一致再决定是否做数据迁移或配置重置。// src/utils/documentChunker.js 第13-35行 function assessChunkRiskProfile(text) { const normalized normalizeRangeText(text) const lineBreakCount (normalized.match(/\n/g) || []).length const slashCount (normalized.match(/[\\/]/g) || []).length const numberingLineCount normalized .split(\n) .filter(line /^\s*(?:第[0-9一二三四五六七八九十百千][章节篇部卷]|[一二三四五六七八九十百千][、.]|\d(?:\.\d)*(?:[、.)]))/.test(line)) .length const tableLikeLineCount normalized .split(\n) .filter(line { const trimmed String(line || ).trim() if (!trimmed) return false const pipeCount (trimmed.match(/\|/g) || []).length const tabCount (trimmed.match(/\t/g) || []).length const multiSpaceCols (trimmed.match(/\s{2,}/g) || []).length return pipeCount 2 || tabCount 2 || multiSpaceCols 3 }) .length const punctuationDense normalized.length 0 ? ((normalized.match(/[()【】[\]\\/|]/g) || []).length / normalized.length) 0.08 : false const reasonCodes []2. 风险等级reasonCodes 聚合后映射为 low/medium/high。阅读源码摘录时请把它当作「定位入口」而非完整实现同一函数可能在其他分支还有早退条件或 try/catch。修改默认行为前建议用最小文档手工走一遍相关助手或对话框并观察任务清单与日志中的字段是否与预期一致再决定是否做数据迁移或配置重置。// src/utils/documentChunker.js 第35-44行 const reasonCodes [] let level low if (lineBreakCount 3) reasonCodes.push(multi_line_chunk) if (slashCount 3) reasonCodes.push(slash_dense_text) if (numberingLineCount 2) reasonCodes.push(numbering_dense_text) if (tableLikeLineCount 2) reasonCodes.push(table_like_text) if (punctuationDense) reasonCodes.push(punctuation_dense_text) if (reasonCodes.length 3 || tableLikeLineCount 2) level high else if (reasonCodes.length 1) level medium const riskReasonLabelMap {