然而实际上调研了下业界的无监督
聚类确实低的吓人但是可以看到在加入一些知识做半监督之后效果提升明显但是与此同时却丧失了发现训练外的新需求的能力这个对于我们业务场景来说是不可接受的。 设计变革——大模型的设计方法 //// 问题假设我真的有这样一份结构化的知识那本质上我的任务还没开始其实已经完成了因为我既然已经都可以知道什么数据是什么需求了直接去匹配就可以了没必要做一个挖掘系统了这是一个典型的先有鸡还是先有蛋的问题。所以在我们没有一个完善的结构化知识并且无监督聚类效果肯定无法商用的前提下要怎么来做这件事呢这里细节就不阐述了以下是当初思考的某几个想法 思路我拿不到精准的结构化知识那么我是否可以拿到一些相对粗的知识呢?比如维基百科社区各种门户网站都有很好的粗 马来西亚手机号码数据 粒度非结构化或者半结构化知识; 思路像这类搜索引擎他们构造原理上需要爬虫爬取全世界的网页并且进行相关性检索因此我们可以假设一个新的相关实体或者本身搜索引擎可以提供高相关度的网页那我们就可以用搜索接口的 结果去挖掘一些潜在粗粒度知识; 思路直接拿到大量数据聚类处理不可行的话我们是否借鉴“新发现”的思路从单条数据切入先找到单条的新需求数据然后再推广找到类似新需求范式的影响面但是其实这样设计会有一个问题就是以新范式代替了新需求范式定义就很重要比如引入语义语法等等就比单纯的文本近似靠谱得多但
https://lh7-us.googleusercontent.com/3VBq4jJjGcdHeKFivBlh03YkqeOwp0OyrZpidtFoyy7b-gZCigfK7Sv71reSwx3Ze7sDvXWe7Ic0qMUUV99wbwaMs1uVgAZtjgEj9YglFqPz0W1ysI_arTQ7c8LdMpsGvQnt_d4RaqxPmB0s
是这样实际上挖掘到的需求影响面会比实际小; 思路技术不可达的话通过人机耦合来完成任务比如构造一个挖掘平台每天把挖掘到的同一类的新大类需求抛到上面由人工去标记这是什么需求。这种思路的话就需要内部拉通一个“需求闭环团队”要求大家每天都上平台做需求分析。 这里每种思路的后续设计思考我就省略了简单说做一些可行性的推衍之后各种思路结合做了第一版的简单路径设计细节诸如粗粒度知识如何获取之类的就省略了 设计变革——大模型的设计方法 直接处理全
頁:
[1]