题目画像构建方案

什么是题目画像

题目画像是我们对题目打上各种各样的标签,让我们对题目有更精准的认识。但是,这对我们进行挖掘没有什么用,因为我们要给机器看,而不是给人看。所以我们要对题目进行向量化,最后得到的就是题目画像。题目画像不是我们的目的,而是在各种算法模型和业务功能中产生的一个关键的副产品。

题目画像的关键因素

第一个是维度,第二个是量化。

题目画像的构建方法

1.直接使用原始数据。
直接使用原始数据作为题目画像的内容,像录入资料,学科、题干、答案、题干图片数、学段等,除了清洗工作本身并没有任何抽象和归纳。但是对于初期非常比较有用。
2.堆积历史数据。
从历史数据中,做统计工作,像根据历史做题记录计算难度、区分度等。再或者根据统计为题目打上各种标签,然后用统计结果作为量化结果。不过我们现在历史数据并不充分,可以暂时不考虑这一部分。
3.使用机器学习方法。
使用各种机器学习的方法,学习出人类无法直接理解的稠密向量,这一部分是我们最重要的,因为题目很多都是非结构化的信息,知识图谱、文字、公式、图片等,这都需要我们结构化,然后向量化。

结构化文本

成熟NLP算法分析得到的信息种类
1.关键词提取
2.实体识别
3.内容分类
4.主题模型
5.嵌入(我们当前模型主要使用的方式,也是我们初期工作部分)

undefined