题目画像构建方案

什么是题目画像

题目画像是我们对题目打上各种各样的标签，让我们对题目有更精准的认识。但是，这对我们进行挖掘没有什么用，因为我们要给机器看，而不是给人看。所以我们要对题目进行向量化，最后得到的就是题目画像。题目画像不是我们的目的，而是在各种算法模型和业务功能中产生的一个关键的副产品。

题目画像的关键因素

第一个是维度，第二个是量化。

题目画像的构建方法

1.直接使用原始数据。
直接使用原始数据作为题目画像的内容，像录入资料，学科、题干、答案、题干图片数、学段等，除了清洗工作本身并没有任何抽象和归纳。但是对于初期非常比较有用。
2.堆积历史数据。
从历史数据中，做统计工作，像根据历史做题记录计算难度、区分度等。再或者根据统计为题目打上各种标签，然后用统计结果作为量化结果。不过我们现在历史数据并不充分，可以暂时不考虑这一部分。
3.使用机器学习方法。
使用各种机器学习的方法，学习出人类无法直接理解的稠密向量，这一部分是我们最重要的，因为题目很多都是非结构化的信息，知识图谱、文字、公式、图片等，这都需要我们结构化，然后向量化。

结构化文本

成熟NLP算法分析得到的信息种类
1.关键词提取
2.实体识别
3.内容分类
4.主题模型
5.嵌入(我们当前模型主要使用的方式，也是我们初期工作部分)