将人工智能应用到评估文本难度中，提高教育的有效性和准确性_人工智能

几十年来，教育工作者一直依赖可读性指标，这些指标往往过于简化了文本难度的维度。该研究探讨了将先进的人工智能方法应用于评估文本难度的教育问题的潜力。分层机器学习和自然语言处理（NLP）的结合被利用来预测阅读理解智能辅导系统iSTART中使用的练习文本的难度。人类评测者估计了iSTART库中两个文本集（Set A和Set B）中262篇文本的难度水平。NLP工具被用来识别预测文本难度的语言特征，并将这些指数提交给扁平化和层次化的机器学习算法。结果表明，与经典的可读性指标相比，包含NLP指数和机器学习的准确性提高了10%以上。此外，对于B集（72%）和A+B的组合集（65%），分层法的表现优于非分层法（扁平化）的机器学习分类，而对于A集（79%），非分层法的表现略好于分层法。这些发现表明了考虑与文本难度相关的更深层次语言特征的重要性，以及层次化机器学习方法在开发有意义的文本难度分类中的潜在效用。本文以“Applying Natural Language Processing and Hierarchical Machine Learning Approaches to Text Difficulty Classification”为题于2020年6月25日发布于《International Journal of Artificial Intelligence in Education》杂志上。

将人工智能应用到评估文本难度中，提高教育的有效性和准确性_人工智能_机器人

研究背景与实验

在今天的大多数课堂上，文本仍然是一种重要的学习工具。在课堂上，学生经常被要求阅读课文和教科书，以学习新的信息。因此，许多教育工作者和教科书出版商试图将课文的难度调到适合学生的水平。可读性公式作为评估文本难度的一种手段已经使用了一个多世纪。事实上，教师们长期以来一直依靠可读性指标来选择课堂材料。在许多方面，这种做法是有根据的：学习理论表明，当任务适合学生的能力时，学习最容易发生。维果茨基著名的 "近端发展区 "认为，具有挑战性但在充分支持下有可能实现的任务，比太容易或太困难的任务对学习更有效。考虑到这一点，许多研究者和出版商已经开发了估计文本难度的方法，以便将阅读作业与学生的估计技能水平相匹配。

找到与课程内容、学生的兴趣和他们当前的阅读技能相匹配的文本是一个挑战。考虑到可用材料的丰富性和每个学生的不同需求，教师根本没有时间和资源来仔细评估文本的难度。一种方法是依靠出版商的选集（如基础读物），这些选集根据其目标年级来定义文本。虽然年级选集为教师提供了一种快速找到与某一年级 "普通 "学生相关的课文的方法，但如何选择这些课文的标准往往是不明确和不系统的。例如，Scholastic是一家领先的儿童读物出版商，它提供了各种系统来确定适合年级的课文。这些系统在重点（如兴趣、技能）和颗粒大小方面各不相同。值得注意的是，Scholastic公司承认，并非所有的书籍都使用相同的系统进行分级，让教师来进行这些跨系统的比较。

在依靠文本材料的教育技术中，选择具有适当挑战性的文本的问题被放大了。为了提供与能力匹配良好的课文，系统需要有大量的课文来满足每个学生的需求，并随着学生在不同教学中的技能变化而适应这些需求。因此，当通过自动化来扩大教学规模时，单个教师需要为一个班级的学生寻找合适的课文所面临的限制被进一步放大。因此，开发有效和简便的文本难度评估方法仍然是许多教育领域的重要问题。

最常见的方法是使用可读性公式，如Flesch-Kincaid阅读易度或等级水平。这些测量方法相对容易计算（例如，每句话的字数和每个字的音节数乘以常数），甚至可以嵌入基本的文字处理软件中。事实上，大多数可读性公式都是由计算的便利性驱动的，忽略了语言与理解和学习过程相关的关键方面。包含许多短句和单词的文本通常被可读性指标评为 "容易"。然而，这些可读性指标在预测理解能力方面可能很差。例如，Begeny和Greene(2014)使用8个常见的可读性公式评估了早期基本识字技能动态指标(DIBELS)测试中的段落，这是一个评估早期识字技能获取情况的测试。然后，他们请360名不同年级的学生阅读这些段落。他们发现，可读性公式在确定适当的年级方面处于或低于偶然水平。衡量文章难度的不精确，甚至不准确的一个后果是，学生可能会被分配到太难或太容易的文章(McNamara et al. 1996)。这样的不匹配可能会导致次优的学习，当学生的表现不如他们 "应该 "的时候，学生和教师都可能会感到沮丧。

可读性和阅读理解之间脱节的一个原因是，可读性算法依赖于语言的表面特征，而不是话语层面的特征。例如，内容驱动的文本可能包括由单音节组成的短句，但复杂和特定主题的单词，或者在各句子所传达的思想之间可能存在连贯性差距，从而使文本更难理解。

改善文本难度评估的一个手段是超越简单的基于单词的指标，加入与话语理解相关的语言和语义指数。NLP的进步使得研究人员能够提取有关文本语言特征的丰富信息，这些信息反映了叙事性、句法复杂性和凝聚力等复杂的维度（。这些工具包括语音部分（POS）标记器、解析器、情感分析器和语义角色标记器。最近，与本研究特别相关的是，在认知理论的驱动下，开发了大量的NLP工具，以更接近人类对文本难度的判断。这些特征包括词汇复杂度、句法复杂度和凝聚力，以及句子级特征和修辞特征。

其中一个这样的NLP工具Coh-Metrix评估了200多个内聚力、语言和可读性的测量指标。Footnote 2 Coh-Metrix集成了许多复杂的工具(如高级句法解析器、POS标记器和分布模型)和心理语言学数据库，以生成语言、文本和可读性的指数。Coh-Metrix报告了标准的可读性指标（如Flesch-Kincaid），以及从MRC心理语言学数据库中提取的其他词级指标（如熟悉度、具体性）。此外，Coh-Metrix返回的指数评估了句子与句子、句子与段落和段落与段落之间的信息连接程度。这种连接在读者的头脑中提供了一个更连贯的心理表征。事实上，连贯性的指数可以预测理解的难易程度。因此，这项工作的一个方面是证明，通过对语言的这些理论特征的检查，可以提高文本难度的自动评估。

该研究的中心目的是检验不同类型机器学习算法在预测语篇难度方面的有效性，以及评价使用更深层次语言特征(如衔接)的有效性。经典的可读性公式依赖于一般线性建模(GLM)，这涉及到一组关于数据集性质的先验统计假设，这些假设可能是合适的，也可能是不合适的，这取决于环境。相反，许多机器学习(ML)方法并没有做出类似的统计假设。最近的工作已经证明了机器学习技术在预测文本难度方面的作用。

无层次的平面分类是机器学习最简单、最直接的方法。它使用单个或集成分类器以及训练数据集中的所有类变量实例。例如，想象一下，将100种超市商品分类为10类。在平面分类中，“评分员”会一次从100个项目中挑选一个，并根据一组特性来考虑项目。然后，评价者将使用这一探索功能，将项目放在10个类别之一。

将人工智能应用到评估文本难度中，提高教育的有效性和准确性_人工智能_机器人

图为层次分类结构

据研究者所知，层次化方法还没有应用于文本难度的分类。由于几个原因，这种方法可能非常适合文本困难。首先，使其适合中学读者的文本特征可能与高中读者或多或少难以阅读的文本不同--即不同类别的文本存在潜在的质的差异。第二，这种方法可以更好地反映人类对文本难度的判断过程。想象一下，一位指导员发现了某篇课文的难度。教师可能首先确定课文是否适合幼儿或青少年，从而在“钻入”某一特定年级之前确定一个等级范围。文本难度涉及将项目分类为多个类，这些类自然形成层次结构，而不是简单的二分标识。因此，分层方法可能特别适合于这一复杂的任务。

假设语篇理解的认知理论激发的NLP指数比经典的可读性指标(如Flesch-Kincaid等级)更能预测语篇的难度。还预测，NLP和ML的结合，更具体地说，分层ML方法将产生更类似于人类等级的分类，而不是平坦的或非分级的分类。平面分类方法做出了涉及数据中所有类别的单一决策。

研究者对现有的真实文本集进行了实验。语料库包括互动策略训练中的两个文本集--主动阅读和思考(IStart)--一个智能辅导系统(ITS)，通过自我解释训练支持复杂信息文本的成功阅读理解。文本集是从其他iStart开发项目的各种开源资源中收集的。这些文本集对于这组实验来说是理想的，因为它们被设计成具有各种难度。集合A包括在体裁和难度上差异很大的文本，而集合B包含用于提供高中和大学科学课程典型信息的文本。语料库的一个限制是它相对较小。另一个值得注意的限制是，语料库在每个类中包含一个不平衡的实例数。也就是说，我们没有在每个难度级别上积极选择相同数量的文本。虽然类不平衡会影响ML模型的准确性，但语料库反映了一个真实的挑战。具体来说，选择文本库是因为它嵌入在现实世界的学习环境中，而不是为了开发分类模型。

语料库中的一些课文由原始资料来源预先贴上等级难度标签。然而，研究者没有发现这些预先标记的水平与常见的可读性度量之间的关系。此外，研究者还发现了几个不同来源的段落标记不一致的例子。为了建立准确的基准，研究者采用人工比较评分来评估每一文本的难度。

将人工智能应用到评估文本难度中，提高教育的有效性和准确性_人工智能_机器人

图为两组文本的文本难度级别

COH-Metrix返回200多个语言特征，其中一些在理论上与本语料库中的信息文本无关。从COH-Metrix中提取的特征在尺度上有很大的差异，因此在使用机器学习算法之前，数据被规范化(即在[0，1]范围内用Min-MAX方法重新标度值)。此外，为了避免过度拟合，研究者采用了特征选择方法来降低特征的维数(即指标数)。研究者去除了零方差(ZV)或近零方差(NZV)的特征，并应用了递归特征消除(RFE)方法。我们尝试了用于RFE的多个分类器，包括随机森林分类器、Nave Bayes分类器和套袋树分类器，以确定分类器所选择的常见特征。

验证性非典型肺炎后在一系列的分类实验中，研究者利用NLP特征来预测人类对文本难度的评分。由于他们的数据涉及分类人的评分，研究者采用了监督机器学习分类方法，而不是回归方法。他们进行了以下实验：

实验1(FKGL)：平面(无层次)分类比较ZeroR基线分类器与超过40个不同的分类器，使用FKGL作为唯一的预测器。(为了清晰起见，我们只报告了达到最高精度的八个分类器的结果)。

实验2(FKGL+)：比较ZeroR与其他使用FKGL的分类器以及从特征选择派生出的附加语言特征的平面(非层次)分类(表)2)探讨增加语言特征的好处。

实验3:层次分类利用实验1和实验2中获得的最精确的单个分类器(而不是整体分类器)来检验分层方法的潜在优势。

用于实验的分类器是用Weka工具3.8.1版和R软件包实现的。研究者使用10倍分层交叉验证来计算分类模型的性能指标。只使用单一的分割测试和训练数据(或坚持方法)可能导致高方差和偏倚的结果。结果可能在很大程度上取决于培训和测试集中包含的数据点。因此，他们使用多个数据分割来训练和测试数据，因此称为10倍交叉验证。该方法忽略了当每个数据点被测试数据点一次，训练数据点9次时，数据是如何划分的，从而减小了随折叠数的增加而产生的方差。本研究的分类准确性是真实结果(正负两方面)在被检查病例总数中所占的比例。他们还报告了准确性和F分数的清晰度。

据观察，在上述讨论的四种单一分类器中，SVM和LDA对于层次化方法中使用的二元分类表现最好。与非分层方法的这些集合的准确率相比，分层分类显著提高了B集（从0.64到0.72）和组合集（A+B；从0.61到0.65）的模型准确率。相反，集A的准确率略有下降（从0.81到0.79）。两种分类器（LDA和SVM）的表现是一样的，因此，在该级别中选择哪种分类器并不重要。

总之，在不同的人类对文本难度的评价中，文本的语言特征是不同的。这些特征在A组的 "初级 "和 "高级 "水平以及B组的 "中级 "和 "大学 "水平之间尤为突出。与现有的关于文本难度的工作一致，结果显示低级文本（A组的 "初级 "和B组的 "中级"）在词汇和句法上一般不如高级文本（A组的 "高级 "和B组的 "大学"）复杂。低级文本中的不常见词（罕见词）和具体词也比高级文本少。层次分类法对A集的分类准确率为79%，对B集的分类准确率为72%，对A+B组合集的分类准确率为65%，B集和组合集（A+B）的分类准确率有所提高，但采用层次分类法时A集的分类准确率略有下降。

实验局限性以及未来讨论

这项研究的一个好处是，研究者使用了一个预先存在的语料库，这为他们的方法提供了生态有效性。也就是说，这些模型是建立在对现实世界的文本集做出决定的基础上的，这些文本集可能有不同数量的特定案例的实例。然而，这种语料选择的一个由此产生的局限性是，该集相对较小且不平衡。未来的工作应该使用更大的语料集来研究这些方法的效用，以检验研究者的研究结果的可推广性。除了2018年的一项研究外，研究者没有发现任何使用词嵌入来分类文本难度的研究，尽管它已经成功地用于其他一些NLP任务，如文本分类，文本摘要和情感分析。因此，他们也计划在未来使用词嵌入进行研究，并与其他使用的方法相比，比较其表现如何。研究者还计划探索与层次分类方法相比，序数逻辑回归的表现如何。

作为这些发现的结果，根据模块和目标人群，将在iSTART中实现单独的文本难度分类算法。这些实验证明了层次分类方法对于预测文本难度的实用性。然而，这些发现也强调了这种方法并不是普遍地比平面分类更准确。因此，这些研究结果强调，提高教育技术的准确性和有效性可能需要根据目标文本和人群的具体方面依靠不同的方法。

参考文献：Renu Balyan, Kathryn S. McCarthy & Danielle S. McNamara Applying Natural Language Processing and Hierarchical Machine Learning Approaches to Text Difficulty Classification International Journal of Artificial Intelligence in Education337–370(2020)

将人工智能应用到评估文本难度...

将人工智能应用到评估文本难度中，提高教育的有效性和准确性

相关资讯