代码之家 › 专栏 › 技术社区 › Alex. S.

如何开发一个程序,以尽量减少手写调查的人类抄写错误

survey statistics user-interface algorithm

Alex. S. · 技术社区 · 15 年前

我需要开发定制软件做调查。问题可以是多项选择题,也可以是自由文本。

软件必须包括一些自动控制,以检测可能的打字差异。多项选择题的每个答案都有相同的被选中概率。

这个问题有两个部分:

图形用户界面。

我想到的最简单的一件事就是实现最实用的问题显示设计:使用大而可读的字体和宽敞的空间进行选择。还有别的事吗?为了更快的输入,我想使用下拉列表(键盘优先于鼠标)。由于问题分为几个部分,我想展示为该部分问题选择的答案,但这可能会减慢过程。还有其他想法吗?

我还能做些什么来减少或检查多项选择题中的人类输入错误?这是一个可以解决的问题吗?是否有一些统计方法来检查用户输入的值是否与手写表格中的值相同?例如,假设调查有5个问题,每个问题有4个选项。假设我有n份由面试官填写的调查表,它们已经准备好输入到软件中,那么如何将n份调查表的手工抄写所带来的意外差异最小化,而不必对n份调查表的5个问题全部进行复核?

我的第一个建议是,在处理完所有手工填写的表格后,软件可以随机选择一些表格,在少数情况下对答复进行复查,但我可以根据什么标准进行选择?这个验证是否足以涵盖所有重要方面?

实际调查是国家级的,共有56页,200多个问题,所以很多人会手写很多页,目的是减少错误的可能性,优化数据输入过程的速度。考虑到与面试官一起使用笔记本电脑或手持设备的复杂性,调查必须首先填写纸张。

12 回复 | 直到 15 年前

Matt Parker 15 年前

叫我老派,但我仍然认为最实用的方法是使用复式输入法。两个数据输入职员输入他们的调查,然后交换堆栈并输入另一个职员的调查。每当你的系统检测到两者之间的差异时,它就会抛出一个信号旗——然后两个职员齐心协力决定正确的答案(或者可能会得到更高级的研究人员的审查,等等)。结合这里的一些其他建议(我非常喜欢mdma对GUI的建议),这将使系统的错误率降低。

是的,这将使您的数据输入时间加倍(也许)-但它非常简单,并且将减少您的错误。OMR的想法是一个伟大的想法,但我觉得这个项目(一个全国性的,52页的调查)并不是一个孤独的黑客第一次尝试实现它的最佳案例。你需要什么软件?有什么硬件可以做到这一点?在识别那些愚蠢的东西时,仍然需要大量的人力工作,面试官会在四个可能的答案上都打上记号,然后在旁边写一张便条——你可能会想随机抽样调查,以了解机器读取错误率是多少。即使这样,您仍然只是对错误率的估计,而不是更正的数据。

这次尝试一种更简单的方法来给你的雇主提供高质量的结果——然后将这些结果作为一个预先验证的数据集,用于测试OMR的东西时间。

mdma 15 年前

OCR/OMR可能是最好的选择,因为您排除了不可预测的人为错误,并将其替换为相当可预测的机器错误。甚至可以过滤掉OCR可能难以处理的表格,并对其进行修改以提高扫描精度。

但是,直面最初的问题:

错误检查

把问题联系起来,这样基本上同一件事被问了不止一次,或者又被问了一次。如果相关问题的答案不相关,那么这可能是输入错误的迹象。

图形用户界面

为数据录入员提供视觉帮助,例如使用滑块在纸上维护当前问题的位置。
用于输入数据的自定义输入设备可能比键盘导航和列表框更易于使用。例如,一个带有所有选项的触摸屏显示一个B C D。职员只需点击一个选项,它被选中并显示下一个问题-在短暂的停顿之后。如果职员出错,他们可以使用每个问题旁边的上一个/下一个按钮。

编辑: 如果您考虑执行数据的双重输入或实现一个改进的GUI,那么进行一个试点计划来评估各种方法的有效性可能是值得的。双重输入可能很昂贵(使数据输入任务的成本翻了一番)-这可能是正确的,也可能不是正确的。试点计划将使您能够快速、相对便宜地评估双重进入的有效性。它还可以让您了解单个数据录入员在没有任何UI更改的情况下的错误级别,这有助于确定是否需要UI更改或其他减少错误的策略,以及实现这些策略需要多少成本。

相关链接

A device that inputs data from multiple choice tests
OMR - Optical Mark Recognition
ReadSoft -自动数据输入
Data capture hardware

Dean Harding 15 年前

我不认为这会真正产生一个有意义的结果。大概这些错误是无意的和随机的。随机检查会发现系统性错误,但是如果你仔细检查10%的表单,你只会发现10%的随机错误(如果你检查20%的表单,你会发现20%的错误,等等)。

纸质调查是什么样的?如果可能的话,我猜OCR系统扫描手写测试,并将OCR检测到的答案与数据输入操作员给出的答案进行比较,将是一个更好的解决方案。您可能仍然会手动重复检查相当数量的调查,但您会有一些信心,您重复检查的调查更可能包含错误,而不是您只是随机挑选它们。

Mawg says reinstate Monica 15 年前

请原谅我完全回避了这个问题,但是昨天我去了eBay,花了99美元买了一台7英寸的Android o/s平板电脑。不是世界上的贴片机处理器,也不是内存堆,但肯定足以填写该领域的用户调查。

我真不敢相信贵公司竟然付不起每个面试官99美元来解决这个问题。

至少,这值得向你的老板建议,不是吗?

DanK 15 年前

复式输入法的好处在于,通过做出一些假设(主要是输入项目和职员的错误率是一致的)并使用遇到输入冲突的速率,可以大致估计出您的总体错误率。

更复杂的复式输入系统还可以测量部分数据输入任务和单个职员的错误率,以便您可以进行改进以降低错误率。

Harald Scheirich 15 年前

听起来需要一种组合的方法,实际的表单应该适合自动化处理。你可以扫描文档,只需处理电子版本,如果多项选择输入可以自动处理,你可能会得到更好的错误率,让用户远离循环。根据OCR包,我猜您将得到一个值,它告诉您系统对它所做的选择有多确定,取决于该值,您将希望让一个人验证表单。注意,我说的是在多项选择的标记上使用ocr,而不是自由形式的条目,这本身可能是一个问题。

同时,您可能需要进行随机检查,以找到ocr系统的错误率。该值可用于确定多项选择题总和的置信值。

我认为类似的方法会有帮助,如果你只是用人工输入,你可能不会摆脱所有的错误,因为人们会犯错误,他们会犯错误纠正错误,但有足够大的样本量,你可能能够确定在人工输入错误的比率。这个数字可以用来确定调查的结果。

至于其他UI想法,您可以使用扫描的表单,并以UI复选框与书面复选框相近的方式覆盖UI。如果你有几个已知的角度线,矫直和缩放的形式不应该太难。如果UI输入元素接近铅笔标记,那么很有可能获得更高的正确分类率。

您也可以使用统计分析来选择看起来不符合要求的表单,但是您可能会因为非均匀选择而导致结果倾斜,这可能比均匀随机错误更糟糕。根据纸面调查的设计,在UI中复制这一点可能会有所帮助,如果两者看起来相似,每个人都会更容易发现错误,如果你不坚持这一点,可能会有一些关于调查设计的参考资料(例如 this

这似乎是一个相当大的操作,我相信有一些统计人员的工作人员,谈谈他们需要什么,你可以做什么来帮助他们,不应该做的扭曲结果甚至更多。

Digikata 15 年前

在实现了解决这个问题的各种软件方法的最佳组合之后,还可以考虑通过 Amazon's mechanical turk reCaptcha (虽然据我所知,它只适用于印刷文本OCR),我只是偶然发现了 Beextra

Joel Hoff 15 年前

关于多项选择题答案转录错误的检测,我的建议是使用多重数据输入和统计分析。

dzida 15 年前

人为的重复检查可能是达到低错误数的最流行的方法。如果你想加快速度,一个人只能计算出给定答案的总数,然后把这个数字写在调查的底部(有点像“控制和”)。向您的应用程序输入数据的人员还应在一个特殊字段中填写该数字,然后系统可以计算给定答案的数量并与期望值进行比较。这可以解决数量正确而数据不正确的问题。

您还可以使用dataminig中的一些方法来检测插入数据中的错误。示例:如果您根据要求提供年龄和薪资范围,则可以创建规则:if age<X很有可能此人的收入不超过Y,因此发出警告并要求修改。这叫做 association rules

桂:纸的形式应该是1:1。一些键盘快捷键可能有助于加快工作速度。

Will Hartung 15 年前

如前所述,键入两次。是的,这是“加倍工作”,但这引出了第二点。

使调查易于检索。

它们应该是简单易读的键盘。关于他们注意力的部分很好的突出,所以它从形式的噪音中脱颖而出。

键盘应该“头朝下”,根本不必看屏幕。如果可行的话,你可以使用音频提示告诉键盘手他们在哪里交换了页面,以帮助确保他们键入的内容和计算机键入的内容基本相同。如果无法进行音频提示,则只需在调查页面中输入他们所在的条目。计算机已经“知道”它在第“2”页,所以当键盘输入页码时,它可以验证它们是否在同一个位置。

对于键控错误,请使用声音提示。不要让他们输入垃圾,点击“保存”然后纠正错误。如果你知道数据是错误的,立即停止他们,让他们立即修复。没有什么比5或6个“叮叮叮叮”更能引起他们的注意,因为他们在意识到电脑阻止他们之前已经输入了3个字段。审核一份长长的问卷调查是否有错误是浪费时间。

不要“滚动”数据屏幕。前后翻页。滚动很糟糕。滚动时,屏幕上的字段会移动。当你不知道的时候,他们总是在同一个地方,所以当进入者确实需要看屏幕时,他们总是可以看同一个地方。

与数据输入保持一致。尽可能多地使用10键。如果你有10个以上的选项,而0-9对于整个问卷来说并不实用,那么你应该使用00-99。不要用A-Z来表示选项,因为人们不会这样想键。他们在键盘上记住字母的程度不如在键盘上记住单词的模式。01-26比A-Z快得多。

最后,组织调查,以便所有的“打字”,“填空”的东西是在一个部分(理想地在年底)。这让他们在火焰中10键,进入一个区域,而不必来回移动他们的手。许多人在输入“英语”时会输入“最关键”的数字(即使用最上面的一行),而在不输入时会输入10个关键数字。

drawnonward 15 年前

对于选择题,一边是数据输入表,另一边是原始扫描。如果计算机猜测高于某个阈值,请在数据输入区域中填写该选项。如果计算机猜测低于某个阈值(多个答案或未找到答案),则不要标记初始答案并突出显示该问题需要注意。即使没有猜测,让扫描过的纸张在数据输入旁边的屏幕上可见似乎也很有帮助。

对于手写的答案,除了在数据输入区旁边有扫描输入外,我没有什么真正的建议。即使图像不像原始文档那么清晰,也有助于确保为每个问题输入正确的文本。一个相当常见的输入错误是“关1”,即输入错误问题的正确答案。把图像放在屏幕上可以减少一点,让其他人更容易验证。

这假设所有表单的布局都是相同的,因此您可以编写一些代码来显示某个页面的某个部分,并期望它是表单的正确部分。

Pavel Radzivilovsky 15 年前

你必须时不时地注入双盲“推荐表”,由你的正式人员输入,以自动评估他们的表现,并根据成功率提供反馈。