•战略1:利用新兴的大数据基础、技巧和技术来创造下一代能力。计算和数据分析的进步将提供新的抽象概念来处理复杂的数据,并能够简化可扩展性和并行系统的编程,与此同时还可以实现最大的性能。计算机科学、机器学习和统计领域的根本性进步将促进灵活、迅速响应和预测性的数据分析系统的发展。深入研究众包、公民科学和集体分布式任务等社会计算将有助于发展可以使人类进行可能超出计算机能力范围的任务。与数据交互和数据可视化的新技术和方法将强化“人类—数据”的联系(接口)。
•战略2:支持研发,以更好地探索和理解数据和知识的可信度,实现更佳决策,促进突破性发现并采取有信心的行动。在数据驱动型决策中提高透明度需要提供技术和工具支持,包括可以在决策过程中显示详细审计信息的工具。另外,还需要对元数据框架进行研究以保证数据的可信性,包括记录上下文和语义数据。在使用机器学习的数据驱动型决策和发现系统时,跨学科研究是必要的,这样才能研究清楚如何才能最有效地使用数据来支持和提高人类的判断力。
•战略3:建立和加强对网络基础设施的研究,使大数据创新可以为机构使命提供支持。共同的基准、标准和指标对于一个运作良好的网络基础设施生态系统来说是必不可少的。参与式设计也是不可或缺的,它可以被用于优化基础设施的实用性并能将其影响降到最低。教育和培训对于个人能力的构建来说也是至关重要的:用户必须得到正确的教育和培训,这样才能充分利用提供给他们的工具。
•战略4:通过促进数据共享和管理政策来提高数据的价值。大数据的规模和异质性为数据共享带来了巨大挑战,因此需要鼓励共享源数据、接口、元数据和标准,鼓励相关基础设施提高互操作性,提高现有数据的可访问性和价值,并增强结合数据集进行新的分析的能力。研究“人类—数据”的联系(接口)来说是必要的,研究可以支持灵活、高效和可用的数据接口的发展,适应不同的用户群体的特定需求。
•战略5:了解大数据的收集、共享和使用方面的隐私、安全和道德问题。隐私、安全和道德问题是大数据创新生态系统中的关键因素。对于保护隐私和澄清数据所有权来说,新的政策解决方案可能也是必要的。当高度分布式的网络在大数据的应用场景变得越来越普遍时,技术和工具也需要被用于辅助评估数据的安全性和数据保护。国家必须在大数据中提倡道德观念,确保技术不会传播错误或对某些群体造成不利(无论是明示或暗示)。探索道德问题的大数据研究,将使各方利益相关者在关注大数据创新的效用、风险和成本的同时,更好地考虑价值和社会伦理。
•战略6:改善全国的大数据教育和培训局面,以满足对更广泛劳动力深层分析型人才和分析能力日益增长的需求。制定一个全面的教育战略是必要的,这可以满足大数据领域对劳动力不断增长的需求,还能确保美国保持经济竞争力。随着科学研究领域的数据越来越丰富,科学家需得到机会进一步完善自身的数据科学技能。所有部门的员工和管理人员都需要参加各种培训,包括“新兵训练营”、专业研讨会和证书课程,以学习与工作相关的大数据知识。还需要开设更多的基础性大学课程和其他短期培训来帮助将更多民众改造成为具备数据能力的公民。数据科学训练应该通过在线课程、公民科学项目与中小学教育覆盖到所有人。
•战略7:创建和加强国家大数据创新生态系统的联系。应该建立持续的机制来提高联邦机构在大数据领域进行合作的能力。第一种可能的机制是建立跨机构“开发沙盒”或测试平台,它们可以帮助联邦机构合作开发新技术,并实现研发成果的产业化。第二种机制是制定政策,允许数据进行跨部门边界的快速和动态共享,以应对紧急优先事项,如国家灾害。第三种机制是建立大数据“基准中心”,专注于重大挑战的应用,并帮助确定必要的数据集、分析工具和互操作性要求,以此来实现关键的国家优先目标。第四,需要建立一个由各联邦机构从业者组成的强有力团体,以此来促进快速创新,为研究投资带来最大的回报。