发表时间: 2022-03-18 00:00:00
作者: admin
环顾全球, 计算机数据正在疯狂地增长, 这已成为不可阻挡的发展趋势。据麦肯锡全球研究所(McKinsey Global Institute) 估计, 仅2010年, 全球企业就储存了超过7个exabytes的新数据, 而全球消费者在他们的PC机和笔记本电脑上储存了超过6个exabytes的新数据。
1exa bytes=10的18次方字节, 相当于装满1亿多个8G容量的U盘。事实上, 随着信息化的各个方面的突进, 全球各国各行各业每天都在产生海量的计算机数据。当前我们生活在“数据和信息时代”,先进的实验和研究方法、高级精巧的科学仪器、网络应用的迅速普及和无处不在的传感器使数据的产量和存储量都有了令人惊愕的迅猛增长。据说,全世界90%的数据都是在过去两年里产生的。君不见, 每天卫星要多次发回地球表面每个平方公里的扫描图像; 每个月Web网上要出现4500万个新的网址; 电子记录仪录下了美国州际高速公路系统中每辆汽车的速度、各地的气象数据,甚至印度洋深处的水流状态。
这些数据的复杂性和多样性是前所未有的。如何使这样海量的数据为人们提供更大的利用价值,进一步推动产品和服务的创新,已经是摆在各国政府面前的迫切任务。
近年来,大数据也已成为IT界的热门课题。其原因有三:(1)计算机云技术的大规模普及,使成千上万的服务器连接在一起,具备了处理万亿字节数据的能力;(2)出现了能连接数百台计算机的新型软件,使这些计算机能像一台超级计算机那样有效地处理海量的原始数据;(3)处理各类非结构化数据的能力有了长足的改善,从而使计算机能够像人一样直接从复杂的数据中“提炼”出有用的信息。收集、分析和传输海量数据的任务向信息技术提出了新的挑战,从而催生了“大数据"(Big Data) 这个新的技术领域。
1、为什么对大数据技术感兴趣
目前,美国联邦政府、学术界和企业都对大数据技术表现了极大的兴趣,他们为了给美国公民和客户提供新的、更大的价值正在寻找驾驭、分析和利用这些数据的途径。
专家预测,大数据技术将是未来获取新知识和创造新价值的利器,他的广泛运用将对经济和社会发展,甚至政府治理产生深刻的影响。例如,卫生医疗数据能使医疗机构监视医疗体制的现状、民众的健康趋势、评估不同的医疗技术和治疗方案;能帮助政府评估和选择医改方案、医保体制;能源数据能帮助电力系统推行节能方案;交通运输数据可用来疏解交通拥堵;信息系统的数据可用来确定潜在的网络安全隐患。
大数据技术特别能推动大学和国 家实验室的基础研究,如人体基因排序、数字天文学和粒子物理等领域的研究项目都已得益于大数据技术的进展。目前,该项技术已经在产业界得到初步应用,如公司可通过大数据分析管理供应链、以用户偏好为基础开展市场营销、通过分析运行效率降低成本等等。据麦肯锡全球研究所预测,有效的数据管理每年可给医疗卫生行业带来3000亿美元的价值。
事实上, 大数据技术伟大的意义在于其能够影响科学研究本身的发展, 使科学从过去的假设驱动型转化为数据驱动型。例如, 约翰霍普金斯大学(Johns Hopkins University) 物理学教授Alex Szalay指出, 他与同事们正在使用大数据技术来建立验证宇宙大爆炸理论的数学模型。这表明, 应用了大数据技术, 人们开展科学研究不再是先从提出自己的假设出发, 而是可以首先进行数据分析,然而再深入一步提出科学假设。
2、美国创新战略的关键
为了应对大数据技术提出的挑战,科学家和工程师们必须要在信息技术领域做出重大创新:需要开发能以更高的速度处理如此复杂的海量数据的高性能计算技术;要求数学家和统计学家开发能分析这些数据的新算法;要求数据分析专家运用新的技术从数据中“萃取”更大的、甚至意想不到的价值。
2013年4月24日, 美国众议院科学、空间和技术委员会以大数据为专题举行了听证会, 邀请IBM公司的技术高管、北卡州立大学(NorthCarolina State University) 的资深教授和 国 家科学基金会(NSF) 的高官就信息技术和数据分析领域的技术进步如何能促进海量数据的分析和利用、大数据技术如何激励创新以推动新产品和新服务的发展、美国在数据分析技术领域的创新能力、大数据技术研发现状与科技管理方面的挑战和专业人才的培训以及公民对数据的知情权、如何保护与数据相关的个人隐私等多个议题提供专业证言。这些专家还要回答“美国在大数据技术领域的创新方面是否领先?私人企业与联邦政府的合作是否能促进该领域的创新?奥巴马总统提出的大数据研究计划的进展是否顺利?"等等问题。
NSF负责计算机、信息科学与工程的助理主任Farnam Jahanian在国会作证时, 以政府多个大数据技术项目为例说明, 这项技术将引领各领域(特别是在医学研究、天气预报领域) 的创新。由NSF负责投入的项目包括, 推动大数据技术发展的基础研究、建立新的多学科研究团队、教育和培训专业人才以及建设和应用能捕获、管理、分析和共享数据的网络体系。对网络体系的投入中有超级计算机的研发计划, 因为Jahan ian认为, 计算与数据是一枚硬币的两面。我们必须同时解决这两方面的问题。大数据技术具体涉及很多领域, 其中包括数据管理、数据建模的数理方法和支持业务决策的数据可视化技术等。
在美国国会历史上,专门就某一项技术创新举行听证会是极其罕见的现象。这显然表明,大数据技术极其重要,他是实施美国奥巴马总统以创新推动经济复苏的战略决策的关键所在。
美国在行动
美国联邦政府在大数据技术创新领域一直扮演积极引领各界的角色。
早在2010年, 总统科技顾问委员会(PCAST) 就提出了长篇研究报告:“设计一个数字化政府:联邦政府的网络和信息技术研究开发”。报告指出:海量数据的管理和分析向我们提出了挑战,网络和信息技术将在数据向知识和行动的转换过程中发挥至关重要的作用,他将支撑美国的繁荣、健康和安全。过去几十年联邦政府对网络和信息技术研发的投入,不仅催生了数据的爆发性增长,而且也大大提高了美国获取、存储、分析和利用这些数据的能力。美国在机器学习、知识表达、自然语言处理、信息检索和整合、网络分析、计算机视觉和数据可视化等领域已取得了基础性的进展,这些成果使大数据技术的应用和系统具备了改变人类生活的潜力,将为增强美国未来数十年的全球竞争力奠定基础。
一年多以前(2012年3月),奥巴马政府又推出了“大数据研发计划”(Big Data Research and Development Initiative) , 准备由联邦政府投入2亿美元来改进处理海量数据的工具和技术。参与该计划的有NSF、国 家卫生研究院(NIH) 、国防部和国防高级研究项目局(DARPA) 、能源部和国 家地理调查局(USGS) 等六个 国 家 机构。该计划试图通过资助处在知识创新前沿的大数据领域的研究活动、充分发挥美国教学与研究机构各级研究人员的智能和加强公私部门、政府部门之间的合作伙伴关系等举措,达到加快科学和工程学领域发现的速度、强化国 家安全、改革教学方法和降低医疗成本、改善医疗效果等目标。
2013年4月初, NIH在2014财年的预算中计划至少拨款4000万美元来启动一项“大数据向知识转化”计划(BD2K, Big Data to Knowledge) 。该计划的内容包括:
(1)从政策、资源和标准等方面拓展庞大而复杂的生物医学数据集的利用与共享(这些数据来自于各种设备,如基因测序仪、高分辨率医用成像设备、电子医疗记录仪和能监视病人的手机应用程序等);
(2)开发和推广新的分析方法和软件;
(3)加强数据科学家、计算机工程师和生物信息学家的培训;
(4) 设立精英中心(Centers of Excellence) 以期开发能解决生物医学数据分析、计算生物学和医学信息学(Medical Informatics) 等学科中重大问题的通用方法。
前不久, 奥巴马总统在推出了为期十年、耗资数十亿美元的人脑研究计划(BRAIN, Brain Research through Advancing Innovative Neuro technologies Initiative) 时指出, 由于人脑的信息量极其庞大, 该计划必须要借助大数据技术方面的突破才能取得成功。美国总统科技政策办公室(OSTP) 主管技术与创新的副主任Tom Kalil近日指出:掌握了大数据技术就能实现经济增长、教育、医疗健康、清洁能源、增强竞争力、应对重大挑战和激励创新等领域的国 家目标。看来,大数据技术由此已上升为关乎美国政府重大创新计划成功与否的关键技术。