联合国是世界上最大的国际组织,其关于科学数据管理的态度和行动将在全球内产生重大的影响。UNESCO第32届大会通过的《国际人类基因数据宣言》针对世界各国和研究机构对人类基因数据的采集、处理、储存和使用进行了规范[22]。召开重要会议讨论科学数据管理议题2005年,UNESCO与国际图联合作主办的信息社会世界峰会首次突尼斯阶段会议针对科学数据共享问题进行了专门的讨论[24]。......
2023-11-22
1.互联网的发展历程
互联网,又称网际网络或音译因特网(Internet),是网络与网络之间所串连成的庞大网络。这些网络以一组通用的协议相连,形成逻辑上的单一且巨大的全球化网络。在这个网络中,有交换机、路由器等网络设备、各种不同的连接链、种类繁多的服务器和数不尽的计算机、终端。使用互联网可以将信息瞬间发送到千里之外的人手中,它是信息社会的基础。
互联网始于1969年的美国,是美军在ARPA(阿帕网,美国国防部研究计划署)制定的协定下,首先用于军事连接,后将美国西南部的加利福尼亚大学洛杉矶分校、斯坦福大学研究学院、UCSB(加利福尼亚大学圣塔芭芭拉分校)和犹他州大学的四台主要的计算机连接起来。这个协定由剑桥大学的BBN和MA执行,在1969年12月开始联机。
另一个推动互联网发展的广域网是NSF网,它最初是由美国国家科学基金会资助建设的,目的是连接全美的5个超级计算机中心,供100多所美国大学共享它们的资源。NSF网也采用TCP/IP协议,且与互联网相连。
ARPA网和NSF网最初都是为科研服务的,其主要目的是为用户提供共享大型主机的宝贵资源。随着接入主机数量的增加,越来越多的人把互联网作为通信和交流的工具,一些公司还陆续在互联网上开展了商业活动。随着互联网的商业化,其在通信、信息检索、客户服务等方面的巨大潜力被挖掘出来,使互联网有了质的飞跃,并最终走向全球。
中国互联网已经形成规模,互联网应用走向多元化。互联网越来越深刻地改变着人们的学习、工作以及生活方式,甚至影响着整个社会进程。截至2011年12月底,中国网民数量突破5亿人,达到5.13亿人,全年新增网民5580万人。互联网普及率较2010年底提升4个百分点,达到38.3%。根据iResearch统计,2011年网络经济市场规模突破2300亿元,到2013年达到5 400亿元。在互联网产业及中国经济发展向好的预期下,互联网企业再现上市潮。2010年以来,中国互联网公司频频赴海外上市,其中以美国IPO居多,这批上市公司占到了美国IPO公司总数的1/4。
2.互联网让信息快速传播
网络传播融合了大众传播(单向)和人际传播(双向)的信息传播特征,在总体上形成一种散布型网状传播结构。在这种传播结构中,任何一个网络都能够生产、发布信息,所有网络生产、发布的信息都能够以非线性方式流入网络之中。多数企业都会在互联网上发布企业信息和产品信息,以期让其获得更多的销售机会。自2014年年底以来,频繁冲击人眼球的一个名词是“互联网+”。通俗地说,“互联网+”就是“互联网+各个传统行业”,但这并不是简单的两者相加,而是利用信息通信技术以及互联网平台,让互联网与传统行业进行深度融合,创造新的发展生态,以优化生产要素、更新业务体系、重构商业模式等途径来完成经济转型和升级。
从税务监管的角度出发,企业通过互联网发布的信息,也是构成大数据的一部分信息,同样可以为监管企业税收风险所利用。网络爬虫(网页蜘蛛、网络机器人)是一种按照一定的规则自动地抓取万维网信息的一种程序或者脚本,它根据既定的抓取目标,有选择地访问万维网上的网页与相关的链接,获取所需要的信息。税务机关已经运用“互联网+”,依靠网络爬虫技术自主研发了互联网涉税信息监控平台,在互联网信息的汪洋大海中实时、精准地查找上市公司股权交易信息,让税收征管效率呈现几何级倍增,互联网成了挖掘税收信息的金矿。今后,国、地税会加强协作、共享大数据,利用网络爬虫原理调用百度、搜狗等知名搜索引擎的接口,获取诸如实际关联公司、经济案件的法院判决结果等信息数据,判定企业的真实经营数据。据了解,以后国、地税还将积极探索采集外语信息,将境外上市公司纳入监控范围,不断拓展“互联网+”应用领域,进一步提升税收征管水平。
例如,福建一家上市公司董事会头天下午开会刚刚做出转让股权的决定,晚上才发布公告,很多员工还不知道,国税局立刻知道消息就找上门了。国税局为什么这么快就得到了消息?原因就是网络爬虫,这家上市公司转让股权的消息第一时间被国税部门监控到。由此可见,网络爬虫的威力非同一般。
3.互联网服务器上存储了大量的原始信息
我们知道,互联网上发布的信息都是通过中国移动、中国联通或中国电信的光缆传到服务器上,然后对方才能从网上看到。现在几乎所有的办公行为,比如OA自动办公、收发电子邮件、网签合同、纳税申报、招聘信息等,其数据传输交换都是通过网络来进行的。这些办公行为涉及的数据和信息,都会在服务器上留下原始的记录。税务机关可以对服务器上的各类信息,利用计算机进行分类、整理和加工,最后形成大数据监控企业的税收。中国移动、中国联通和中国电信都是国务院国资委控股的中央电信企业集团,税务机关为了打击偷税漏税,从其服务器上调取数据应该不会有太大的障碍。
4.利用服务器上存储的信息可以佐证企业的真实经营数据
企业的账可以做成假的,但企业OA自动办公、收发电子邮件、网签合同甚至员工给老板电话汇报工作中涉及的信息和数据不会有假,否则企业的经营活动将无以为继,任何企业也不会在收发电子邮件时独创密码或者员工向老板汇报工作时说暗语。所以,服务器上存储的信息是最原始的,也是最真实的。把这些信息数据加工出来,最能证明企业的真实经营情况。我们相信,爬虫技术也会从服务器上精准地查找到监控企业税收所需要的信息和数据。
5.云计算可以低成本地为基层税务机关提供所需要的各种信息数据
云计算(Cloud Computing)是分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)、热备份冗余(High Available)等传统计算机和网络技术发展融合的产物。目前,各种云计算的应用服务范围正日渐扩大,影响力也不可估量。被普遍接受的云计算特点有如下几个:
(1)超大规模。“云”具有相当的规模,Google云计算已经拥有100多万台服务器,Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器。“云”能赋予用户前所未有的计算能力。
(2)虚拟化。云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无须了解也不用担心应用运行的具体位置。只需要一台笔记本或者一部手机,就可以通过网络服务来实现我们所需要的一切,甚至包括超级计算这样的任务。
(3)高可靠性。“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机更可靠。
(4)通用性。云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。
(5)扩展性。“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。
(6)按需服务。“云”是一个庞大的资源池,你按需购买;“云”可以像自来水、电、煤气那样计费。
(7)极其廉价。由于“云”的特殊容错措施可以采用极其廉价的节点来构成“云”,“云”的自动化集中式管理使大量企业无须负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,用户只要花费几百美元、几天时间就能完成以前需要数万美元、数月时间才能完成的任务。可以说,云计算可以彻底改变人们未来的生活。
不得不说,当今的计算机技术和网络技术发展太快了,功能太强大了,现在做什么都离不开电脑、离不开网络。只要通过电脑、通过网络,服务器上就会留下记录。历史发展到今天,完全有可能把全国各地企业的工商登记信息、开票数据、纳税申报数据、资金(外汇)收付数据、股票(权)交易数据、会计年报数据、社保缴纳数据、耗电量数据、海关的进出口数据及国家相关监管部门形成的数据完全纳入一个数据处理系统进行实时、相互比对。互联网技术和云计算让数据共享与应用大数据成为可能。
有关玩转财务大数据:金税三期纳税实务的文章
联合国是世界上最大的国际组织,其关于科学数据管理的态度和行动将在全球内产生重大的影响。UNESCO第32届大会通过的《国际人类基因数据宣言》针对世界各国和研究机构对人类基因数据的采集、处理、储存和使用进行了规范[22]。召开重要会议讨论科学数据管理议题2005年,UNESCO与国际图联合作主办的信息社会世界峰会首次突尼斯阶段会议针对科学数据共享问题进行了专门的讨论[24]。......
2023-11-22
关于科学数据共享类型的研究Wolf等根据共享方式的不同,将科学数据共享类型划分为以下6种[39]:①合作再分析。A必须提出关于数据保密性的条件以防止数据泄密。关于科学数据共享政策的研究按照政策制定的主体,可将科学数据共享政策划分为以下类型:①国际组织制定的政策。Green等为满足大规模异质科学数据共享的需要,设计了协作数据共享模型CDSS,2005年CDSS模型在美国宾夕法尼亚大学正式使用,这一具体的实践模型被称为Orchestra CDSS[51]。......
2023-11-22
通用科学数据管理软件平台的元数据采用开源软件平台进行数据仓储与数据管理,是图书馆开展科学数据仓储建设较为普遍的方法。Dspace和Fedora采用DC元数据作为其元数据标准。图书馆在参与科学数据管理实践的过程中,随着工作内容的深入,其元数据实践也从基本的元数据标准与元素推荐,拓展到面向科学数据管理各流程的元数据整体方案的设计与实施。......
2023-11-22
Internet上经常使用的应用有电子邮件、文件传输协议、万维网WWW、远程登录、新闻组等。原来Internet上的一些应用都是简单的菜单系统,多以命令方式进行查询。而万维网是一种特殊的框架结构,它的目的是为了访问当时遍布Internet上数以千计的主机上的链接文档。随着技术的发展和Internet的应用日益广泛,在其他一些领域也使用了Internet技术。......
2023-11-18
近年来发展起来的数据挖掘技术及其产品已经成为数据仓库开采的有效工具。数据挖掘技术涉及数据库技术、人工智能技术、机器学习、统计分析等多种技术,它使决策支持系统跨入了一个新的阶段。传统的DSS系统通常是在某个假设的前提下,通过数据查询和分析来验证或否定这个假设。有关数据挖掘技术的研究已经从理论走向了产品开发,其发展速度是十分惊人的。能够使用数据挖掘工具已经成为能否在市场竞争中获胜的关键所在。......
2023-11-24
从1.1.1节的介绍可以看到,在数据库管理系统出现之前,人们对数据的操作是直接针对数据文件编写应用程序实现的,这种模式会产生很多问题。对于1.1.1小节中列举的学生基本信息管理和学生选课管理两个子系统,如果使用数据库技术来管理,其实现方式如图1-4所示。保证数据的安全是通过数据库管理系统的安全控制机制实现的,保证数据的可靠是通过数据库管理系统的备份和恢复机制实现的。......
2023-11-24
例如,一名学生可以用信息“”描述,这样的一行数据称为一条记录。单看这行数据我们很难知道其确切含义,但对其进行如下解释:张三是9912101班的男学生,1981年出生,计算机系应用软件专业,其内容就是有意义的。因此,数据是信息存在的一种形式,只有通过解释或处理才能成为有用的信息。数据的静态特征包括数据的基本结构、数据间的联系以及对数据取值范围的约束。数据的动态特征是指对数据可以进行符合一定规则的操作。......
2023-11-24
SQL修改数据操作语句的一般格式为:UPDATE<表名>SET<列名>=<表达式>[,<列名>=<表达式>][,……UPDATE选课SET成绩=成绩*1.2WHERE课程号=;解题说明:该例中的元组修改条件是数据库课程,而在选课表中只有课程号而无课程名。因此,要通过在课程表中查找课程名为数据库的课程号,才能确定修改的元组,所以该题的WHERE子句中使用了子查询。......
2023-11-24
相关推荐