论数码物的起源：数据的物化与物的数据化

2023-08-15 理论教育版权反馈

【摘要】：数码物一词在此仍含糊不明，因为数码物的庞大数量在广度和多样性上皆可与庞大的动物物种相媲美。我将主要研究数据与元数据，而非全部数码物。我们倾向于将一切看作物，从而将所有计算要素概括为数码物。数码物是工业物的新形式。在本章中，我通过将数码物置于计算历史中，并引入吉尔伯特·西蒙东的分析来描述数码物的起源。我称第一个过程为数据的物化，第二个过程为物的数据化。

我们正生活在数码环境中；我们用Facebook、博客、Flickr、YouTube以及Vimeo。名词与品牌变为动词[86]，甚至生活方式。科技发明的速度，最新最好的电子设备无处不在，革命性技术或媒体的承诺，基于人类关系数码化的金融投资等等——这造就了一个绝非当下，而是虚无未来投影的景观。这一存在方式与其说是马丁·海德格尔所说的“时间性的越出”，其中人们仍旧立足于本真的时间；不如说是超—越出（hyper-ecstasy），在歌颂速度的同时也被无法存在于此、无法置身于技术布道者伟大言辞中的焦虑所困扰。我称这一感受为技术超越，它是一种没有明确方向的，却以加速与冒险为特点的发生方式。“新鲜”的持续发生构成了对节奏的漠视，这反过来使存在与期待的自然看法合理化。“新鲜”一词代表旧事物的淘汰以及世界在自我投影中受庞大动力驱使的分化。

理解技术已不再是对技术的文化批判。将技术排斥于文化之外的传统的确应受到质疑。要解决这一矛盾，我们必须利用新的工具（organon）或一系列新的哲学命题。提出的任何理论都首先需要识别它所涉及的现实。为理解“现实”，我们必须将其与通常认为的虚拟所比较。虚拟的概念描述某些基于数字媒体的社群与互动——诸如网络论坛与网络性爱——在前几年颇为流行。如今它已逐渐退居后台，正如今天我们不再认为用Facebook或者玩第二人生的人生活在虚拟世界（考虑到人们与他们的真实朋友互动并做出诸如提供信用卡号与个人信息来网上申请瑞典签证的行为）。[87]蓝牙、无线局域网与全球定位系统等技术的引进与融合使得背景与地理侦查更为准确，把我们带入真实。我们如何理解这一数码环境？这是另一个世界，一个陌生的世界，既是人为的，也是自然的。它与我们过去所说的“真实世界”同样复杂，而且更重要的是，我们已身处于这个世界。

本书聚焦于数码物，以了解如今变化进程的走向并发展一套相应的研究方法。数码物一词在此仍含糊不明，因为数码物的庞大数量在广度和多样性上皆可与庞大的动物物种相媲美。我将主要研究数据与元数据，而非全部数码物。前两者体现了我们与之互动——同时也是机器以其运转——的物体。此处我们要提出的首要问题是，硬件是否算在内？算法呢？尽管我很想将一切与计算相关的物纳为数码物，但我必须限制研究范围，以分配同样的精力在数码物的“数码”方面。我们倾向于将一切看作物，从而将所有计算要素概括为数码物。然而，这一方法似乎相当成问题，因为个体物会因此丧失其单一性。当物体导向哲学家给所有除人类以外的存在物冠以“物体”之名时，亦会出现同样的问题。因此我们必须悬置任何对“物体”的普遍理解与认识。诚然，我们可以将所有运作还原为1与0的二进制，甚至可以进一步还原为电子与原子的活动；可是它们只能在特定的现实级上告诉我们数码是什么，这与使用者的直接经验关系甚少。本书语境中的数码特指数据处理的自动化。数据在双重意义上直接参与到人类经验中。当看到数据一词，我们通常不会意识到其拉丁词源是datum的复数形式，意为“所给出的（物）”。数据的法语单词donnée（“给出”，源于donner，“给予”）完全保留了这一拉丁语意义。若数据是给出的“物”，那是什么给出了数据？除了推断这一所予来自上帝，我们还应意识到从1946年开始，数据有了一个附加意义：“可传播与存储的计算机信息。”[88]数据的第二层含义意味着需要重新思考物的哲学，因为它不再完全指代感官与理性资料。反之，人们应该认识到这是一种物质形式的转化，并且考虑这种物质性如何构成一种新的“所予”形式。近来被称为数字化的数据处理发展的重要性，展示了数据交换能力超越个人计算机的扩展，我们可以通过建立连接来形成数据网络，从而处理大量的数据。数据网络从平台到平台，从数据库到数据库，构成一个技术系统。

我们面临的下一个问题是，数码物应该如何概念化？根据科学家与/或数学家的共同观点，我们可以建立一个物体的超集，其中在自然物旁边可以找到一个叫做技术物的物子集，正如吉尔伯特·西蒙东所言。同样可以设想的是，在这个子集中，我们可以找到名为数码物的另一个物子集。根据不同的分类方案，可能会出现比先前已经计入的更多的子集。然而，我不想依靠这种分类方法，而是要分割技术物与数码物。数码物是工业物的新形式。若“新”需要新的理解，那么对这一问题的解决可以始于询问这个“新”来自何处。无论是作为延续，还是作为破裂或断裂，新的只能相对于旧的而呈现。正如西蒙东或许会说的，发明总是试图消除障碍，恢复发展的总体连续性。[89]本书的分析将主要关注一系列由“新”的影响所造成的不相容性，这些不相容性要求我们在历史的视角下将注意力转向物的起源。在本章中，我通过将数码物置于计算历史中，并引入吉尔伯特·西蒙东的分析来描述数码物的起源。我将比较新环境中数据与物之间的关系，并分析对其起源的这一描述如何可以帮助我们理解计算技术。

使事物变为数据的方法并不新奇。现代计算机出现之后，它们遵循数字化的逻辑，即几乎所有东西都可以用数字格式来表示。数字化的形式主要有两种：第一种是映射或模仿的系统（例如数字图像，数字视频等的产生，它们在整个物理世界中可见地重复分布），而第二种通过将标签附加到对象上并将它们编码到数码环境中产生（借助于这一数字延伸，该对象获得具有唯一的代码和/或一组参考的识别）。数据物化的第二个运动随后发生。我称第一个过程为数据的物化，第二个过程为物的数据化。这并非是说这些东西在被元数据方案物化之前不是物，而是说它们在人的参与下被形式化为物，然后被计算机识别为对象；或者根据海德格尔的思想，它们是物（Ding），然后才成为对象（Gegenstand）。表示物的这种方式被广泛地认为是知识表示。数十年来，知识表示一直是人工智能中的一个关键主题，而且在一些现名为“语义网络”的大规模项目[90]失败之后，知识表示的重要性逐渐增加。这一物化过程有两个非常重要的含义：（1）它脱离了基于超链接的万维网而成为基于物的万维网；（2）它代表了机器更重要的角色，不仅仅是输入输出设备，也可以部分地作为“思维机器”。我想从两个技术问题的角度来看待这个发展，它们同时也是哲学问题：物化的问题与关于思维机器的意向性和经验问题。事实上，本书是通过数码物阅读哲学史，同时通过哲学阅读数码物历史的尝试产物。最后，我们会看到，计算是不亚于哲学的哲学，哲学的技术性也不亚于技术。要将这条研究道路继续下去，我们需要展开数码物出现的技术细节，然后再进行更为哲学化的分析。

我对万维网运动的理解将其视为数据物化过程的开端，这无论对人类和机器都是如此。正是在这一意义上，万维网的创始人蒂姆·伯纳斯李可以设想在人与机器之间共享，并受到万维网支持的“全球脑”的出现。[91]1989年，当他在欧洲核子研究组织（瑞士的高能物理实验室）提出万维网时，他的模型在很大程度上受到有技术远见的泰德·尼尔森（Ted Nelson）的影响，尽管与其有一些根本性的差异。对于尼尔森而言，数码物的概念是不可能的，这是因为他从文学的角度看待网络。尼尔森的超文本思想意图实现非连续的写作，[92]通过这种写作，文学的相互联系可以以不同的时间性展开。每一个超文本都意味着从一个时空设置跳转到另一个，而通过这些轨迹，网络可以被理解为一种非连续的书写形式。

尼尔森的观点受制于对文本与写作局限性概念的依赖，而伯纳斯李在20世纪90年代对万维网的关注主要涉及超文本和超链接。伯纳斯李模型与尼尔森模型之间的惊人差异反映了他们的根本动机。尼尔森关于网络的构想与支付系统有关，向文学作者的支付因而可以通过链接进行管理。这个动机巧合地促成了与伯纳斯李的模型完全不同的链接结构。尼尔森在他的上都计划（Xanadu project）中提出了一个双向链接系统，而我们知道早期的万维网是一个基于单向链接<a href>的系统，它指定了链接被点击时加载的统一资源定位符（URL）。这些双向链接如今已经被实现——不是作为万维网的架构，而是作为其覆盖，如博客评论，trackbacks等等。伯纳斯李的观点来自欧洲核子研究组织内部文件的共享，因而不同版本的文件可以被链接起来并以一种可以减少“最终报告”中信息丢失的方式进行存档。尼尔森在批评万维网是一种单向链接的文件系统时，这从某种程度上是合理的：“如今的单向超文本——万维网——太过浅陋。上都计划预见了世界范围的超文本，并一直致力于创建更深层次的系统。然而，万维网却以一种非常浅陋的结构将其接管。”[93]但这并非一个完全公允的评论，因为我们也必须明白，对伯纳斯李而言，万维网的演变已经远远超过了文件共享的阶段。

对于2000年以来的伯纳斯李而言，万维网的远景已经超越了文档共享，成为思想和机器的协同想象。这或多或少是基于心灵通过表征来感知对象的假设。结构化的元数据为计算机程序提供了物的概念。元数据的正式定义是“关于数据的数据”。一个直观的例子是图书馆的检索：当一个人在图书馆目录中寻找一本书时，此人必须提交不同的信息，例如作者的名字、书名或者ISBN号码。内容本身（数据）之外的这个信息被称为元数据。这些数据表现的格式被称为元数据方案。我们可以将它与康德的图式进行比较，后者是从感官资料中产生现象的纯粹概念或范畴的融合。在超文本的时代，在线对象只对人类而非机器有意义。而在元数据时代，在线对象被认为对机器和人类都有意义。[94]机器通过给予元数据的结构来理解对象的语义含义。这一物化运动被称为语义网络，由蒂姆·伯纳斯李于2001年提出。伯纳斯李认为，“将来当元数据语言与引擎更加发达的时候，它也应该为机器可以理解的任何信息——关于人、事、概念与观念的信息——网络创造坚实基础”。[95]

从物到数据，再从数据到物的双向运动是一个正在进行的项目，它将在未来几十年继续发展。它给我们展示了物的新形式，构成了一个需要进一步反思的新环境。不仅在万维网行业内，而且在整个信息科学领域皆是如此。若我们反思图书馆学目录体系发展的早期阶段，可以看到它遵循了同样的技术倾向。万维网（或者简单地说就是互联网）促成了一个包含各个部分的，受技术、经济和政治问题影响的环境。譬如，在图书馆学方面，如机读编目格式（MARC）和英美编目条例（AACR）这样的早期编目模式做出了很大努力来解决注释问题。但是，自从数字化和互联化以来，这些模式已经过时并正在被诸如都柏林核心（DC）之类的本体所取代。[96]其原因有两个：首先，机读编目格式和英美编目条例是不能在其之外使用的特定协议，这意味着它们不能有效地与其他机器一起整合到数码环境中。第二个原因是它们不能被人类阅读，因此无法参与到“全球脑”的普遍交流中去。换而言之，它们不把书看作是一个物，而仅仅是一种象征性的数据。图表7是机读编目格式的一个例子，提供给定书籍的信息数据。

图表7　一本书在机读编目格式下的信息

“机读编目格式必死”[97]是自21世纪初以来图书馆技术人员普遍表达的一种熟悉口号（由数字图书管理员创建的一个网站则专门致力于这一事业）。这也造成了数码物创造的危机。因为从事数码物工作的图书管理员和技术人员必须管理大量的符号，而这些符号几乎没有任何具体或可以理解的信息，所以他们被迫成为机器的助手。这导致了数码环境中最显著的异化现象之一。语义网作为产生对人类和机器都有意义的新型物的手段，得到了各界的广泛赞赏和兴趣。因此，数码物的起源并不是蒂姆·伯纳斯李及其团队在万维网联盟的唯一努力，而是由于其悠久的历史，通过计算的进步与发展而取得的一个里程碑。

在下面的章节中，我们通过关注吉尔伯特·西蒙东的思想和论点来考察数码物的历史生成。在此引入西蒙东思想的重要性在于，他不仅可能是第一个提出对技术物的哲学理解的思想家，而且还构想了技术文化的发展，以此来解决马克思的异化批判。西蒙东在《论技术物的存在方式》的开篇就写道：“当代世界异化更重要的原因在于对机器的这种误解（méconnaissance），这不是机器造成的异化，而是对其本质与实质的理解缺失（non-connaissance），是由于它在意义世界以及在文化的价值和观念中的缺失。”[98]西蒙东介绍了一种名为机器学的潜在方法，它将机器放在通识教育的最前沿，提出引入技术知识作为教育课程的一部分，令其具有与文学相同的地位。[99]在整个形而上学历史中（对海德格尔而言它就等同于哲学史），从早期的柏拉图到后来的埃德蒙德·胡塞尔的理论，技术物只不过是花园里的一棵树，或者桌子上的一只苹果。哲学家感兴趣的要么是关于物的本质的观念，这彰显于柏拉图的理念、亚里士多德的形式和质料、笛卡尔的广延、莱布尼茨的单子、康德的图式化、黑格尔的意识辩证法，要么是胡塞尔能思（noetic）与所思（noematic）的对比关系，或者自然（或有机）与机械的对立，从而使机械从属于自然。除了狄德罗（Diderot）与达朗贝尔（D’Alembert）短暂的百科全书时代试图向公众普及技术知识，技术知识没能取得哲学传统中正式的地位。然而，20世纪早期控制论的出现，通过质疑自然界与人造界之间的界限，造成了哲学传统的破裂。机器的动态不能完全由形式（eidos）捕捉。这恰巧在20世纪中期促成了哲学思想的一个新方向，在此出现了我们特别感兴趣的两种截然不同的方法。一方面，海德格尔感叹控制论标志着形而上学的全面完结，同时也是哲学的终结。这使他试图撤退到一种新的思维方式。另一方面，吉尔伯特·西蒙东希望通过系统地理解人类在工具演进下的转变，去追寻技术去异化，从而把技术理解为一个技术个体完善的过程，而非一种结束。

我们应该首先探讨西蒙东所使用的两个著名概念，这些概念经常让读者感到困惑：个体化与个化。对西蒙东而言，个体化与个化截然不同。个化涉及功能，如身体专业化与心理图式化。当该词应用于生物时，它表示心理与身体之间的发展与分化。而个体化涉及张力的起源与解决，以通过关系的重构来达到亚稳平衡。[100]个化并非与个体化完全相对；他们更应被视为两个单独的存在数量级。在《在形式与信息的概念下重思个体化》（2005）当中，西蒙东讨论自然存在（如结晶）、生物以及心理存在的个化；在《论技术物的存在方式》中，西蒙东主要讨论“技术个化”而非“技术个体化”。我们是否也可以谈论“数码物的个体化”？西蒙东对此的犹疑赋予我们相当大的探究空间，使我们能够进一步发展他的论点。为了揭示这些可能性，我们有必要观察和分析西蒙东如何对技术物进行分析。

技术物总是确定的产物，甚至是过度确定的产物。术语“超定”（overdetermination）是指强加约束和条件的过程，以便使技术物的功能成熟。技术物的成熟度可以通过西蒙东所说的技术性来衡量，这就是物体内的具体化程度。西蒙东将技术物的演变视为从抽象物到具象物的演变。具体化意味着物体与自身的衔接和适应。譬如，当一个技术物将更多的功能整合到自身中，并且随后以一致的方式在这些功能上妥协时，它就比以前更加具体；正如西蒙东所写：“技术物的统一性，其个体性与特殊性，是其一致性的特征与融合性的起源。”[101]因此，我们可以说工业技术物比工匠的产品更具体。西蒙东认为，属于工匠的定制产品在技术上并不重要，而是由其他必要因素（如外部需求）产生的，而在工业中，技术物则获得了自己的一致性。西蒙东的技术物也因此是工业物。

根据西蒙东的分类，技术物有两种形式，即“成分”（或“基础个体”）与“技术个体”。[102]与简单构建模块的成分相比，技术个体具有一套完整的功能以及一个面对特定的外部干扰能够维持内部稳定性的机制。西蒙东将技术个体定义为“以缔合环境作为其功能的必要条件之物”。缔合环境是适应的手段，确保个体“不受外部技术与自然环境的影响”。[103]这一标准意味着这个物体已经有能力在已设为超定的约束条件下凭自身而成立。[104]西蒙东的技术个化取决于其缔合环境的发现与发明：

因此，组合中技术物个化的原则是在缔合环境中循环性因果关系子组合的原则。所有具有循环性因果关系的技术物都应与其他分离开来，并且以保持缔合环境独立性的方式相关联。[105]

在此处我们应该注意到，有必要保持缔合环境分离，否则统一的缔合环境就会成为致命弱点。西蒙东的技术个体在这个例子中特指硬件系统，而不是数码物，后者主要由代码构成。乍看之下，我们不能借用西蒙东的词汇来理解数码物，因为数码物内部没有这样的相互因果机制，使其能自我稳定。[106]但是，我们可以看到数据库，算法和网络协议成为数码物的缔合环境。而由于一个数码物也是一组逻辑陈述，因而其相互的因果关系是高度可控的。缔合环境不能被认为只是个体内部的一种机制，而应该被视为外部与内部环境之间的东西。当西蒙东将非工业文明作为人类没有工业技术个体（因为他们只使用简单的工具）的时代来讨论时，他说人的“学徒制带领他进入技术的自我个化。他成为他所使用的各式工具的缔合环境”。[107]人类通过自己的行为与习惯为工具创造了缔合环境，稳定并调节整个组合：工具使用者本身成为技术个体。

从这个意义上说，我们能够识别数码物的缔合环境，每个环境都被其所在的特定网络进一步稳定，还包括其用户，数据结构，网络协议等等。为了被系统所稳定，它还必须包括调节它的各种机制。这些机制的演进和具体化使得数码物能够开发和整合自身的缔合环境，这就是西蒙东所说的技术个化，即对应上文所说的“数据物化”或图式化。此个化过程由三部分组成。首先是通过元数据方案综合数据，这可与康德的客体理解概念相提并论。其次是物体内置的约束，使数码物有能力在数码环境中调节身份。例如，在考虑一个亲属本体时，只能有一个母亲和一个父亲。最后，物体现在已经成为一个逻辑存在，因此它表现了一个作为数字环境组成部分的逻辑基础设施。我将在本章后面的部分中进一步论证这个过程的三个阶段。为了进一步推进，数码物也在不断地重新建立与协商同其他物体、系统和用户在缔合环境中的关系。数码物也承担着维持情绪、氛围、集体、记忆等功能。这使我们对数码物有一个动态和积极的理解。我想把这个过程区分为个体化。

作为工业化文明的一部分，人类已经开始失去他们作为技术个体的角色，因为他们成为了纯粹的操作者，要么按下按钮，要么挪动原材料，要么清洁机器。这并不一定意味着人类在缔合环境中的地位将变得不再那么重要，或者人类将不可避免地从整个环境中被驱逐出去。他们很可能会慢慢被去技术化，表现他们与机器密切关系的技术知识将被贬低到最肤浅的程度。对于西蒙东而言，这是马克思所提出的异化问题。西蒙东将技术物与人之间的关系比作音乐家与指挥家之间的关系，因为每一方都产生了影响，并且二者相互影响。[108]然而，伴随着技术异化，这种相互关系也被破坏了。对于西蒙东而言，恢复这种相互关系会成为发展技术文化的手段。目前的技术变化是否为我们提供了这样做的可能性？在社交网站上，如果没有人类的创造与修改，数码物就无法独立运作。没有这个干预性的创造与修改，机器将会无物可处理。然而，对人类新的要求并不意味着他们重获重要性。正如我们随后看到的那样，自然界中人类在技术系统中的存在和经验发生了变化。一方面，我们目睹人类成为数码物本身。但另一方面，我们也可能会意识到，人类正在与机器相结合，这开创了一系列以社交计算与群众外包为名的运作。现在我们得出两个基本的理解：第一，技术个体通过采用与创造缔合环境实现独立，从而个体化（第一部分）；第二，个体通过集体——一个组合或其世界中的关系与联系网（第二与第三部分）——实现个体化。为了进一步探讨，我们需要解决数码物的具体化问题。

技术性的发展是一个由各种中断与不连贯所激发的过程。新技术能够切断脉络，为其赋予新的方向。这些方向可能会相互冲突，并进入不同的发展途径；然而，这些多样性将会被一个主导的技术趋势所同化。法国古生物和古人类学家安德烈·勒罗伊古汉将技术趋势与技术事实区分开来。前者具有普遍性和抽象性，后者特别而具体，与其地域、种族、气候等环境密切相关。我们可以根据不同种族内的适应方式，进一步区分不同的事实。技术趋势是不可避免并可预见的。技术事实是不可预见的，需要一定的本土发明，而不是直接从其他群体借用。[109]勒罗伊古汉举了一个锻造的例子。我们没有锻造的技术趋势，只有依赖于诸如火、金属、燃烧、熔化、商业、模式或宗教等各种条件的技术事实。技术趋势是贯穿各种环境与文化差异的力量，譬如轮子作为携带重物和燧石柄的手段而被普遍发明。[110]

形式和质料的分离在技术发明中是显而易见的，这是一个技术趋势。数码物也有这样的趋势。语义网是许多用户在计算中使用的特定技术。它随后偏离了IBM的通用标记语言和人工智能中的知识再现（同时引入了他们的一些核心问题）。西蒙东称这个过程为“松弛时间”，相当于“真正的技术时间。它可以比历史时间的所有其他方面更占有统治地位，它可以同步所有其他的发展节奏，似乎决定整个技术的演变，而实际上它只是同步和诱导演进阶段”。[111]同步意味着融合，这也需要一种新的技术形式。这一技术时间也是物体技术完善的时间，被认为是“实际的质量，或者至少是某种实用品质的物质与结构支持”。[112]

通用标记语言是在20世纪60年代后期由IBM发明的，当时万维网还没有形成。它充当一个项目的解决方案，该项目要求将文本编辑应用程序与信息检索系统以及页面组合程序相融合。这些应用程序不能在同一台机器上运行，直到查尔斯·戈尔德芬布（Charles Goldfarb）和他的同事在1969年发明了通用标记语言，这是一种标准化文档结构的标记语言：

对标记过程的这种分析表明，应该有可能设计一种通用的标记语言，以使标记对多个应用程序或计算机系统有用。这种语言会限制文档中的标记以识别文档的结构和其他属性。这可以通过诸如助记符“标签”来完成……但是，实际的处理命令将不会被包含在文本中，因为这些命令可能因应用程序与处理系统而异。[113]

通用标记语言包含依据标签定义数据的应用文档与随后定义这些标签的文档类型定义（DTD）。此处我们可以得出两个结论：（1）标记语言通过标签的区分赋予数据“语义”的含义，使得应用程序能够将数据作为对象进行处理并解析有用的信息，这引发数据组织的第一步。（2）标记语言为解决应用程序与机器不兼容的问题提供了方案；换而言之，它可以通过提供一个通用的协议来连接所有的机器。普遍性的概念在网络发展的历史中是至关重要的，正如伯纳斯李所设想的那样，它是一个普遍的空间。[114]通用标记语言通过获取表单知识，将内容从形式（元数据方案）中分离出来，由此机器不需要理解整个内容的语义含义。这个普遍的空间也是由所涉及形式的普遍化决定的。这些可以是元数据方案、协议或任何其他标准形式。自柏拉图与亚里士多德以来，这种形式与内容—质料的形式质料说一直是传统形而上学的一个关键概念。质料将自身归于形式以实现自身。形式也是通向普遍性的一种方式，因为它提供了理念与特殊性。

在1986年，国际标准化组织（ISO）采用了通用标记语言的高级版本——后来被称为SGML或标准通用标记语言——它为1991年制定超文本标记语言（HTML）铺平道路。[115]超文本标记语言是标准通用标记语言的一部分，但它有一个固定的文档类型定义（DTD）。继承标准通用标记语言，超文本标记语言背后的动机是战略性且部分是政治性的，因为当时标准通用标记语言是主流协议，因此超文本标记语言可以更容易地被社群所接受。然而，内容与形式的分离也是具有技术意义的一步。伯纳斯李写道：“标准通用标记语言社群所支持的一个架构规则是形式和内容的分离。它是万维网架构的重要组成部分，使上述设备可能独立，并且极大地帮助处理和分析。”[116]

此处我们应该首先把关于形式质料说的概念放于恰当的关键位置上。它是关于技术最直观的概念，正如亚里士多德所言，“在说到质料的时候，我想到的就是雕像的青铜，而形状是指物体外观的几何形状，综合则是把雕像本身作为一个整体。”[117]正如西蒙东与海德格尔所做的，人们可以做出批判，认为质料不是形式的被动客体，而应是形式来源于质料。一个好的工匠会根据物质的特定状态或预见质料产生的形式来创造雕像。[118]然而，此类批判基于人类的经验，特别是在手工生产的时代是正当的。而在大规模生产的时代，质料对形式的优越性被颠倒过来，因其不再是一个人的技能问题，而是生产此形式的机器标准问题。形式与质料在这里有两个对立的含义：（1）形式是对机器无法理解内容语义含义的补偿（相当于制模的象征，它总是一个标准）；（2）形式激发了对理念的追求，它成为西方形而上学与现代科学技术的融合点，或马丁·海德格尔所称事物的本体论神学（onto-theological）构成。在机器生产时代，形式优于物质的概念化在现代性中暴露出内在的矛盾。一方面，由于模具的同质性，生产过程显著加快，这在很大程度上忽略了质料的单一性。另一方面，形式将所有情境话语用一套严格的规则取代，这些规则在外部进一步构成各种形式的生活。这种双刃剑的论点持续推动着正在进行的社会辩论，但仍然缺乏对形式的彻底解读。[119]

建筑师克里斯托弗·亚历山大（Christopher Alexander）在他的书《论形式的综合》中写道：“设计的最终目的是形式。如我们所言，放置在磁场中的铁屑呈现出图案或形式，是因为是它们所处的场不同质。如果世界是完全规则且同质的，就不会有力量，也不会有形式。一切都将是无定形的。但是一个不规则的世界试图通过适应自己的不规则来弥补它，从而形式化。”[120]对于亚历山大而言，设计问题只能通过形式来解决，而问题的内容则由其语境定义。这与我们在介绍蔡廷与弗雷德金计算主义时的所见产生共鸣。因此，有必要区分作为技术趋势的形式与以形式作为对技术物的知觉。然而，与形式作为生产的最终动力的观念相反，西蒙东认为，一种工具“不是由质料和形式组成的。它是由特定的使用系统下的技术成分构成的，并通过制造过程组合成一个稳定的结构。”[121]尽管我们知道批量生产主要是基于制模与其中的形式—质料逻辑，技术过程不能简单地通过形式质料原则来解释。技术物的身份等同于其生产的整体，而不是其形式和质料。西蒙东用一种相当极端的方式来说：“毫不夸张地讲，一根简单的针的质量表达了一个国家工业的完美程度。”[122]这标志着从形式决定个体向更宽泛的系统决定论的转变。实际上，这两个过程都指向西蒙东所谓的“历史奇点”：生产本身始终是分布在整个技术组合中的历史时刻的产物。西蒙东认为，尽管形式质料说不足以解释技术生产的现代性本质，但它仍然是一种直觉的思维模式，仍然是一个主流的工程原理。我的假设是，在不同的历史和技术条件下，形式质料说在物质意义上产生了异于其预期效果的东西。它从而暴露出复述其本身的思想的局限；因此我们的分析必须首先以怀疑的目光审视形式，并在展开分析时对其重新定位。

超文本标记语言于1991年为万维网执行，并且仍然是我们今天使用的标准语言。在超文本标记语言标记模式的早期，元数据主要集中在页面的结构、可视化与超文本再现。词汇的形式化与局限性降低了其复杂性，产生了轻便的语言。与Java编程语言及基于万维网的Java小应用程序相比，超文本标记语言在编程能力方面非常有限。伯纳斯李称这种基于简化的方法为最小能力原则。[123]

元数据方案作为一种相对较弱的语言，只表达形式，而不具有操纵形式和对象的能力，这发生在Java编程语言中。超文本标记语言使用一组标准化的标签来指示逻辑格式的内容表示。如图表8中超文本标记语言的简单示例所示，

<p></p>表示包含段落（作为结构），<b></b>表示粗体字体（作为可视化），<a href="url"></a>表示超链接（作为超文本）。我们可以说超文本标记语言是一个元数据方案。作为一种相当弱或低效的编程语言，它不会为机器提供关于页面上数据的大量信息，而是外于其编码的对象。对于图像的使用亦是如此；譬如，在图表9中可看到在1993年的早期超文本标记语言文档中用于描述在线图像的专用标签。[124]

图表8　超文本标记语言简单一例

图表9　早期超文本标记语言协议中对一个图像的详述

如图表9所示，图像应该是“小图像”或“图标”。我们无法插入大图像。SRC指示统一资源定位符，ALIGN指示可视化表现，ALT指示“替代文本”，它是“可选的”，并且是唯一可以添加额外元数据（无需语义上特定标签）的地方。这些标签等同于1993年在万维网上的“数字图像对象”。然后，在1994年，发布了HTML 2.0，随后在1995年制定了HTML 3.0草案，随后又在1997年发布了HTML3.2。我们可以看到，随着原始标签的细化，更多的标签逐渐增加。HTML 3.2引入了表格、小应用程序、图片、下标和上标的文本流。[125]我们可以将其与万维网联盟1997年推荐的更高版本HTML 4.0进行比较（见图表10）。

我们可以看到在HTML 4.0中做了一些改进（或者可以说这是一个更好的“形式”）。添加了更多的标签，例如指定图像大小的标签。我们可以看到，它不再局限于“小图像”和“图标”，但信息仍然非常有限，计算机几乎不可能识别图像的真实性。我们仍然可以填写以提供图像的简短描述，但是计算机不会理解它，除非计算机能够解释自然语言。事实上，在整个脚本中，“对象”这个词是理所当然的，没有任何解释。这里有两个值得关注的标签：“usemap”和“ismap”。这些标签等同于两种不同类型的图像映射，通过将图像的目标部分链接到另一个统一资源定位符来进一步指定图像的真实性。“Ismap”是服务器端的图像映射；它只适用于不识别“usemap”（这是用户端图像映射）的落伍浏览器。图像映射是指那些在图像本身之外的关系，我们可以开始注意到，个体并不存在于它自己的术语中，而总是与其他外部的东西相关或相联。然而，最重要的是，HTML 4.0最关键的方面是它完全集成了层叠样式表（CSS），允许更高级的格式定义与网页表示。对象（文本和图像）可以用标记来描述，这些标记明确地表示它们的含义，且现在可以根据其外观进行进一步的格式化。我们也应该认识到，这是作为具体化的物化过程。20世纪90年代后期，以Shockwave、Flash、MP3等形式出现的多媒体数据的增加，自然要求改进再现方式。如果没有这些描述，搜索引擎将无法找到数据，数据将最终停留在网络空间的黑暗角落，无人问津。这一概述的问题（语义含义的缺乏）随后将通过可扩展标记语言（XML）的建议来解决。

图表10　HTML 4.0下的图像详述。http：//www.w3.org/TR/1999/REC-html401-19991224/struct/objects.html#edef-IMG.

可扩展标记语言也是通用标记语言的一种改进，或者说是标准通用标记语言简化后的语法。可扩展标记语言的发展主要是为了改善缺乏灵活性的超文本标记语言，降低标准通用标记语言的障碍，后者也被认为太繁杂而无法在万维网上使用。在我之前提到的“松弛时间”中，可扩展标记语言也扮演着重要的角色。2000年左右，微软Windows（.Net框架）和Sun Java（Java 2平台企业版）框架之间存在分歧。可扩展标记语言随后在它们外部形成了框架，为这两种技术之间提供了桥梁。[126]与标准通用标记语言相比，可扩展标记语言一方面在语法上放置了一些更严格的规则，例如将未关闭的标签表示为错误；另一方面，它放弃了一些标准通用标记语言的复杂语法。这些差异的一个例子是对于标准通用标记语言，文档类型定义必须是“有效的”，而对于可扩展标记语言，任何具有适当标签语法且格式良好的数据都是可行的（即使没有文档类型定义）。这使得可扩展标记语言易于使用，即使对于不熟悉标准通用标记语言规范的人亦是如此。用户可以很容易地依据常识和先前的知识创建描述图像的可扩展标记语言文件（见图表11）。

图表11　可扩展标记语言下图像简单一例

如果我们将其与前面HTML 4.0的例子（图表9）进行比较，那么可扩展标记语言可以通过限制用户程序员根据需求或有用性而提供关于对象的信息来得到很大收获。在计算机程序被编写和设计以用于分析数据的情况下，它随后能够追踪诸如谁检索到这张照片或图像以及在它哪里拍摄的信息。这些信息对于信息检索非常有用，使程序员能够通过添加更多的属性，以简单的方式进行更详细的描述来扩展可扩展标记语言。因此，描述可以说明图片表现了谁，何时拍摄，等等。这是可扩展标记语言的基本思想，尽管还有许多其他的技术细节不会在这里提及。在物化方面，可扩展标记语言比超文本标记语言创造的形式更加灵活而强大。与此同时，它可以与任何普通用户共享受限制的语义。在2000年，万维网联盟推荐使用可扩展超文本标记语言（XHTML）（它是HTML 4.0和XML 1.0的组合）采用超文本标记语言结构和可视化表现的属性集，并包含结构化内容表现的可扩展标记语言语法。譬如，“namespace”（可以理解为前缀）的添加，因此尽管它们共享公共后缀“cat”，但前缀1：cat与前缀2：cat可以被区分。通过这些标签，计算机程序将能够自动从网页中提取这些数据。[127]与我们讨论的形式质料相关且有意思的是，这是在2002年推出并在2009年正式“死亡”的XHTML2的明显失败之处。XHTML2已经被形容为“与现实世界完全脱节的哲学纯粹性的美丽说明”；[128]然而，其根本问题在于它离技术现实太过遥远。它既不与旧的兼容，也不符合开发者的惯例。由于只有少数开发者使用XHTML2，所以它的死亡与消失并没有造成太大的影响。

在2011年4月，万维网联盟引入了HTML 5.0，一种将早期版本的超文本标记语言与可扩展超文本标记语言集成在一起的单一语言。他们介绍了与我们在这里的讨论相关的两个非常重大的变化。第一个变化是引入了应用程序编程接口（API，如音频和视频播放器，拖放API），它们将超文本标记语言从文本表现扩展到某些形式的伪软件。HTML 5.0的第二个改进是引入了一系列<object>的多样性，包括<audio> 、<video>、<canvas>等等。增加了更多的属性以更好地把握对象，或者我们可以说，以实现数据更好的“物化”。让我们考虑HTML 5.0中<img>的例子。现在可以根据图像的状态标示图像的外观，如“不可用”、“部分可用”、“完全可用”或“破碎”，以及在显示图像时显示下载状态。[129]

我们已经注意到，在数码物中，形式的概念继续成为计算的技术趋势，尽管现在标准已经变得普遍。形式是抽象的模式，标准是具体的物。我们还必须铭记标准化的其他方面——政治和经济。首先，它是一个追求全球范围内计算兼容性的强制性技术过程，其次它也是建立合作和联盟网络的营销战略。我们只关注第一个方面。由于可扩展标记语言是可自由扩展的，某些程序员可能使用模式A来描述一个对象，而另一个可能更喜欢模式B，结果则会是缺乏客观性。在这种背景下的客观性应该被理解为是指来自一个客体本身并且对观察者来说是普遍的元素的性质。譬如在科学中，客观的方法和客观的观察模式就排除了所有形式的主观和心理的解释。这种对客观性的理解包含与普遍性之间的矛盾关系。在内容与形式分离的语境下，我们已经讨论了普遍性的第一个意义。作为普遍性的形式成为每台机器的共享框架，其修改可能导致不兼容。所以，要揭露一个没有变化的形式，它必须被认为是客观的。这突出了与可自由扩展的可扩展标记语言相关的一个问题。由于可扩展标记语言保证了形式的格式与有效性，因此不能保证模式的客观性（在这种情况下是使用的标签集合）。这种客观—普遍的关联可以与另一种普遍性形成对照，一种允许差异的普遍性。伯纳斯李当然并非不知道这种矛盾，因为他把这种对普遍主义的第二种理解与一神论普遍主义的宗教进行了比较。[130]一神论的普遍主义把各种宗教的教义结合在一起，为分化创造了一个空间。对伯纳斯李而言，这是他设计网络的关键原则之一，如他对轻量的超文本标记语言和低级的可扩展标记语言的建议。形式的最小化允许进一步的扩展与适应。

当可扩展标记语言在概念上被修改为本体时，这种歧义就变得明显了。2001年在《科学美国人》杂志上发表的一篇文章中，蒂姆·伯纳斯李和他的合作者提出了语义网的概念，他们设想所有的对象在此都是由标准本体表示的。这些基于可扩展标记语言语法的本体以一种使机器能够理解并操纵数据的方式来规范对象的语义。每个对象—谓述都由唯一的统一资源定位符标识，该统一资源定位符充当数码环境中的身份标识。因此，不仅对象具有身份，而且它们的组成或谓述也具有身份，因此受控制和操纵。伯纳斯李和他的同事们以一个想象的场景开始：皮特与露西的母亲需要定期看专科医生。他们的语义网络代理（一个能够分析本体的计算机程序）可以告诉他们医院的位置，到达目的地的最佳方式，如何与诊所的代理预约，以及如何重新安排自己的工作以适应母亲的预约。伯纳斯李继续描述语义网如下：

语义网将网页中有意义的内容结构化，从而创建环境，使一个从一个页面到另一个页面漫游的软件代理可以轻松地为用户执行复杂任务。进入诊所网页的代理不仅知道该网页上有‘治疗、药物、物理、疗法’等关键词（可能在今日被编码），而且也知道哈特曼博士周一、周三以及周五在这家诊所工作，脚本以年月日格式输入日期范围，以及反馈预约时间。[131]

本体与可扩展标记语言之间究竟有什么区别？技术上的解释表达如下：（1）“本体不同于可扩展标记语言模式（它描述可扩展标记语言文档的结构），因为它是知识表示，而不是消息格式”与（2）“网络本体语言（OWL）本体的一个优点是可以推理它们工具的可用性。”[132]这两点对比需要进一步讨论。这里的知识表示并不意味着仅仅是表示，而必然是客观的，所以它所呈现的可以被视为一个对象，而不是一组文本信息。为了使客观性与两种不同形式的普遍性相一致，要做出两个预设：（1）有客观表征的事物；（2）它们的转化性可以发生在事物的两种表征之间，允许语境A的对象转化为语境B的对象。这个转化过程就是词汇表与前缀的转译。如果我们停下来思考一下，我们会意识到如果没有第二个预设，转化是不可能的。这里支配的是作为普遍性的客观性概念。事实只有在可以归入借此可以进行规范和计算的形式时才有意义。现在让我们来看一下图表12中本体驱动的信息系统中图像的例子。该图显示了2007年从Flickr提取的数据样本[这只是该选定图像中包含的元数据的一个小样本；[133]这些数据是使用Flickr的公共API函数（Flickr.photos.getInfo）提取的]。[134]

图表12　从Flickr.com的一个图像中提取的数据样本

提取的数据样本似乎相对较大（考虑到它已经是在几年前获得的，如今可能会更大）；“图像是什么”显然远远超过HTML 4.0指定图像的定义和描述的总和。我们很容易看到，这里给出的信息比我们从实际观看图片得到的信息要广泛得多，包括地理数据、相机信息、上传时间、不同的参考身份识别、朋友的信息等等。我们甚至可以看到图像对象同时嵌入了各种相机对象、作者对象、位置对象等等。因此，一个客体不只是由一种单一的形式，而是由多种形式（或回应西蒙东的说法，以其为基础）决定。我们将在本书后面的章节回到本体论和关系论的概念。我们现在的重点只是把握个化的过程——这不仅仅是物的具体化，而且也是技术缔合环境的创造，否则它就无法发挥作用。在从通用标记语言到网络本体的具体化过程中，数码物可以以更加详细的方式被描述，同时在更广泛的平台和接口上建立更广泛环境中的材料连接。然后本体通过（由万维网联盟提出的）资源定义框架（RDF）持续地被格式化。资源定义框架也基于可扩展标记语言的语法，因此具有逻辑形式。一个资源定义框架语句遵循一阶逻辑的规则，如下面的代码：

<主体>+<谓述>+<客体>（++<object>）

这种简洁性允许机器级别上的推理语言与连续的逻辑操作。从可扩展标记语言向更为逻辑性定义的资源定义框架的过渡是朝着一个由人工智能驱动的万维网迈出的重要一步。2002年又引入了另一个标准网络本体语言来提高逻辑运算的性能。网络本体语言正是万维网联盟开发的用于本体构建的语言。网络本体语言有三个版本，每个版本根据不同的用途和复杂性进行区分。最高和最复杂级别的网络本体语言是一个逻辑语言，它可以表示诸如类、属性、关系和基数等变量。网络本体语言的使用将从“可以推理它们的工具的可用性”中受益，或者用伯纳斯李的话来说，机器可以“假装在思考”。[135]网络本体语言、资源定义框架、一阶逻辑与描述逻辑（DL）的关系将在第五章中进一步讨论。

总结前面关于数码物个化的讨论，我们认识到这个过程包含三个关键概念：普遍性、互操作性与可扩展性。巧合的是，这些都是“客观性”的同义词。然而我们可以看到，这种客观性事实上是在不断的演进或个化的过程中的。这种客观性不仅限于人的理解，还需要机器的解释。关于“数码环境”客观化和个化的讨论，最近才进入了一个更加成熟的阶段。从横向上看，我们可以看到，形式已经从通用标记语言（允许一台机器内程序之间的兼容）发展到本体（跨越互联网，在机器与机器之间），这一过程逐渐涉及更多数量的对象、机器与用户，以维持其功能与稳定性。我们也可以通过缔合环境来衡量互操作性和兼容性。纵向而言，我们可以看到，数码物总是处于一个逐渐变得更加具体和个化的过程之中。超文本标记语言只是一个格式化的文本文件，而资源定义框架是一个复杂的文件，以高级编程与逻辑开发能力编码。因此，资源定义框架或网络本体语言格式下的本体与面向对象程序设计中的对象类似。面向对象编程有三个重要的特性：抽象，封装与继承。如此，一个类可以被覆盖从而生成新的类，它随后继承父类的某些属性和函数。我们可以在当前的网络本体概念中确定所有这些特性。

数码物的起源促成了对这些物的动力的调查，其目的是为了更好地理解这一新型的工业物的意义。由西蒙东而始，我们可以将起源的概念应用于数码物，同时还发现了我们以前会忽略和忽视的新动力。数码物的起源是具体化与物化的过程，首先是形式，其次是物之间明确的关系与联系。我们也可以把这看作是一个与主体间性相反的客体间性进化过程，我们将在第四章中进一步阐述这一过程。本章末尾，在讨论了作为一般技术趋势的形式之后，我们来到了本体创造问题。现在我们应当提出这一问题：这些本体从何而来？我们也应试图理解从其形而上学的背景中脱离出来并变成纯粹实践的本体这一词语与概念所涉及的内容。在下一章中，通过对布赖恩·坎特韦尔·史密斯、埃德蒙德·胡塞尔与马丁·海德格尔关于物体与本体理论的研究，这些问题将得到更深入的解答。

论数码物的起源：数据的物化与物的数据化

相关推荐