穿越：2014 第243章拔剑四顾心茫然？-南山书院

　　通常时候，有钱确实可以为所欲为。

　　但为所欲为的同时别人很可能拿你当孙子。

　　有技术一样可以为所欲为。

　　但你为所欲为的时候，别人却得拿你当爷爷。

　　看看后世某些厂商拜寿式抢首发

　　大概就能够对“因技术而来的爷爷地位”这种说法管窥一二了。

　　从2021时空来到2014时空。

　　两个时空七年的时间差。

　　这就意味着林灰在大部分领域都最起码拥有七年的信息差。

　　而这个时代某些方面的短腿又使得林灰在部分领域拥有远不止于七年的信息差。

　　很多前世原本不那么先进的技术放到这個时空就是领先时代的存在。

　　如此一来，林灰真的可以为所欲为。

　　甚至于在这个时空的很多领域林灰真的就是爷爷级别的存在。

　　有的领域即便是地位没有“爷爷级”那么夸张。

　　但林灰同样是拥有相当明显的先知优势。

　　这种先知优势并不仅仅表现在技术细节先知上。

　　还集中表现在诸如路线优势等寻常人不容易察觉的细节上。

　　在多个领域拥有近乎于绝对优势的情况下。

　　林灰的地位是突出的。

　　潜在拥有的地位更是超然的。

　　甚至于只要林灰不去违法犯罪。

　　这几乎就是林灰可以为所欲为的时代。

　　不过除了法律这种硬性红线和最基础的人格底线之外。

　　总会有一个看不见摸不着的红线一样在影响着林灰。

　　当然，这条红线并不是道德。

　　事实上对于一些功成名就或者说小有所成的人道德方面基本上并没有红线，只有黄线。

　　普罗大众对功成名就或者说小有所成的人道德约束是相当宽泛的。

　　甚至于此前林灰已经做好了接受道德绑架的准备。

　　但事实是林灰还没有遭到这方面的控诉。

　　甚至还有很多人会尝试着往道德深渊的方向引诱着林灰。

　　就比如微/博上每天就有很多人天天给林灰发来各种要给他生猴子之类的私信。

　　甚至还热络地给林灰发来各种图鉴，就很无语。

　　尽管林灰内心有道德标准。

　　但涉及到道德方面的潜在约束力并不是林灰的潜在敌人。

　　真正的影响林灰的看不见摸不着的另一条红线。

　　那就是“合理性”。

　　很多时候顾念着合理性方面的考虑。

　　使得林灰不能够为所欲为。

　　纵然林灰很多技术是绝对意义上的领先，但依旧是没法肆无忌惮的搬运的。

　　有“合理性”这层看不见的红线存在。

　　林灰做事有很多顾忌。

　　如果是逻辑层面的合理性那么林灰无话可说。

　　林灰是尊重事物内在逻辑以及事情客观发展规律的人。

　　但问题是很多时候所谓的“合理性”并不是从逻辑方面出发的。

　　而是完全从“阵营”角度出发的。

　　相比于从逻辑层面的出发的合理性解读。

　　更常见的“合理性”解读的其实是后者。

　　什么是从阵营角度出发的评判规则呢？

　　说白了就是意识形态。

　　不过并不是所有的意识形态都热衷于合理性解读。

　　热衷于解读合理性的意识形态的主要代表自然是西方强行加给世界种种规则。

　　这种规则在科技领域、学术领域更是异常常见。

　　在搬运技术的时候，除了部分时候的合理性考量是从纯粹逻辑角度出发之外。

　　很多时候林灰觉得他为了合理性而做出的一些决策也只是顾念西方世界的规则而不得已进行的妥协而已。

　　这些西方的规则看不见摸不着。

　　但却很多时候都在左右着林灰所做出的抉择。

　　这无疑很令人不爽，但想在规则下谋求利益就不得不屈服。

　　但毕竟很多时候都是先到者为王，后来者遭殃。

　　事实是即便是林灰穿越来的那个时候很多时候人们也不得不忍受着同样的局面。

　　索性的是，回到七年前，在拥有大量优势信息的时候。

　　林灰有望加速这一局面的改变。

　　林灰所进行技术搬运或者准备进行的各种技术搬运。

　　林灰最终极的目标就是能够跟现行世界西方所塑造的一些规则说再见。

　　当林灰成长到不需要依托于西方的规则也能立身的时候甚至于是西方反而要依托于林灰所制定的规则才能立身的时候。

　　那林灰完全可以跟西方现行的规则说再见。

　　这种对不基于逻辑的“合理性”解读的控诉不止是控诉某些容易引起不公正的制度。

　　更加接近于实质的控诉归根结底是“话语权”之争。

　　拥有话语权相当于能够自己去解释合理性。

　　拥有绝对的话语权又相当于拥有了权威性。

　　而拥有了绝对的权威性甚至有的时候可以罔顾事实上客观规律性。

　　包括但不限于逻辑的合理性。

　　其场景大概为：“什么的合理不合理，lz就是理，lz说合理那就是合理。”

　　涉及到权威性除了这种任性究竟有什么用呢？

　　当然有用，权威性某种程度上是一种看不见摸不着的垄断。

　　能够拥有这样的话语权以及权威性。

　　将使林灰从前世所带来的信息能够收益直接最大化。

　　就拿林灰刚刚想到的“标注数据”。

　　林灰在前世信息里有大量的标注数据。

　　涉及到机器学习的标注数据能用来换钱。

　　自然语言处理方面的标注数据同样能用来换钱。

　　但标注数据是换钱最快的吗？

　　当然不是。

　　涉及到自然语言处理方面真要说来钱最多的还得是狭义知识。

　　狭义知识同样是自然语言处理方面的知识来源。

　　应用于自然语言处理项目的知识来源主要有三大类：

　　——狭义知识、算法和数据。

　　古语云，书中自有黄金屋。

　　真实意义上的黄金屋虽然不尽然。

　　但知识能用来换钱，这个众所周知。

　　既然知识能够用来换钱。

　　那么知识来源的手段自然也能用来换钱。

　　甚至于知识来源手段很可能比知识本身来钱更快。

　　作为自然语言处理的知识来源的算法和数据能换钱。

　　同样作为自然语言处理知识来源的狭义知识自然一样是能够换钱的。

　　对于算法能换钱的基本上为世人所周知。

　　即便是此前不知道这个能换钱的如果长时间关注林灰前段时间的所忙碌的重点也能清楚。

　　此前牵扯林灰多数时间的基本都是生成式摘要算法这件事。

　　无利不起早，没有足够的利益驱动林灰自然不会为这件事鞍前马后。

　　算法能换钱这件事基本不难懂。

　　算法往往直接影响一些算法驱动型产品的效率。

　　而效率就是真金白银。

　　能够直接影响效率的算法自然是能够很容易换取丰厚报酬的。

　　理解了算法能换钱。

　　其实也就不难理解数据为什么能换钱。

　　毕竟数据是很多机器学习算法构建的基石。

　　机器学习算法的出现往往要依赖于有标注的数据。

　　而且在相当长的一段时期内机器学习算法不仅是依赖于有标注的数据。

　　而且是依赖于大量有标注的数据。

　　标注数据量较小的情况下，很多时候是不足以训练一个性能优异的机器学习算法的。

　　从这个角度出发，就不难理解数据为什么可以换钱。

　　很多时候甚至可以完全可以把数据理解为是一种隐性的知识。

　　而数据标注的过程实际上就是将散漫自有的离散数据结构化、标签化的过程。

　　在算法和数据之外，所谓的狭义知识是什么呢？

　　狭义知识一般指通过规则或词典等形式由人工定义的显性知识。

　　狭义知识主要包括三种：

　　——即语言知识、常识知识和世界知识。

　　其中，语言知识是指对语言的词法、句法或语义进行的定义或描述。

　　其主要特色是定义了同义词集合。每个同义词集合由具有相同意义的词组成。

　　常识知识是指人们基于共同经验而获得的基本知识。

　　世界知识包括实体、实体属性、实体之间的关系等。

　　或许有人不理解？

　　为什么这类知识能换钱呢？

　　这些东西不都是显而易见吗？

　　这些知识虽然本质上依旧是人们所能理解的显性知识。

　　但对人们来说显而易见的显性知识，不等于对机器是显而易见的。

　　对于这类知识往往要通过规则化或者是词典化的处理以便于这些知识能够通过简单的处理成让机器理解。

　　这些很容易被机器所理解的知识叫狭义知识，也被称为专家知识。

　　最早涉及到自然语言处理方面的模型数据的时候人们往往想到的不是依靠数据去训练。也不是侧重于算法本身。

　　就依赖于这些专家知识去训练。

　　这种情况下狭义知识是相当有市场的。

　　林灰手中就拥有相当多的狭义知识。

　　这些东西如果能够拿来变现的话要比利用标注数据变现还方便。

　　毕竟从此前和伊芙·卡莉的交流来看。

　　以硅谷现在开发点什么机器学习就动不动跟哈佛、牛津之类高校合作的架势来看。

　　这种狭义知识在西方可是相当受欢迎的。

　　但这仅仅是理论上。

　　不拥有话语权就没有绝对的权威性。

　　而没权威性，纵然是同样水平的狭义知识。

　　想拿来换钱也是很蓝的啦。

　　相反，很多时候拥有绝对的话语权。

　　就顺带着拥有了绝对的权威性。

　　某些时候甚至可以直接对通行知识进行贴标。

　　对，没错，知识贴标。

　　这才是真正意义上的躺着赚钱。

　　而且是躺在大气层那种。

　　很美好，不过很遥远。

　　不过林灰也不必要太灰心。

　　因为涉及到话语权的追求，林灰并不孤单。

　　和林灰同行并不是某人。

　　而是一个五千年悠久历史的东方古国。

　　林灰相信通过不断的求索会一天实现涉及到话语权的终极追求。

　　理想是美好的，道路是曲折的。

　　现在没有话语权，想要依靠一些狭义知识去换钱是很难的。

　　还是老实通过数据标注去换钱现实一点。

　　虽然一般的文本数据标注相比于双语互译文本标注的数据其价值肯定是要打折扣的。

　　但在形成规模的情况下纵然是一般的标注数据一样是一笔不容小视的财富。

　　这种情况下似乎还是只能用技术去换钱。

　　仅仅是涉及到文本摘要有关的一些普通标注数据林灰估计在这个时空换取几千万美元的话完全没问题。

　　如果对这些标注数据加以一定包装并且足够幸运能够遇到一些识货人的话。

　　林灰估计忽悠个上亿美刀也是完全没问题的。

　　对这些标注数据加以一定的包装是什么意思呢？

　　就是美化标注数据的质量。

　　严格来讲的话，同样是标注数据也是可以区分为专家标注和众包的。

　　所谓的“专家标注”也不是真的专家去进行标注。

　　“数据标注”听起来似乎蛮高大上的，但实际上呢？

　　进行数据标注过程往往非常复杂，涉及到数据量特别多的时候，对人工劳动力会有很高的要求。

　　虽然不能说低端吧，但这种机械而繁复的工作至少跟高端是没啥关系的，砖家教授肯定是不会去干这活的。

　　所谓的专家标注一般都是由苦逼的算法工程师进行兼职。

　　或者由专门的算法数据标注员进行标注。

　　所谓的数据标注员是一种新兴职业。

　　前世，随着大数据以及人工智能时代的到来，为了应对数据标注的工作在互联网上出现了一种新型职业——数据标注员。

　　数据标注员的工作是使用相应的工具从互联网上抓取、收集数据，包括文本、图片、语音等等。

　　然后对抓取的数据进行整理与标注。

　　这些数据标注员工具体的工作流程一般很明确：

　　首先，标注人员经过培训，确定需要标注的样本数据以及标注规则；

　　而后，根据事先安排好的规则对样本数据进行打标；

　　其次，对标注完以后的结果进行合并。

　　而算法数据标注员稍稍有别于一般的数据标注员。

　　相比于一般的数据标注猿，算法数据标注猿往往在完成以上的步骤之后。

　　还要通过标注的数据喂模型进而调试模型。

　　尽管工作流程只是多了这一步，但专业的算法数据标注员依旧是凤毛麟角。

　　从先前罗列的任务也可以看出算法数据标注员的任务不仅仅是数据标注。

　　往往还需要根据标注的数据进一步评估算法模型。

　　如此一来很多时候对书记标注员的要求是这些人不光要进行数据标注。

　　还得懂相应的算法。

　　而这样的人很多时候可以说是凤毛麟角。

　　而且因为这种专业标注的人员很少。

　　往往专家级标注只能够胜任小量级的数据。

　　对于大规模数据标记和超大规模数据的标记任务想要依靠专家标记很多时候只能是力不从心。

　　对于大规模数据标记和超大规模数据标记往往只能寻求众包了。

　　众包模式是将零散的个人、小标注团队，整合到平台上，完成一个完整项目的服务模式。

　　这种模式的主要优势成本很低，且比较灵活。

　　尽管前世机器学习长期所致力于的工作就是能够以众包数据或者干脆是无标数据取代专家标注。

　　但真要问专家标注和众包数据哪个受欢迎。

　　那自然是前者。

　　这种情况下夸大标注数据中专家标注所占的比例很容易收获到更高的溢价。