(多图预警)
最近,百度的文心一言开始接受检验,却引来非议,被称作“模仿者”,“鸿蒙的仿制品”,在哔哩哔哩上受到猛烈抨击。然而,说实话,许多人根本不在乎文心一言是否只是模仿,他们只是出于对百度的反感,连尝试都不愿意,就立刻对这件事下了结论。我明白众人皆对百度反感,我自己对这企业也深感不满,毕竟其行事笨拙是公开的秘密。但事理有别,不能因其行为笨拙,我们就无视客观情况。所以我选择提出不同看法,向那些主张中译英的人泼点冷水。
部分网友在文心一言的绘图选项里键入一些在中英转换时意义不明的词汇,例如键入“总线”,文心一言会生成“巴士”的图像,原因是总线和巴士在英文里都称作bus,这就证明文心一言实际上是将中文翻译成英文,然后利用公开可用的SD技术生成画面,最后把生成的结果当作自己创作的作品展示给用户。
同样的例子还有鱼香肉丝
起重机(crane)
土耳其()张开翅膀
这确实可以算作是文心一言存在抄袭行为的一个确凿依据,中译英能够说明前述情况,不过,中译英却不能说明后文出现的状况(后面的人工翻译全部采用百度翻译完成)
心中有数的人翻译成英文是A with a clear mind,心中有数翻译成英文是have a well--out plan,不管是哪一个都没有竹子
唐伯虎点秋香的机器翻译结果是Tang Bohu Dots ,其中完全没有出现任何与“虎”相关的字眼
车流如织马蹄疾,有河流,也有溪水,却寻不到真龙踪迹
机器翻译并非如人们所想那般愚钝,即便是百度翻译,也能准确翻译前述内容,且不会像文心一言那样出现“拘泥字面”的误判。
我们确实存在一个认知偏差,当中英转换产生不确定性时英译汉翻译工具,是否就能断定百度主要处理的是中文到英文的转换,而不是英文到中文的转换?或许我们都意识到了这种认知偏差,但为了吸引关注度,或者仅仅为了批评百度,很多人故意忽略了另一种可能性。但事实上我们察觉到,凡是能够通过汉译英进行说明的,同样可以通过英译汉进行说明,而且英译汉能够说明的范围更广,以前面提到的几张图片为例
唐伯虎
街道上车马往来,十分繁忙,不过这种说法存在疏漏英译汉翻译工具,因为百度只保留了车马川流不息,而马的部分却缺失了
当然也不排除那辆车是宝马的可能
此外还有
燃烧的航天器,在翻译成英文时,不会包含“熊”字,但若从英文翻译回中文,搜索引擎会将“bear flame”解释为熊熊火焰,这种现象便有了合理的说明
由此可见,文心一言并非像传说中那样进行“汉译英”,而是执行“英译汉”。那些支持“汉译英”观点的人所提供的论据,不仅无法证实文心一言是模仿他人的产品,反而能够表明它是独立研发的,只是借助了英文的资料库。
这可以解释为何文心一言在理解中文时常出现偏差,毕竟其训练资料主要源自英文语料库。
但以上都只是猜测,有其他证据能证明吗?
哦,确实存在,百度先前便公布了ERNIE - ViLG 2.0的相关研究资料,其中包含了他们所采用的数据集信息,详细内容能够查阅
当然我知道你们是不会看的,所以我就截出来了
ERNIE - ViLG 2.0 的170M图像文本对数据,类似于LAION(et al.,2021)的数据集,也包括其他类型的数据。图像自动对齐功能应用在相同的平台上。针对这些数据,我们通过百度API3进行处理,以获取相应的结果。
翻译成中文是
ERNIE-ViLG 2.0的练习资料共计一亿七千万组图文配对,涵盖了公开可获取的英文资料库,例如LAION(等人,2021年)以及一系列内部研发的中式资料。图像自动编码器在完全相同的视觉素材上实施训练。针对附带英文说明的图片,我们自动借助百度翻译服务3将其转化为中文文本。
凭借这些依据,我们能够极其审慎地认定:文心一言产生英汉转换的模糊现象,是因为它借助了英译汉的资料库,而不是汉译英的部分被提供给其他程序用于生成图像。
说实话,如果觉得文心一言只是个伪装出来的东西,那未免小瞧了百度,虽然百度给人的印象不太好,但它还是有真材实料的。科研中最头疼的问题是没法确定哪条路是对的,因此只能反复尝试,不断犯错。美国成功研发出核武器,苏联很快也开始了核武器的研发工作;苏联实现载人航天飞行,美国随后也送人进入了太空,因为一方已经探索出可行的路径,后来的国家只需跟随即可。那么为什么在计算机领域苏联却输给了美国呢?苏联在国力对比上处于劣势,却将发展重心放在了电子管技术上,美国则转向了晶体管研究,事实证明晶体管才是更先进的路径,苏联的选择最终导致了失误,为此承受了沉重的损失。
如今,方向已经明确,既然确认了该路径具备实施条件,百度再次踏足此途将不会构成挑战。
和老前辈GPT-4相比,文心一言的表现实在令人大失所望。人们当然可以批评它,指责它不够完善,毕竟文心一言的能力是大家有目共睹的。同时,也有人会替它说话,认为文心一言起步较晚,目前还处在发展初期,或者虽然文心一言提交的成果并不理想,但其他竞争者同样表现平平,因此我们依然在全球范围内占据领先地位。然而所有这些行为都必须以客观事实为依据,不能凭空臆断,更不能基于个人情绪进行抨击。即便要对百度提出批评,也要确保指责的靶子准确无误。