为了处理上面两个主要问题,萧铭按照说明书的建议项,编辑着。
萧铭采用数学的思维,将每个词语设定为向量,并且分类为名词、动词等等。
将词语设定为向量的好处就是讲长难句进行肢解,翻译软件处理时会将每个词语准确的翻译。
接下来就是按照语言的语境筛选组合,将不同的词语按照翻译对象需要的语法和含义进行组合,并对缺少的语法要素进行补足。
在盘古编程语言的提示下,萧铭知道自己编程的逻辑是正确的。
但是逻辑正确只是第一步,怎么让拥有向量的词语按照语法组合为新的语句,这个很难,这也是现代翻译软件和机器最大的难点。
没有关系,这是盘古最擅长的。
盘古给了萧铭几个接入入了口。
萧铭将导入大量的中英文资料,资料不仅有名著更有口水话表达的网路小说、贴吧问答、微博、推特文章等等。
未来这些资料会可以由用户们自己上传,优化程序的准确性。
盘古的数据库能将整合这些资料,熟悉每一个句子的语境,然后整理出数据模型(模拟出汉语和英语等人类思维表达方式的模型)。
这些数据会帮助“词向量”在不同的语境和语法中出现在合适的位置,如此翻译会更加准确。