智能机器翻译技术创业公司商业计划书.pptx
下载文档
上传人:职z****i
编号:1135633
2024-09-08
20页
5.47MB
1、XX智能技智能技术术XX是由微是由微软资软资深技深技术术人人员创办员创办的人工智能公司的人工智能公司XX科技(Atman)是一家人工智能创业公司,由来自微软亚洲研究院(MSRA)和微软搜索技术中心(Bing STC)的资深技术专家于2016年初创立,同年5月获 北极光创投天使轮投资。公司愿景:以消弭人类跨语言沟通障碍为己任,聚焦世界领先机器翻译技术的研 发和应用,追求语言转换过程的极致自动化。当前产品和服务:领先机器翻译技术结合译后编辑重构高质量语言转换服务 外媒内容全链条生产平台:外媒选材、机器翻译、在线编辑、自动分发、XxxXxx CEO清华大学毕业,曾供职微软亚洲研究院、微软互联网技术中2、心专长机器智能(深度学习、强化学习、群体智能)发表论文和申请国际专利共计15+项主导项目:手写识别、必应改错语音识别、智能邮件、神经网络对话等XxxXxx COO吉林大学法学院本科/硕士,中欧商学院EMBA弘毅投资早期员工;TCL创投执行董事、中兴资本副总经理、贵州开开门投资管理有限公司总经理参与ZEPP、音乐笔记等多个创业项目的策划、融资、运营管理超过10年的公司业务规划和运营管理经验。、XxxXxx CTO北京大学电子系本科,中国科学院自动化所硕士曾供职朗讯、摩托罗拉、诺基亚微软互联网搜索技术中心专长于大规模系统开发、移动应用开发、项目管理、研发团队管理快速工程化机器翻译先进技术创创始始团3、队团队机器翻机器翻译译加自然加自然语语言言处处理技理技术驱动产术驱动产品和服品和服务务落地落地NLP机器机器 翻翻译译搜索搜索Big Data语语音音图图像像用户群体核 心 技 术领域产品形态语语言服言服务务翻翻译译系系统统 私有私有部署部署端到端端到端 翻翻译译业务业务以以 翻翻 译译 为为 核核 心心 需需 求求 的用的用户户内容生内容生产产内容内容 生生产产力平台力平台以以 内内 容容 为为 核核 心心 需需 求求 的用的用户户更多更多 细细分分领领域域细细分分领领域域 用用户户结结合合细细分分领领域域应应用用 持续提升核心翻译能力 构建人工智能全栈技术 深耕优势领域,打磨产品应用 探索4、更多领域,共赢现有产品里程碑:十月望生,完成核心技里程碑:十月望生,完成核心技术术研研发发,开展商,开展商业业模式探索模式探索06070809101112010203自主研发ANMT系统时政领域翻译超越GBBANMT数据使用革命科技领域翻译超越GBBANMT支持多机多卡计算医疗领域翻译超越BB,与Google持平,国内最佳公司开始运营中标某世界500强医药企业机器翻译项目启动内容生产平台项目,携手科技领域著名媒体筹建翻译服务项目,聚 焦医药领域翻译服务探索:机器翻译+广告分发探索:机器翻译+境外旅游20162017ANMT:Atman Neural Machine TranslationGBB5、:Google,Baidu,Bing(Microsoft)领先机器翻译技术之养成100%自主研自主研发发、垂直、垂直领领域超越谷歌的域超越谷歌的NMT机器翻机器翻译译系系统统ANMT和GBB NMT系统对比ANMT技术优势模型 引入正则化多层递归网络,提升神经元利用率 引入覆盖率模型,解决多译、漏译问题 数据驱动的词元模型,解决超大词表和组合词表问题 多目标迁移学习,复用算力和训练时间数据 课程表学习大规模提升单位数据利用率 半监督学习使用单边数据改善数据稀疏性 强化学习,探索训练数据之外的翻译表达 基于知识图谱构造训练数据基基础础模型模型模型模型层层数数算力算力 (GPU)数据来源数据来源数6、据数据规规模模语语言言翻翻译领译领域域开开发团队发团队(人人)Atman多层RNN (GRU/LSTM)Attention824互联网数据亿级中英垂直领域8GBB 16100互联网数据+企 业数据+UGC百亿级 50全领域 50“More data beats clever algorithms,but better data beats more data”-Peter Norvig翻翻译译效果:政治效果:政治领领域域指指标标AtmanGoogleBaiduBing(MS)BLEU52.7050.9435.7341.91翻翻译译效果:科技效果:科技领领域域指指标标AtmanGoogleBai7、duBing(MS)BLEU29.2528.4527.9325.60翻翻译译效果:医效果:医疗领疗领域域指指标标AtmanGoogleBaiduBing(MS)BLEU32.8031.5631.7728.55某世某世界界500强强医医药药公司公司 机器翻机器翻译译技技术术 独家独家提供商提供商漏翻重要信息机器翻译重构语言服务市场语语言服言服务务市市场场市市场规场规模模较较大并存在大并存在痛痛点点需需 求求 产能不高且有上限:每人每天5000字字翻译 产能补充缓慢、并且优秀人才持续流出 专业领域翻译难度大,收入有限:医疗专业名词有几十万几十万之多 全球市场400亿亿美元,中国市场1000亿亿人民8、币 国内医疗行业年翻译需求量150亿亿字 医疗专业领域翻译前三名市场份额之和10 痛痛 点点方案一:机器翻方案一:机器翻译译私有(云)部署私有(云)部署-某医某医药药企企业业解决方案解决方案该该客客户户部署部署结结构构图图某世界500 强医药企业18家投标企 业唯一中标2017年6月首期交付首个客首个客户户验验收收标标准准BLEU指 标 超 谷 歌 一 个百分点自动评测忠 实 度 和 流 畅 度 均 超谷歌人工评测2000人 同 时 在 线 翻 译使用并发能力方案一:机器翻方案一:机器翻译译私有(云)部署私有(云)部署-未来完整解决方案未来完整解决方案全面覆盖翻译数据服务机器翻译模型增量训练翻9、译项目管理翻译辅助工具客户端系统集成接口灵活使用私有部署私有云租用(SaaS)方案二:方案二:计计算算辅辅助翻助翻译译工具工具监监管数据和工作流程管数据和工作流程机器翻译创新外媒内容生产过程外媒生外媒生产产有巨大市有巨大市场场需求,且有明需求,且有明显显提升空提升空间间大量活活跃跃小自媒体微信活跃280万万家微博头V34万万家头条活跃20万万家外媒外媒需量惊人日均产文150万万篇日翻译字数6亿亿字字需需 求求选材、翻译、校对、分发等内容生产各环节主要依赖人工对外媒内容覆盖覆盖程度低,远小 于10生产成成本本高,4道工序需要专人,且翻译按字计费生产流程耗耗时时长,大约2天时间痛痛 点点产产品原型已品原型已获获得良好的用得良好的用户户反反馈馈“从我们做科技媒体的 角度看,很多国外的消息,你们这里都有,而且是翻译 好的,这一点很有价值”“我坚信,这个是未来巨大的内容源生产方式”“超级看好这个产品,解决 了我们想做信息分发的想 法”“帮大家减轻了大众选 题的工作,能不能添加自己 的选题源呢?另外,翻译和 英文都保留的方式很不错,赞”通通过过在在线编辑线编辑功能收集用功能收集用户标户标注数据注数据