您现在的位置是:首页 > 创新技术
0544-CDSW1.5的新功能
智慧创新站
2025-04-08【创新技术】277人已围观
简介Cloudera于2019年1月29日发布,因为恰逢过年,所以Fayson没第一时间翻译。1.5的主要更新是C6中终于可以使用CDSW了,另外和中也可以使用CDSW。
1.的新功能
1.支持
ClouderaDataScienceWorkbenc...
Cloudera于2019年1月29日发布,因为恰逢过年,所以Fayson没第一时间翻译。1.5的主要更新是C6中终于可以使用CDSW了,另外和中也可以使用CDSW。
1.的新功能1.支持
ClouderaDataScienceWorkbench现在支持(或更高)和(或更高)。
2.ClouderaDataScienceWorkbenchonHortonworksDataPlatform(HDP)
ClouderaDataScienceWorkbench现在可以部署到和。
3.安全增强
允许SiteAdministrators启用/禁用项目上传和下载-默认情况下,所有的CDSW用户都允许从项目上传和下载文件。1.5引入了一个新的功能,允许SiteAdministrator为用户在UI上隐藏上传和下载的功能。
请注意,该功能仅仅是从CDSW的界面上删除了上传和下载的按钮,它并没有禁用通过后端WebAPI上传和下载文件的功能。
4.OpenJDK支持
ClouderaDataScienceWorkbench现在支持在(或更高)上使用OpenJDK。
5.Engines
基础引擎R升级到新版本3.5.1(BaseImagev7)
改进调试功能-以前,引擎在退出或崩溃后会立即删除与其关联的日志。对于1.5版本,现在可以在结束后短时间内使用引擎,以便你收集相关日志。
另外,当引擎以non-zero状态码退出时,引擎日志中的最后50行现在将打印到Workbench控制台。请注意,non-zero退出码和Workbench中引擎日志的存在并不总是意味着你的代码存在问题。会话超时和内存不足问题等也会抛出non-zero退出码,并显示引擎日志。
6.安装和升级
新的配置参数-1.5包括三个新配置参数,可用于指定正在运行的分发版类型,已安装软件包/parcel的目录以及安装Anaconda的路径(仅适用于HDP)。
DISTRO
DISTRO_DIR
ANACONDA_DIR
DOCKER_TMPDIR修改为/var/lib/cdsw/tmp/docker-以前,CDSW安装程序会临时将基础引擎镜像文件解压到/var/lib/docker/tmp目录。从1.5版本开始,安装程序将使用/var/lib/cdsw/tmp/docker目录。确保按照建议将Applicationblockdevice挂载到/var/lib/cdsw,以便安装/升级不会出现问题。
改进校验检查-改进了安装程序运行的校验检查(validationcheck)以及安装过程中显示的错误消息。ClouderaDataScienceWorkbench现在:
检查根目录,ApplicationBlockDevice和DockerBlockDevice是否有可用空间。
检查DNS正向和反向查找是否适用于所提供的CDSW域和MasterIP地址。
cdswstatus和cdswvalidate命令的错误信息显示会更友好,以便于调试。
7.命令行
cdswlogs-以前,cdswlogs命令生成两个日志包-一个是纯文本,另一个对敏感信息进行了脱敏。对于,该命令现在只生成一个包,默认情况下会对所有敏感信息进行脱敏。
要关闭日志文件的敏感信息脱敏,可以使用新的--skip-redaction参数,如下所示:
cdswlogs--skip-redaction
8.网络
CDSW现在使用DNS主机名(而不是IP地址)进行组件之间的内部通信。因此,为CDSW配置的通配符DNS主机名必须能被CDSW集群和浏览器解析。
CDSW现在可以在安装过程中启用IPv4转发()。
1.1.Engine升级开始打包的基础engine镜像包括的R和Python的版本为(version7):
,3.6.1
Engine7中预安装的软件包-参考:
升级项目使用最新的BaseEngineImages-确保进行了测试,然后升级已有的项目到BaseImagev7(ProjectSettingsEngine),以确保能利用最新的一些bug修复。
另外,CDSW现在会在有新版本的engine可用时提醒你。确保你将有的项目升级到了BaseImagev5(ProjectSettingsEngine)并进行测试,因为修复了一些bug。
请注意,如果你是在CDH6上使用CDSW,则升级到BaseImagev7是必须的。
你使用的baseengineimage必须与CDH版本兼容。如果你是在Spark上运行工作负载,这一点尤为重要。较旧的baseengine(v6及更低版本)无法支持最新版本的CDH6。这是因为这些engine指向Spark2parcel。但是,在CDH6上,Spark现在打包为CDH6parcel的一部分,不再支持单独安装Spark2parcel。如果要在CDH6上运行Spark工作负载,则必须将项目升级到baseengine7(或更高版本)。
CDH5和CDH6上Spark工作负载的CDSWBaseEngine兼容性
废弃的配置-CDHParcelDirectory
AdminEngines的SiteAdministration面板中不再提供CDHparceldirectory配置。根据你的部署,使用以下方法之一配置此属性:
CSD部署:如果你使用的是默认的parcel目录/opt/cloudera/parcels,则无需执行任何操作。如果要自定义parcel目录,需要在ClouderaManager中进行配置,具体参考CM相关文档。
RPM部署:如果你使用的是默认的parcel目录/opt/cloudera/parcels,则无需执行任何操作。如果要自定义parcel目录,需要在master和worker节点的文件中配置DISTRO_DIR属性。更改后运行cdswrestart。
3.修复的问题1.修复了RPM安装中忽略NO_PROXY设置的问题。ClouderaBug:DSE-4444。
2.修复了由于Webpod的IP问题导致CDSW无法启动的问题。1.5通过在启动时启用IPv4转发来解决此问题。ClouderaBug:DSE-4609
3.修复了在退出/崩溃后引擎会立即被删除,并且引擎日志不会存在的问题,这使得很难通过崩溃或自动重启来调试问题。ClouderaBug:DSE-4008,DSE-4417
4.修复了在CSD部署中启动和停止CDSW的间歇性问题。ClouderaBug:DSE-4426,DSE-4829
5.修复了CDSW报告大于2MB的文件的文件大小不正确的问题。ClouderaBug:DSE-4531,DSE-4532
6.修复了RunNewExperiment对话框未包含fileselector,且必须手动输入脚本名称的问题。ClouderaBug:DSE-3650
7.修复了底层Kubernetes进程耗尽资源导致OOM错误的问题。CDSW现在会为Kubernetes组件预留计算资源。ClouderaBug:DSE-4896,DSE-5001
8.修复了PYSPARK3_PYTHON环境变量未按预期用于Python3工作负载的问题。ClouderaBug:DSE-4329
9.修复了当使用HTTP/HTTPS代理时,CDSW的engine(比如自定义的engineimage)在本地不可用时,Docker命令会失败的问题。ClouderaBug:DSE-4427
参考:
很赞哦!(195)