透过上述的程式码与机率分布之间的相似点,最小描述长度原理和机率论及统计学是有很密切的关连。这使得有些研究员将最小描述长度看成等同于Bayesian inference。模型的代码长度和模型及资的料代码长度则分别相当于Baysian架构中的prior probability和marginal likelihood。这观点可用David MacKay的Information Theory, Inference, and Learning Algorithms中的例子来说明。(见下面链接)然而,当用Bayesian机器建造有效率 最小描述长度 程式码有用时,最小描述长度 架构也包含其它非Bayesian的程式码。一个例子是Shtarkov的'normalized maximum likelihood code',在目前 最小描述长度 理论中扮演一个核心角色。但不等于Bayesian推论。更进一步,Rissanen强调,对于真实资料产生过程,我们应该不做假设:实务上,一个model class在传统上是真实的减化,所以不包含任何客观角度都为真的程式码或机率分布,根据 最小描述长度 哲学,如果Bayesian方法是基于对某于可能的资料产生过会导致不好结果的不安全的priors,我们应该除去。从 最小描述长度 的观点来看,可接受的priors,通常倾向所谓的objvective Bayesian分析;然而,其动机通常是不同的。
最小描述长度并非第一个信息论来学习的策略。早在1968年,Wallace和Boulton即提倡一类似概念,称作最小讯息长度。最小描述长度和最小讯息长度的不同一直是让学界及百科编撰者困惑的来源。表面上来说,这些方法大致看似相同,但有一些主要不同,特别是在解释方法上:
最小讯息长度是一个完全面向Bayesian策略:它从这个想法开始:一假说代表其在关于资料产生过程,以prior分布表示的可信度。最小描述长度公开地避免任何关于资料产生过程的假设(但请面上面关于选择一个"合理"代码的困难)。
两种方法都使用了两部分代码:第一部分总是代表一人试图去学习的资讯,如模型类别的索引(model selection)或参数值(估计理论)第二部分则是一种资料的编码,在给予第一部分资讯的情况下。其不同是在于,在 最小描述长度 中,其建议,我们不想学到的参数应被移到第二部分的码,其中他们可以使用one-part code来和资料在一起。这通常比two-part code更有效率。在 最小讯息长度 原始描述,所有的参数是在第一部分被编码,所以会学到所有参数。