搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
样本量确定理论的研究(精)/数据科学的方法与应用丛书
0.00     定价 ¥ 108.00
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购15本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787030814340
  • 作      者:
    作者:杜子芳|责编:徐倩
  • 出 版 社 :
    科学出版社
  • 出版日期:
    2025.03
收藏
内容介绍
《样本量确定理论的研究》全面地介绍了各种常见统计应用场景下的样本量确定方法,重点讨论了样本量确定的原理,弥补了已有统计学在这方面的不足。特别地,在统计学领域内*次介绍了分布估计和建模等应用场景中的样本量确定方法,填补了空白。
展开
精彩书摘
**章统计学基本知识
  统计学严格说只处理统计学数据,并非处理任意数据。统计学数据是特殊的统计数据,统计数据是特殊的数据,数据是特殊的信息。
  信息是对客观世界中各种物与事的反映。所谓物是一切有形的东西;所谓事是一切物的存在状态;所谓反映是能够使人类将不同的物与物、事与事区别开来的外在性状。人类通过感觉器官或感知工具实现对这些外在性状的感知,由此达成对物与事的认识。
  按信息论的观点,因物与事都是客观的且*立有边界的,故统称为实体。将不同的物与物、事与事区别开来的外在性状虽然也是客观的,却不是*立有边界的,只能附着在实体上,故称为属性。而信息的构成要素是实体和属性,为了强调实体与属性在构成信息时密不可分的关系,将信息定义为实体加属性。
  所谓实体是指人们能够清晰感知其边界范围的客观存在。对于人类来说,除了感觉(视觉、听觉、嗅觉、味觉、触觉)器官(眼、耳、鼻、舌和皮肤)、感知工具(温度计、显微镜、望远镜、红外紫外仪器、X光机以及各种传感器等)具有感知信息的功能之外,想象力也可扮演同样角色。
  一些实体是能够通过人类感觉器官特别是视觉和触觉器官直接感知的,如曰、月、水、火、山、石、田、土,动物、植物,森林、草原,书房、卧室、餐厅、厕所,床、椅、板凳、家电,以及手机、电脑、充电器等各种产品;这些都是通常所说的看得见或摸得着的实体。
  一些实体是通过简单工具或复杂工具间接感知的,如望远镜里的遥远星体,显微镜下的微生物,布朗运动中的微粒,X光机里的骨骼,电子显微镜下的分子、原子。
  还有一些则是通过想象力感知的。例如,地理学家为了便于刻画具体地点所在,在地球上想象出经纬线、几何学的坐标,依此将空间划分为边界清晰的区域或点,这样我们可以想象任何一片土地皆可分成许多规范的网格;古希腊人为了航海辨别位置的需要,将天上星星连接起来,想象成一个个星座;社会学的家庭、居委会、城镇乡村、社区、群体、机构组织;物理学中的质点、流体力学中的流体;商标、专利;行走、奔跑、游泳等动作;理发、修理、家政、医疗、教育、邮政等服务 这些实体的边界客观上并不清楚,需借助思维的主观想象才能清晰化,即所谓想得出的。物理学里时间段和空间区域,以及数学中的定义域、值域等都有想象力的贡献。
  所谓属性,是实体的构成组件或附着的特性。其中组件如四肢、五脏、六腑之于人;附着的特性如性别、年龄、学历、品格、身高、体重、血压等之于人。
  组件构成实体不可缺少的一部分,是客观存在,不依赖于观察者的主观视角,一旦缺少了组件,实体便不具备其完整功能。例如,一个汉字的笔画,汉语拼音或英语单词的字母,一个汉字词的字,一个成语的字词,一个句子的字词、成语;一个段落的句子,一节的段落,一章的节,一本书的章节;汽车的马达、变速箱、轮胎、车门、天窗和触摸屏;人体的大脑、骨骼、肌肉、手足和五脏、六腑等都是组件。
  在不同的视角下,实体的某个组件也可看作*立存在的实体,如一种视角下,轮胎是汽车的组件,但在另一视角下,轮胎又可看作由轮毂、内胎、外胎、气门嘴等组件构成的实体。故组件与实体相似,有些凭借人类的感觉器官即可感知,如视觉器官可以感知实体的一些组件,如汽车的轮胎、方向盘、挡风玻璃,人的五官,汉字的笔画等;而触觉器官可以感知黑暗中的屋子大门、门上的把手。有些则需要工具甚至非常复杂的工具,如X光机、电子显微镜、声呐、雷达、监视器等。而少量组件的感知则也需借助思维,如子公司、关联公司、附属机构;交易的条件(离岸价);行走的双腿动作(彳亍为行)等。
  所谓特性,与组件不同,本身完全不能*立存在,只能附着于实体之上。例如,汉字的笔画、拼音字母的多少不能离开汉字和拼音而*立存在;汽车的颜色、自动挡或手动挡、马力、加速性、油耗不能离开汽车而存在;一个人的脸型、发型、身高、肤色等也不能脱离人体而存在。但若人们不关注这些特性也并不影响实体本身的存在。一副扑克牌可以看作红黑两色,可以看作**与非**,可以看作数字牌、字母牌和图形牌,**加四花色;与玩法对应的有将牌与杂牌,有常将牌与普通将牌外加杂牌。成语“皮之不存,毛将焉附?”中,皮是实体,毛即是附着其上的特性。
  由是观之,当关注对象为实体时,这些特性和组件都只能附着在实体之上,无法*立存在,所以被统称作属性。
  人们使用感觉器官或工具感知到的特性,或者说在人们头脑中所反映的特性称为特征。特征者,特性之外在表现也。凭借这些特征,我们可将不同的实体区分开来,从而帮助我们进行识别、选择与决定。
  对于一个实体而言,可能对应着许多属性。对于多个有联系的实体而言,某些特征一致,某些特征不一致。
  所谓属性表现是指同一属性在同类实体中不同实体上的外在特征,不同的实体其特征可能不一样;而同类实体是指在某个和某些属性上其表现一致的所有实体构成的集合。同类实体中的各个实体在某个或某些属性上的属性表现相同,而在其他属性上的属性表现则可能不一样。
  属性表现或具体属性只与同类实体中的不同实体相联系,正是凭此信息其具有作为区分依据的功用,汉字中的“特”字很好表达了这层意思。属性表现因此也被称为属性水平或属性值。
  所有属性中,凡可直接以数值表达的属性称为数量属性,如体重、年龄、价格、长度、时间、里程、销售量、纺织品出口总值等;凡不可直接以数值表达的属性称为质量属性,如性别、籍贯、民族、脸型、所有制、颜色等。数量属性的属性表现为数值,质量属性的属性表现为非数值。数量属性与质量属性是属性的基本分类,也是*重要的分类。
  不同的属性其功用不一样。有的可以对由许多实体构成的同类实体集合进行粗略的划分,有的则可在粗略划分的基础上对同类实体集合继续进行进一步的细分。这正像逻辑上认为定义就是从大概念里剜出的小概念一样,经由较多属性的属性水平的一致性来定义同类实体,有着属性越多同类实体的规模越小的规律。这也就是逻辑学里内涵越丰富外延越狭小的道理。
  寻找定义同类实体的方法与途径对于科学和知识的产生与形成非常重要,信息的作用就是辨别事物的差异,从而有助于对事物的精准识别,减少错误,避免模糊,降低不确定性。
  属性是属性名称和属性表现的融合体,正如信息是实体和属性的融合体一样。因而完整的信息包括实体、属性名称和属性表现三个方面的内容,否则无法发挥辨别事物之差异的作用。身份证号码是一个利用信息消除不确定性的很好的例证。
  人们关注的信息在有些场合是单个实体的,在另一些场合是多个实体的;在有些场合是单一属性的,在另一些场合是多个属性的;因而依据实体的多寡和属性的多少,信息可以分为四类(表1-1)。
  统计与统计学关注的是多个实体特别是很多个实体的场合,所以只关注iil类或iv类信息。
  对于多个实体,统计学特别关注其中的同类实体。同类实体的区分是具体情况具体分析与不同情形区别对待的逻辑基础。
  一般地,对于同类实体人们关注其四个方面的性质。
  (1)属性的数目多少。对于一个特定的同类实体,属性数目少到一个,多到数不清。作为修饰的不同属性可能是平行的,也可能是结合的,如白色的比亚迪轿车,单亲的三口之家。属性数目记为P。
  (2)属性表现的数目多少。对于同类实体的一个特定属性,其属性表现数目少到两个,多到数不清,如性别属性只有两个属性表现;扑克牌的花色属性具有四个属性表现;中国人的民族属性依据现有的规定具有56个;空气中的二氧化碳含量有数不清的属性表现。属性表现也称属性水平或属性值,以民记之。
  关注属性的多少既取决于客观存在,也取决于主观需要。例如,一个人的实体可能附载着见诸履历表的社会人口学项目或见诸体检表的医学化验项目或见诸人体工程学的人体尺寸项目等,不同专业领域所关注的属性是不同的。
  然而,在统计的大多数场合中,人们关注的是多个属性。例如,人力资源数据库中的员工履历表,财务数据库中的员工工资表等,里面涉及的项目都是相应实体的一些属性,有些时候实体属性之多甚至要用众多来形容。
  (3)单个实体本身的规模大小。对于若干个不同的同类实体而言,差异很大,小到电子、粒子、细胞、病毒、基因,大到物体、动物、植物、国家、全球、太阳系、银河、可见的宇宙。
  (4)同类实体的数目多少。亚洲人多于欧洲人,中国人多于日本人,内地(大陆)同胞多于港澳台同胞。同类实体的数目称为同类实体规模,记为N。
  统计和统计学主要针对/关注的是规模大(即包含实体数目多)的同类实体。
  假设我们的研究只限于特定的一个同类实体,则信息量(衡量信息的一个指标)与该同类实体所包括的实体个数成正比,也与同类实体被关注的属性个数成正比。除此之外,不同属性的具体表现(又称属性水平)数量不同,有的属性水平较多,凭此可以将同类实体分成许多子集,如按照年龄、身高、收入等属性可把国民分成许多组;有的属性水平较少,凭此只能将同类实体分成少数子集,如按照民族属性只能将中国国民分作56个组,而按照两个水平的性别属性只能将国民分作两组。于是,属性水平的多少也是影响信息量的一个因素,信息量与属性水平数目成正比。
  虽然表面上实体本身大小似乎并不影响信息量,但是显然反映一国的情况远复杂于反映一个人或一块土地的情况。实体本身的大小客观上对实体多少具有潜在影响,特别是实体时空范围很大,本身可以细分的情况。
  记研究的信息量为1,同类实体的实体个数为N,属性的个数为P,第i个属性的属性水平个数为,则有
  在人类活动的各种场合,信息量足够都是正确判断与决策的基础。
  统计领域涉及的信息量往往很大。在许多场合,人们往往关注大规模实体的某一个特性,如库布其沙漠的梭梭树数量,新疆产棉区棉花种植面积和棉产量,东北大豆的平均蛋白质含量,深圳市的机器人生产能力,南方产稻区的稻草总量,北京市大气的pm2.5浓度,中部地区各省会城市的地区生产总值,荣耀手机某条
  生产线一批产品的次品率。
  在另外的许多场合,人们往往关注大规模实体的某一些特性,如全国儿童血清里各种维生素(维生素A、B、C、D、E和K)的浓度分布,各地中小学生的体重、身高、近视率、百米奔跑速度和各门课程的考试成绩分布情况,各国诸多竞争力指标,等等。类似库布其沙漠、新疆产棉区、北京市大气和全国儿童等就是实体,具有看得见、摸得着、想得出、边界清晰的特点;而梭梭树数量、棉花种植面积、PM2.5浓度和血清维生素浓度分布则是不具象的特性或特征。
  沙漠、产棉土地、大气、儿童等都可视为由一些同类的小实体组成的大实体,统计学将由许多个同类小实体构成的实体看作集合,称之为总体;将构成总体的许多小实体看成集合的元素,特别地,如果小实体都不可再分则称为个体。
  个体概念强调在研究视角下,本身是*小的或不可再分的。
  总体与个体是一对范畴,成对出现且需要相互定义。总体与个体是统计学*基本的概念。总体是由许多个同类个体构成的集合,个体是构成总体的元素。中国公民是全体拥有中华人民共和国国籍人的集合,不管他/她住在地球上的什么地方,属于哪个民族,肤色如何,只要他/她符合公民条件,就是这个集合的元素。这两个概念极其重要,可理论上并不难理解,任何学过集合论者都可轻松学会,在我国,集合论至少是某些中学阶段数学课的内容之一。
  从应用角度看,理解总体与个体有时难度很大,因为总体和个体的边界未必都是清晰的。
  有些场合总体边界清晰,个体不清晰。例如,一艘石油巨轮里的石油,一列车里的煤炭,公园里的一片草地等。
  有些场合个体边界清晰,总体边界不清晰。例如,滇金丝猴种群,天山的雄鹰种群,锡林郭勒草原的草,大兴安岭的树等。个体很好识别,总体不容易识别。
  有些场合总体、个体两者都不清晰。例如,黄河泥沙影响海区的水生物调查中,具有水生物的海区不清晰,构成海区的个体也不清晰。地质矿产调查也类似。
  有些场
展开
目录
目录
**章 统计学基本知识 1
**节 统计数据的搜集 10
第二节 统计调查设计 14
第三节 分布特征 23
第二章 两大基础定理的样本量确定 32
**节 大数定理不带概率的样本量确定 32
第二节 大数定理带概率的样本量确定 36
第三节 中心极限定理成立的样本量确定 38
第三章 区间估计的样本量确定 43
**节 数值变量区间估计的样本量确定 43
第二节 分类变量区间估计的样本量确定 48
第三节 两阶段抽样总体均值估计的样本量确定 51
第四章 假设检验与区间估计的关系 58
**节 不完备情形假设检验的一般步骤 62
第二节 数值变量总体均值的k法检验 63
第三节 数值变量总体均值的双侧检验 67
第四节 分类变量分布特征的假设检验 75
第五节 数值变量总体方差的检验 81
第五章 总体分布估计的样本量确定 83
小结 92
第六章 统计建模的样本量确定 94
**节 基于条件均值估计的样本量确定 94
第二节 基于相关系数估计的样本量确定 96
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证