iOS编译过程的原理和应用

前言

一般可以将编程语言分为两种,编译语言和直译式语言。

像C++,Objective C都是编译语言。编译语言在执行的时候,必须先通过编译器生成机器码,机器码可以直接在CPU上执行,所以执行效率较高。

像JavaScript,Python都是直译式语言。直译式语言不需要经过编译的过程,而是在执行的时候通过一个中间的解释器将代码解释为CPU可以执行的代码。所以,较编译语言来说,直译式语言效率低一些,但是编写的更灵活,也就是为啥JS大法好。

iOS开发目前的常用语言是:Objective和Swift。二者都是编译语言,换句话说都是需要编译才能执行的。二者的编译都是依赖于Clang + LLVM. 篇幅限制,本文只关注Objective C,因为原理上大同小异。

可能会有同学想问,我不懂编译的过程,写代码也没问题啊?这点我是不否定的。但是,充分理解了编译的过程,会对你的开发大有帮助。本文的最后,会以以下几个例子,来讲解如何合理利用XCode和编译

对于不想看我啰里八嗦讲一大堆原理的同学,可以直接跳到本文的最后一个章节。

iOS编译

不管是OC还是Swift,都是采用Clang作为编译器前端,LLVM(Low level vritual machine)作为编译器后端。所以简单的编译过程如图

图片[1]-iOS编译过程的原理和应用-JieYingAI捷鹰AI

编译器前端

编译器前端的任务是进行:语法分析,语义分析,生成中间代码(intermediate representation )。在这个过程中,会进行类型检查,如果发现错误或者警告会标注出来在哪一行。

图片[2]-iOS编译过程的原理和应用-JieYingAI捷鹰AI

编译器后端

编译器后端会进行机器无关的代码优化,生成机器语言,并且进行机器相关的代码优化。iOS的编译过程,后端的处理如下

图片[3]-iOS编译过程的原理和应用-JieYingAI捷鹰AI

图片[4]-iOS编译过程的原理和应用-JieYingAI捷鹰AI

执行一次XCode build的流程

当你在XCode中,选择build的时候(快捷键command+B),会执行如下过程

Entitlements:
{
    "application-identifier" = "app的bundleid";
    "aps-environment" = development;
}
   
   
  • 1
  • 2
  • 3
  • 4
  • 5

编译各个.m文件,使用CompileC和clang命令。

CompileC ClassName.o ClassName.m normal x86_64 objective-c com.apple.compilers.llvm.clang.1_0.compiler
export LANG=en_US.US-ASCII
export PATH="..."
clang -x objective-c -arch x86_64 -fmessage-length=0 -fobjc-arc... -Wno-missing-field-initializers ... -DDEBUG=1 ... -isysroot iPhoneSimulator10.1.sdk -fasm-blocks ... -I 上文提到的文件 -F 所需要的Framework  -iquote 所需要的Framework  ... -c ClassName.c -o ClassName.o
   
   
  • 1
  • 2
  • 3
  • 4

通过这个编译的命令,我们可以看到

clang是实际的编译命令
-x      objective-c 指定了编译的语言
-arch   x86_64制定了编译的架构,类似还有arm7等
-fobjc-arc 一些列-f开头的,指定了采用arc等信息。这个也就是为什么你可以对单独的一个.m文件采用非ARC编程。
-Wno-missing-field-initializers 一系列以-W开头的,指的是编译的警告选项,通过这些你可以定制化编译选项
-DDEBUG=1 一些列-D开头的,指的是预编译宏,通过这些宏可以实现条件编译
-iPhoneSimulator10.1.sdk 制定了编译采用的iOS SDK版本
-I 把编译信息写入指定的辅助文件
-F 链接所需要的Framework
-c ClassName.c 编译文件
-o ClassName.o 编译产物
   
   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

IPA包的内容

例如,我们通过iTunes Store下载微信,然后获得ipa安装包,然后实际看看其安装包的内容。

图片[5]-iOS编译过程的原理和应用-JieYingAI捷鹰AI

二进制文件的内容

通过XCode的Link Map File,我们可以窥探二进制文件中布局。

在XCode -> Build Settings -> 搜索map -> 开启Write Link Map File

图片[6]-iOS编译过程的原理和应用-JieYingAI捷鹰AI

开启后,在编译,我们可以在对应的Debug/Release目录下看到对应的link map的text文件。

默认的目录在

~/Library/Developer/Xcode/DerivedData/<TARGET-NAME>-对应ID/Build/Intermediates/<TARGET-NAME>.build/Debug-iphoneos/<TARGET-NAME>.build/
   
   
  • 1

例如,我的TargetName是EPlusPan4Phone,目录如下

/Users/huangwenchen/Library/Developer/Xcode/DerivedData/EPlusPan4Phone-eznmxzawtlhpmadnbyhafnpqpizo/Build/Intermediates/EPlusPan4Phone.build/Debug-iphonesimulator/EPlusPan4Phone.build
   
   
  • 1

这个映射文件的主要包含以下部分:

Object files

这个部分包括的内容

- .o 文文件,也就是上文提到的.m文件编译后的结果。

- .a文件

- 需要link的framework

#! Arch: x86_64

#Object files:

[0] linker synthesized

[1] /EPlusPan4Phone.build/EPlusPan4Phone.app.xcent

[2]/EPlusPan4Phone.build/Objects-normal/x86_64/ULWBigResponseButton.o

[1175]/UMSocial_Sdk_4.4/libUMSocial_Sdk_4.4.a(UMSocialJob.o)

[1188]/iPhoneSimulator10.1.sdk/System/Library/Frameworks//Foundation.framework/Foundation

这个区域的存储内容比较简单:前面是文件的编号,后面是文件的路径。文件的编号在后续会用到

Sections

这个区域提供了各个段(Segment)和节(Section)在可执行文件中的位置和大小。这个区域完整的描述克可执行文件中的全部内容。

其中,段分为两种

例如,之前写的一个App,Sections区域如下,可以看到,代码段的

__text节的地址是0x1000021B0,大小是0x0077EBC3,而二者相加的下一个位置正好是__stubs的位置0x100780D74。

# Sections:
# 位置       大小        段       节
# Address   Size        Segment Section
0x1000021B0 0x0077EBC3  __TEXT  __text //代码
0x100780D74 0x00000FD8  __TEXT  __stubs
0x100781D4C 0x00001A50  __TEXT  __stub_helper
0x1007837A0 0x0001AD78  __TEXT  __const //常量
0x10079E518 0x00041EF7  __TEXT  __objc_methname //OC 方法名
0x1007E040F 0x00006E34  __TEXT  __objc_classname //OC 类名
0x1007E7243 0x00010498  __TEXT  __objc_methtype  //OC 方法类型
0x1007F76DC 0x0000E760  __TEXT  __gcc_except_tab 
0x100805E40 0x00071693  __TEXT  __cstring  //字符串
0x1008774D4 0x00004A9A  __TEXT  __ustring  
0x10087BF6E 0x00000149  __TEXT  __entitlements 
0x10087C0B8 0x0000D56C  __TEXT  __unwind_info 
0x100889628 0x000129C0  __TEXT  __eh_frame
0x10089C000 0x00000010  __DATA  __nl_symbol_ptr
0x10089C010 0x000012C8  __DATA  __got
0x10089D2D8 0x00001520  __DATA  __la_symbol_ptr
0x10089E7F8 0x00000038  __DATA  __mod_init_func
0x10089E840 0x0003E140  __DATA  __const //常量
0x1008DC980 0x0002D840  __DATA  __cfstring
0x10090A1C0 0x000022D8  __DATA  __objc_classlist // OC 方法列表
0x10090C498 0x00000010  __DATA  __objc_nlclslist 
0x10090C4A8 0x00000218  __DATA  __objc_catlist
0x10090C6C0 0x00000008  __DATA  __objc_nlcatlist
0x10090C6C8 0x00000510  __DATA  __objc_protolist // OC协议列表
0x10090CBD8 0x00000008  __DATA  __objc_imageinfo
0x10090CBE0 0x00129280  __DATA  __objc_const // OC 常量
0x100A35E60 0x00010908  __DATA  __objc_selrefs
0x100A46768 0x00000038  __DATA  __objc_protorefs 
0x100A467A0 0x000020E8  __DATA  __objc_classrefs 
0x100A48888 0x000019C0  __DATA  __objc_superrefs // OC 父类引用
0x100A4A248 0x0000A500  __DATA  __objc_ivar // OC iar
0x100A54748 0x00015CC0  __DATA  __objc_data
0x100A6A420 0x00007A30  __DATA  __data
0x100A71E60 0x0005AF70  __DATA  __bss
0x100ACCDE0 0x00053A4C  __DATA  __common
   
   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38

Symbols

Section部分将二进制文件进行了一级划分。而,Symbols对Section中的各个段进行了二级划分,

例如,对于__TEXT __text,表示代码段中的代码内容。

0x1000021B0 0x0077EBC3  __TEXT  __text //代码
   
   
  • 1

而对应的Symbols,起始地址也是0x1000021B0。其中,文件编号和上文的编号对应

[2]/EPlusPan4Phone.build/Objects-normal/x86_64/ULWBigResponseButton.o
   
   
  • 1

具体内容如下

# Symbols:
  地址     大小          文件编号    方法名
# Address   Size        File       Name
0x1000021B0 0x00000109  [  2]     -[ULWBigResponseButton pointInside:withEvent:]
0x1000022C0 0x00000080  [  3]     -[ULWCategoryController liveAPI]
0x100002340 0x00000080  [  3]     -[ULWCategoryController categories]
....

   
   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

到这里,我们知道OC的方法是如何存储的,我们再来看看ivar是如何存储的。

首先找到数据栈中__DATA __objc_ivar

0x100A4A248 0x0000A500  __DATA  __objc_ivar
   
   
  • 1

然后,搜索这个地址0x100A4A248,就能找到ivar的存储区域。

0x100A4A248 0x00000008  [  3] _OBJC_IVAR_$_ULWCategoryController._liveAPI
   
   
  • 1

值得一提的是,对于String,会显式的存储到数据段中,例如,

0x1008065C2 0x00000029  [ 11] literal string: http://sns.whalecloud.com/sina2/callback

   
   
  • 1
  • 2

所以,若果你的加密Key以明文的形式写在文件里,是一件很危险的事情。

dSYM 文件

我们在每次编译过后,都会生成一个dsym文件。dsym文件中,存储了16进制的函数地址映射。

在App实际执行的二进制文件中,是通过地址来调用方法的。在App crash的时候,第三方工具(Fabric,友盟等)会帮我们抓到崩溃的调用栈,调用栈里会包含crash地址的调用信息。然后,通过dSYM文件,我们就可以由地址映射到具体的函数位置。

XCode中,选择Window -> Organizer可以看到我们生成的archier文件

图片[7]-iOS编译过程的原理和应用-JieYingAI捷鹰AI

然后,

关于如何用dsym文件来分析崩溃位置,可以查看我之前的一篇博客。

那些你想到和想不到的应用场景 __attribute__

或多或少,你都会在第三方库或者iOS的头文件中,见到过attribute。

比如

__attribute__ ((warn_unused_result)) //如果没有使用返回值,编译的时候给出警告
   
   
  • 1

__attribtue__是一个高级的的编译器指令,它允许开发者指定更更多的编译检查和一些高级的编译期优化。

分为三种:

语法结构

__attribute__语法格式为:__attribute__ ((attribute-list))

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享