一般采集是从xml或别的有固定形态编码中采集。如果你是直接从链接截码,必须要做后台处理。而像你说得这种还会怕多出div的问题,这个就太麻烦了。建议用iframe做这类操作。
如果可行。最正规的方法是从提供的api或xml里提取信息。
网页信息采集技术是通过分析网页的HTML代码,获取网内的超级链接信息,
使用广度优先搜索算法和增量存储算法,实现自动地连续分析链接、抓取文件、处理和保存数据的过程.
系统在再次运行中通过应用属性对比技术,
在一定程度上避免了对网页的重复分析和采集,
提高了信息的更新速度和全部搜索率。
由于网站内的资源常常分布在网内不同的机器上,
信息采集系统从某个给定的网址出发,
根据网页中提供的超链接信息,
连续地抓取网页(既可以是静态的,
也可以是动态的)
和网络中的文件,
将网内的信息进行全部提取。
声音的采集是由硬件来完成的,比如通过mic讲话来把音频以一定格式存储在电脑上。
html5不是硬件设备不能直接采集音频,所以html5只能把存储在电脑上的已经录好的音频播放出去。