一些技能相关问题

1.说说`volatile`？

内存可见性： volatile保证了对变量的修改对所有线程都是可见的。当一个线程修改了volatile变量后，其他线程不再依赖本地缓存，而是从主内存中获取最新的值。
禁止指令重排序： volatile变量可以防止编译器或运行时环境对变量的读写操作进行优化（如指令重排序），确保修改的可见性按顺序发生。

2.线上cpu达90%如何查看解决？

查看进程资源使用：
- 在Linux系统中，可以用top或htop命令实时查看CPU、内存、I/O等资源占用情况：
或者在命令行输入ps -aux查看当前所有进程的资源占用。
找出CPU占用高的进程：
- 查看哪个进程的CPU使用率最高，通常CPU列会显示为%us或%CPU。找出PID（进程ID）。
分析CPU消耗：
- 使用ps -aux -o %cpu,command命令查看详细信息，判断是哪个服务或程序导致的CPU占用高。
- 如果是某个特定服务，查看其日志文件（比如日志文件路径是/var/log/your_service.log）以获取更具体的信息。
检查系统负载：
- 使用uptime、top或vmstat命令查看系统整体负载，可能是因为系统负载过高导致CPU使用率上升。
查看系统日志：
- 检查系统日志和其他监控工具（如Logstash、Prometheus、ELK Stack等）中是否有异常信息，可能有异常进程或错误消息。
调整系统参数或者资源分配：
- 如果是某个服务响应慢导致的CPU占用过高，可能需要调整服务的配置或调整线程池大小。
- 如果是资源争抢问题，考虑增加相关资源（内存、CPU核心）或者优化资源分配。
硬件优化：
- 如果系统经常达到90%，可能需要考虑硬件升级，比如增加更多的CPU核心，或者增加内存缓存。
检查是否有内存泄漏：
- 如果是服务导致的，需要检查代码是否有内存泄漏，或者系统内存管理是否正常。
报警系统：
- 检查是否有报警系统发送通知，当CPU使用率超过阈值时自动发出警报，以便快速定位问题。

3.Mysql本身内部如何提高性能的？

查询优化器
- MySQL 的查询优化器会对 SQL 语句进行解析和重写，找出执行该查询的最优方法。
- 它会考虑多种可能的执行计划，并选择一个成本最低的计划来执行。
InnoDB 存储引擎优化
- InnoDB 是 MySQL 的默认存储引擎，它提供了许多内部优化。
- 缓冲池（Buffer Pool）：InnoDB 使用一个大的内存区域来缓存数据和索引。当数据或索引被读取时，它们会被加载到缓冲池中，以便后续访问时可以从内存中快速获取，而不是从磁盘上读取。
- 自适应哈希索引：在某些情况下，InnoDB 会自动为经常访问的数据创建哈希索引，以提高查找速度。
- 预读：InnoDB 尝试预测哪些数据将被访问，并提前读取这些数据到内存中。

4.MVCC可以解决幻读问题吗`

MVCC本身并不能直接解决幻读问题，但它提供了一种机制来辅助解决幻读。幻读是指在一个事务中，如果该事务执行了多次同样的查询，但每次查询结果不同，这是因为其他事务在此期间对数据进行了插入或删除，而在该事务的快照中看不到这些变化。

为了减少幻读，MVCC可以通过以下方式处理：

使用更严格的隔离级别：如Oracle的"Snapshot Isolation"，MySQL的"Repeatable Read"，会确保一个事务在其执行期间看到的数据是一致的，不会看到其他事务在该期间的插入或删除。
选择较低的版本：一些数据库系统允许选择较低的版本来读取，但这在一定程度上可能导致数据不一致，需要根据应用需求权衡。
在读之后再加锁：在读取完数据后才获取加锁或锁住包含该读取结果的范围，这样可以避免其他事务在读取期间的操作影响到结果，但这会导致额外的锁定开销。

虽然MVCC本身并不能完全避免幻读，但结合适当的隔离级别和锁定策略，可以降低幻读发生的概率。

5.Kafka为什么快？

分布式和分区设计：Kafka将数据分散存储在多个分区中，这种设计可以显著减轻单个分区的负载压力，提高整体性能。通过将数据分散到多个分区，可以并行地处理和传输数据，从而大大提高吞吐量。
顺序读写磁盘：Kafka充分利用了操作系统的预读机制，进行顺序读写磁盘操作。这种操作方式相比随机读写更加高效，因为磁盘的物理结构决定了顺序读写可以减少磁头移动的次数，从而提高读写效率。
零拷贝技术：Kafka在Linux环境中使用sendfile命令，实现了数据的零拷贝传输。零拷贝减少了数据在内核空间与用户空间之间的拷贝次数，直接将数据从硬盘读取到网卡缓冲区，显著提高了数据传输的效率。
页缓存：Kafka使用页缓存来存储数据，而不是直接写入磁盘。页缓存是在内存中分配的，因此消息写入的速度非常快。Kafka依赖操作系统来管理页缓存的读写操作，从而提高了数据的读写效率。
生产者客户端缓存消息批量发送：Kafka的生产者客户端会缓存消息并批量发送，而不是一条一条地发送。这种批量发送的方式减少了网络IO次数，充分利用了磁盘顺序读写的性能，提高了消息发送的效率。
集群管理工具：Kafka提供了集群管理工具，可以监控和管理Kafka集群的状态和性能。通过合理配置和管理Kafka集群，可以确保集群的高效运行，并及时发现和解决潜在的性能问题。

综上所述，Kafka通过分布式和分区设计、顺序读写磁盘、零拷贝技术、页缓存、生产者客户端缓存消息批量发送以及集群管理工具等多种技术和机制，实现了高效的数据传输和处理能力。

6.Kafka发生消息重复的场景有哪些？

生产者端

重试机制导致消息重复：当生产者发送消息到Kafka时，如果因为网络问题或其他原因导致发送失败，并且生产者配置了重试机制，那么生产者会在重试成功后将消息再次发送到Kafka，从而导致消息重复。
消息发送成功但响应失败：在某些情况下，生产者可能成功地将消息发送到Kafka，但由于网络问题或其他原因，生产者没有收到Kafka的成功响应。此时，生产者可能会认为消息发送失败而再次发送消息，从而导致消息重复。

消费者端

消费者失败并重新加入消费组：当消费者因为某种原因（如崩溃或重启）失败并重新加入消费组时，它可能会从上次提交的偏移量开始重新消费消息。如果消费者在上一次消费后没有正确提交偏移量，那么重新消费时可能会导致已经处理过的消息被重复消费。
偏移量提交失败：如果消费者在处理完消息后未能正确提交偏移量，那么在下一次重启时，消费者可能会从之前的偏移量开始重新消费消息，从而导致消息重复。

其他因素

Kafka集群故障：如果Kafka集群中的某个或多个节点发生故障，可能会导致消息处理不一致或重复。例如，在消息复制过程中，如果主节点和备份节点之间的数据同步出现问题，可能会导致消息在多个节点上被重复存储和消费。
rebalance过程：在Kafka中，当消费者组中的消费者数量发生变化时，会触发rebalance过程。在rebalance过程中，某些分区可能会被重新分配给其他消费者，这可能导致已经处理过的消息被重新消费。

为了减少消息重复的发生，可以采取一些有效的措施，如使用幂等性生产者、确保正确的偏移量提交和消费者逻辑、以及合理配置Kafka的相关参数等。

7.Java技术框架如何选型？**

明确项目需求：
- Web开发：对于Web应用开发，可以考虑使用Spring Boot、Spring MVC、Struts2等框架。
- 分布式系统：如果需要构建分布式系统，可以选择Spring Cloud、Dubbo等微服务框架。
- 大数据处理：对于大数据处理场景，可以考虑使用Hadoop、Spark等大数据处理框架。
- 安全性：如果需要加强应用安全性，可以使用Spring Security、Apache Shiro等安全框架。
团队经验：
- 选择团队成员熟悉的框架，可以提高开发效率，减少学习成本。
- 如果团队需要拓展技术能力，可以适当引入新技术框架，但要确保有足够的学习资源和时间。
技术趋势：
- 关注当前流行的技术框架，如Spring Boot、Spring Cloud等，这些框架通常具有较好的社区支持和活跃的开发者社区。
- 考虑技术的未来发展趋势，选择具有较长生命周期和持续更新的框架。
社区支持和维护：
- 选择有良好社区支持和活跃开发者社区的框架，这样在遇到问题时可以更容易地找到解决方案。
- 确保所选框架有稳定的维护团队，以便及时修复漏洞和推出新功能。
性能与扩展性：
- 根据项目需求选择性能良好的框架，以确保系统可以承受预期的工作负载。
- 选择具有良好扩展性的框架，以便在项目需求发生变化时能够轻松地进行调整。
集成与兼容性：
- 确保所选框架可以与其他技术栈（如数据库、缓存、消息队列等）无缝集成。
- 考虑框架之间的兼容性，以避免在整合不同技术时出现冲突。
许可证和成本：
- 确保所选框架的许可证与项目需求相符，避免潜在的法律风险。
- 考虑框架的使用成本，包括购买、部署和维护等方面的费用。

综上所述，在选择Java技术框架时，需要综合考虑项目需求、团队经验、技术趋势、社区支持和维护、性能与扩展性、集成与兼容性以及许可证和成本等多个方面。通过对比不同框架的优缺点，选择最适合项目的框架。